看護・保健系大学院生のための統計学習サイト

第12章：因子分析その１尺度による潜在変数の測定

講義動画

ナレーション原稿

米倉　今日はですね、尺度による潜在変数の測定というところと、あとは、その尺度のですね、信頼性とか妥当性を検討するときに使われる分析で、今までの話に出てこなかった因子分析というものの話をしていきます。

　まずはこの尺度というのはいったい何なのかというところの話からなんですけども、直接観測することができないものを測定するための道具というのが尺度で、今までいろんな分析、度数分布表を描いたりとかですね、クロス表を描いたり、平均を計算したりとか、そういったことをやってきたわけですけども、この統計解析というのは、測定してデータ化できないものは分析できないわけですね。なので、なんらかのかたちでですね、この測定というのをしなければいけない。今までですね、ほかの授業というか、医学系のデータとかで、血圧を測ったりとか、血糖値を測ったりとかですね、そのようなものというのは、それを測定するための器具がちゃんとあって、それを測定できていたわけですけども、ここに挙がっているのは心とか、態度とか、気持ちとか、QOLとか、学力とか、健康とかですね。こういうものというのは、存在としてはあると。QOLというのはこういうものでとか、学力というのはこういうもの、健康というのはこういうもというような、概念として存在するのはわかるわけですけども、それをじゃあどうやって測定したらいいのか。測定するための、データ化するために工夫が必要になってくるんですね。けっこうですね、皆さんが知っているもののなかで、この測定、直接測定するのは難しいけれども、なんらか別の測定とか、観測ができる性質とか反応から推定、その状態を推定するというようなものというのはいろいろあって、例えばストレスを測るというときには、質問紙で聞く方法もあるんですけども、より生理学的な指標で問いたいというときにはコルチゾールですね。唾液とかのコルチゾールの濃度とかを測ったりとかするとかですね、あとは脳の機能を測るために、functional MRIとかというのを使って測定、どこが機能しているかとかというのを測定したりというようなものですね。これも測定とか観測できるものから間接的に、脳の機能のどこが働いているとかですね、ストレスに関しては、コルチゾールがこれぐらい出ているからストレスを感じているんだというふうなかたちで推定しているわけですね。その生理学的な指標以外にも、質問紙法とかですね、投影法とか、作業法とかというのがあって、この尺度というのは、質問紙法に相当するものになります。いろんな尺度がありますけども、抑うつの尺度とか、QOLの尺度とかですね、そういうのがあると。

　この尺度というのは、観測変数ですね、直接測定することができる変数のことを観測変数というふうに言うんですけども、観測変数の値からですね、潜在変数、直接測定することができないものというのを推定するための道具と。測定してですね、潜在変数を測定するための道具というのは尺度というものになります。潜在変数というのは、直接測定することはできないけれども、概念としては確かにあると。尺度によってですね、この潜在変数というのを測定するというようなことをしています。こういうですね、観測できるものから、直接見ることができるものから、何か直接は測定するのは難しいものを推定するということ。もう少し身近な例とかで考えてみると、例えばですね、ほかの気になる人から好かれている度合いとかというのを推定する。自分はどれぐらい相手の人に好かれているのかと。あわよくば、お付き合いしたいとか、そういうようなときとかにですね、脈があるかないかとかというのを、実際にそれを直接私のことを好きか嫌いかというふうに聞けば確かかもしれないですけども、それでも直接聞いても、照れ屋の人とかは、はっきり言ってくれない場合もあるわけですね。そういうときにというか、自分が好かれているかどうかというのをですね、実際の行動だったりとか、どんなことがあったというところから推定をしたりとかするというのと、尺度による測定というのはだいたい似ていて、好かれている度合い、もし好かれているのであればですね、LINEを送ったらすぐに返事をしてくれるとか、よく話しかけられるとかですね、遊びに誘われるとか、食事に誘ったら一緒に行けるとかですね、手をつないだりするとか、プレゼントをくれるとか、いろいろ実際の行動だったりとか、目に見えるものというので、自分が好かれている度合いとか、そういうのを測定して、あの人は脈ありだとか、どうのこうのとかというふうなことを考えたりするわけですね。このように観測できる行動とか特性から、観測できない概念とか特性の程度を推定するというような考え方というのが尺度による測定というもののイメージになります。

　それをですね、よりというか、きちんと統計的に扱えるようにするためには、この測定モデルとして数式に落とし込む必要があると。この尺度による測定のモデルとして一番シンプルなモデルというのは、古典的テスト理論というものです。古典的テスト理論の考え方は、質問項目への回答というのは、その項目が測定しようとしている概念とか特性ですね、健康状態とかですね、QOL、生活の質とか、そういうものの真の値と誤差に分けられるというふうに考えます。さらに誤差というのは、誤差に対する仮定として、平均が０ですね。つまり平均すると誤差というのは０ないんだと。ただ、その測定項目とかですね、人によってちょっと誤差がついてくると。なので、ばらつきがあって、標準偏差σの正規分布ですね。平均が０で、標準偏差がσの、正規分布に独立に従うというふうに考えます。そうするとですね、誤差は平均すると０なので、同じ特性を反映する多くの項目を集めて合計していけば、真の値に近い値を求められるんじゃないかというふうに考えてですね、この質問項目にいっぱい答えてもらって、その項目の回答のパターンと、測定しようとしている概念とか特性というのを測ってやろうというふうに考えているわけですね。それを式に落とし込むと、このRというのが、実際の質問への回答で、質問への回答には、その概念の真の値と、誤差というのに分けられると。項目をいっぱいつくってあげて、それに対する回答を集める。それをすべて合計して、真の値について解くとですね、この真の値というのは、回答の合計の部分と、誤差に分けられると。このΣの誤差のところというのは、平均すると０なので、このΣのですね、uijというのは、項目が多くなればなるほど０に近づいていくということがわかります。なので、こういう測定しようとする概念、特性にかかっているであろう項目というのを多く集めてあげればですね、より精度は高く、測定したい概念の値に近いものというのを測定することができるんじゃないかというふうに考えているわけですね。当然この項目が少ないとですね、偶然によって誤差の値が大きくなってしまうので、できるだけ項目が多ければ多いほど、この部分が０に近づいてくるというような仕組みになっています。

　こういうですね、考え方でつくられているものが、いろんな尺度がありますけども、一つの例としては、K6というですね、精神健康度の尺度。これは、国民生活基礎調査とかでも使われているようなものです。このK6の得点で、５点以上、10点以上、13点以上で、意味づけとしてですね、５点以上だったらなんらかのうつとか、不安の問題がある可能性があるということですね。10点以上だと、10点以上は、国民生活基礎調査でうつ・不安障害と判定する基準になっています。13点以上というのは、重度のうつ・不安の問題がある可能性ということがあるというふうに言われています。この５点とか、13点ってどうやって出てくるかというと、実際にですね、このうつとか不安障害がある人とない人で、このK6に答えてもらって、その得点で一番うまく、この問題がある人とない人というのを分けられるような線というのを、データからですね、推定したりとかしています。その話は、今日は入っていたかな。ROC曲線とか、そういうのを描いてですね、この５点以上とか、13点以上というようなカットオフポイントと言いますけども、尺度で測った得点と、実際の診断とかそういうのに結びつける得点というのを決めたりするということもあります。

　ほかにもですね、もう少し心理学寄りの尺度になってくると、こういう統御感というようなですね、概念があって、これは人々がですね、現在、自分の生活に影響を与えている重要な状況をコントロールすることができるという信念。そういうような信念というのを、こういうですね、尺度で測定することができるというふうなですね、この概念に沿って項目を起こして、実際にですね、このデータを取ってみた結果、これで統御感というのは測っていけるだろうというふうに、データから明らかになっているようなものというのは、こういう尺度になっています。皆さんもこれまでいろいろなアンケート調査とかに答えてきたりしたこともあるんじゃないかと思いますけども、このようにですね、多くの、いくつかの項目に対する回答というのを、合計したりすることでですね、直接測定するのが難しいような、こういう心理学的な概念だったりとか、健康状態とかですね、そういうものを測定しようとしているものというのが、この多項目尺度というものになります。

　この尺度というのは、ただやみくもにですね、なんとなくその概念に関連していそうだなというふうに思うような項目を素人考えでつくってもうまくいかなくて、きちんとですね、この尺度をつくるためのステップというのはきちんと決まっていて、詳しくはですね、一個一個詳しくは見ませんけれども、この尺度開発をするときにはですね、まず測定したい概念というのを明確にして、定義づけをしてあげるということをします。そのうえで、この概念に従って、概念を測定できるであろう項目というのをつくって、あとは回答のしかたとかというのを決めていくと。アイテムプールのレビューというところでは、実際につくった項目、アイテムプールというのは、項目の集まりだと思ってください。項目の集まりのことをアイテムプールというふうに言っています。アイテムプールが１回できたら、専門家ですね、その概念に関する専門家だったりとか、研究者に集まってもらってですね、開発する人も専門家の一人であることは多いわけですけども、それをつくったアイテムプールというのを見てですね、その概念を測定できそうかどうかというようなですね、あとで出てきますけど、内容的な統制というのをここで検討するわけですね。そのうえで、実際にですね、その質問項目に回答してもらう。一般の人だったりとか、その概念を測定したい対象の人たちに回答してもらってデータを集めて、項目ごとの分析をしたりとか、このあと出てくる妥当性とか、信頼性の検討というのをしていくということになります。これで実際にデータを集めて分析をしてみて、項目があまりよくなかったりとか、妥当性、信頼性が十分確保できなかった場合には、尺度の改定をして、よりよい尺度というのをつくっていく。というふうな流れになっています。

　今出てきたですね、この尺度の信頼性と妥当性というのが、この尺度によって測定がうまくいっているかどうかというのを考えるうえでですね、重要な性能の指標というものになります。信頼性と妥当性というのはですね、この的にですね、ボールとかダーツとかを当てるというのに例えられることが多くて、信頼性というのは、測定の再現性を表していて、この的にですね、玉を当てるというような比喩で言うと、投げた玉が的の一点に集中して当たる程度のようなものが信頼性だというふうに考えてもらいます。つまり、何回投げてもですね、同じところに当たるとか、何回やっても同じ結果になる。これは同じですね。あとは、誰が評価しても同じ結果になるというような、いくつかの信頼性の側面というのがあるんですけども、いずれにしても、この信頼性というのは、同じところにどんなボールを投げても同じところに当たると。何度投げても同じところに当たるとか。あとは、誰が評価しても同じ結果になるというように、ほかの人が、ほかの項目が、ほかの時点でやっても同じ結果になるというですね、測定の再現性というのを表しているのが信頼性というものになります。その側面によって、内的一貫性というものと、あとは再現性とか、再テスト信頼性というものと、評価者間信頼性というものに分かれます。

　妥当性というのは、尺度によって測りたいものが測れている程度を表していて、この的のですね、アナロジーで言うと、的の中心に近いところにですね、ボールが当たる程度です。なので、的で言うとですね、この図のところは真ん中に近いところに集中していて当たっているので、信頼性は高くて妥当性も高いと。それに対して、こういう例の場合は的の中心からは外れているんだけど集中しているというのが、信頼性は高いけども、妥当性は低いという状況。このいろんなところにばらけているというのは、信頼性が低くて妥当性が低いというような状況ですね。的の中心に近いところに集中して当たるためにはですね、中心に当たるためには、的の中心に集中していなければいけないわけで、信頼性が高くないと妥当性を高くするというのは難しいというわけですね。なので、信頼性が必要条件、信頼性が高いというのは、まずは必要な条件で、さらに妥当性が高いかどうかというのは、その信頼性を確保されたうえに成り立つというのが妥当性ということになります。妥当性は、全部ひっくるめて構成概念妥当性とかというふうに呼んだりすることもあります。

　信頼性というのはですね、測定の再現性を表すものというような話がありましたけども、信頼性の側面の一つとして、内的一貫性というものがあります。これは、内的一貫性というものはいったい何かというと、尺度を構成する項目が同じものを測定している程度ということで、イメージとしてはですね、尺度に含まれる項目に対する回答の相関ですね。尺度に含まれている項目の相関が高ければ、この内的一貫性が高くなるということで、つまり同じものを測定しているんだから、ある程度回答には相関があるだろうという考え方から出てきているものが、この内的一貫性というものになります。この内的一貫性と指標ですね。数量的な指標としては、クロンバックのアルファ係数というものがよく使われます。このクロンバックのアルファ係数というのは、０から１までの値を取って、１に近いほど内的一貫性が高いということを表しています。ただですね、ちょうど１に近くなりすぎると、今度はですね、このクロンバックのアルファ係数が１ということはですね、すべての項目に対する回答が同じというようなことになってしまうので、あまり高すぎると今度は余計な項目がですね、冗長になっている可能性があるということを示しているので、このクロンバックのアルファ係数というのは、ある程度高い必要があるんですけども、高すぎると困るということで、0.7から0.95であれば良好であるというふうに言われています。このクロンバックのアルファ係数は、皆さんは計算式を覚える必要はないんですけども、どういう指標かイメージしてもらうためにあえて数式を出していますが、こっちの計算方法２のほうがイメージしやすいかなと。これは、項目間の相関係数の平均というのは、このr ̅ですね。なので、項目間のですね、尺度に含まれる項目のあいだの相関が高ければ高いほど内的一貫性が高くて、信頼性が高いというふうに評価させるというものですね。というのが、この内的一貫性、クロンバックのアルファ係数というものになります。

　その次ですね。信頼性の側面のもう一つとしてはですね、再テスト信頼性というものがあるという話もさっき出てきました。この再テスト信頼性というのは、時間を空けてですね、同じ尺度で測定したときに、同じようなですね、状態であれば、ちゃんと同じというふうに出てくるというのが、再テスト信頼性ですね。なので、同じ内容の尺度ですね。同じ人に２回回答してもらって得点の相関を見るというのが、この再テスト信頼性のイメージというものになります。体重計とかもそうですね。体重が変わっていないんだったら、多少飲食をすると変わるかもしれませんけども、朝計った体重と夜測った体重というのは、だいたい同じぐらいの値になるというようなかたちで、それとかでね、毎日同じような生活をしていて、同じ時間に体重を計ればですね、基本的には体重はそんなに変化しないはずなので、同じ状態であればですね、同じ値が出るというのがこの再テスト信頼性というものになります。これは時間的に安定していると考えられるものを測定する際に、この再テスト信頼性というのを確認します。この再テスト信頼性の数量的な指標としては、級内相関係数というものがあって、これが再テスト信頼性の指標として用いられます。計算の方法については詳しくはやりませんけども、二変量混合効果モデルで、絶対一致のものというのを使うのがいいというふうに言われています。関心があれば、この引用文献を読んでみてください。級内相関係数の大きさは、0.7以上が目安というふうに言われています。

　それから評価者間信頼性というのもですね、尺度の信頼性の側面として一つあります。これは、自己評価というよりかは、ほかの人を評価するための尺度に適用されることが多くて、一番たぶんイメージしやすいのは、診断基準ですね。疾患とかの診断基準というのが、この評価者間信頼性が当てはまるような尺度に近いかなと。つまり、同じ対象を別の人に評価してもらって、同じ何かしらの診断基準とか、測定の基準とか、いろいろあると思いますけど、その基準に従って評価してもらって、それが一致するかどうかというのを見てあげるものが評価者間信頼性というものになります。評価者間信頼性の指標もですね、いろんな指標があるんですけども、一番原始的な指標として、κ係数というのがあります。κ係数というのは、一致率というのを評価するもので、実際に得られた一致率と一致率を偶然一致する確率でペナルティをかけて計算してあげているというのが、評価者間信頼性の指標のκ係数というものになります。κ係数の目安としてはですね、ここに挙がっているような指標があって、だいたい0.6以上あるとよい一致が見られているというふうに評価されるのが、この評価者間信頼性の指標のκ係数というものになります。なので、信頼性にはですね、この内的一貫性という側面と、再テスト信頼性という側面と、評価者間信頼性という側面があって、複数ですね、内的一貫性と再テスト信頼性の両方をですね、検討する場合もありますし、再テスト信頼性と評価者間信頼性を検討したりすることもあります。最低どれか一つですね、検討して、信頼性があるかどうかというのを見てあげるというのが、尺度をつくって、その尺度でですね、きちんと測れているかというのを評価するときの評価のポイントとしては信頼性というのが一つあると。信頼性の側面、指標としては内的一貫性と、再テスト信頼性と、評価者間信頼性の３つの側面がありますよというのが、ここまでの話です。

　ここから妥当性の話ですね。妥当性というのは、測りたいものをですね、尺度によって測れている程度で、いろんな側面があります。信頼性よりもいっぱい種類があるんですね。分類としてはですね、内容妥当性、表面妥当性というのは、尺度の項目の表現からですね、測れているものが測れそうかというようなものを見ているのがこの２つ。基準関連妥当性というのは、ほかの外的基準との関連をベースに妥当性があるかどうかというのを調べる、見るというのがこの基準関連妥当性。因子妥当性というのは、今日ですね、このあともう少しでやりますけども、因子ですね。尺度を構成する下位概念だったりとかですね、概念のまとりがですね、理論どおりかどうかという観点から評価するのが因子妥当性。既知集団妥当性は、これは基準関連妥当性の一種と考えることもできるんですけども、すでに知られている集団ですね。日本とアメリカとかですね、男性と女性とか、そういうようないくつかのグループのあいだで予想される結果ですね。着度の点数に差があるだろうとかですね、そういうような予想がちゃんと理論どおりになっているかという観点から見るのが既知集団妥当性。あと交差妥当性というのは、妥当性というのはですね、測りたいものが測れるというのが、いろいろな集団で、これも既知集団妥当性のところと多少似ているんですけども、日本で開発された尺度というのが、アメリカでも使えるかどうかとか、イギリスでも使えるかどうかとか、ブラジルでも使えるか、中国でも使えるか、そういうようなかたちで、ほかの集団でもですね、その測定ツールというのがほかの妥当性を持ってですね、測定できるかどうかという観点で評価しているのがこの交差妥当性というものになります。これはすべてひっくるめて構成概念妥当性というふうに呼ぶこともあります。構成概念というのは、要は、測ろうとしているもののことで、存在をですね、取りあえず仮定することによって、複雑に込み入った現象を比較的単純に理解することを目的に構成した概念ですね。実際にここに例としては、QOLとか、健康とか、態度とか、性格とか、学力とかがあって、普段使う、実際には、目に見えるものではないんだけれども、こういう考えというかですね、概念ってあるよねというようなものというのが構成概念なわけですね。

　この妥当性というのは、いろいろな種類の妥当性を検討して、確認できるほどいいという考え方をします。つまり、証拠が多いほどいいという考え方をしているわけですね。なので、なんらかの基準値があって、その基準を超えれば妥当性がある。着度があるとか、基準を超えられなければ妥当性がない尺度だというふうな二分法ではなくて、妥当性には程度というかですね、連続した程度があって、妥当性がある、ないというのをどこかでクリアにですね、きれいに分けることができるような基準値というのは存在しない。なので、できるだけですね、いろんな側面から妥当性というのを検討して、それの多くてですね、妥当性が高そうだというのを確認できるというのがいいというふうな考え方をします。

　ここからはですね、より細かく妥当性の種類について見ていきますけども、内容的妥当性というのはどういうものかというと、尺度を構成する項目の内容が、尺度で測定しようとしている概念の意味内容と合致している度合いということで、要はですね、項目の文言ですね、文章とかですね、選択肢とか、そういうものをひっくるめて、項目の内容というのが尺度で測定しようとしている概念の意味内容と近いかどうかというようなことを確認するわけですね。それを確認するためにはですね、専門家による項目内容の確認をしたりとかですね、多数の専門家に協力を得て、それぞれの項目を評価してもらって、いい項目か、悪い項目かというのも評価してもらって、評価が一定の水準になるまで修正を繰り返すというようなですね、デルファイ法という方法を使ったりすることもあります。

　それから表面妥当性は、内容的妥当性の簡易版というふうに思ってもらえばよくて、測定しようとしている概念を測定できるように、その尺度の項目が見えるかどうかということで、そんなに厳密に検討するというようなものではないということで、内容的妥当性を少しカジュアルにしたものと言ったらあれなんですけども、この文章ですね、質問項目の文章とかそういうのを見て、なんとなくじゃないですけど、専門家が見て、これで測れているだろうというふうなのを確認するというようなものが表面妥当性というものになります。ここに書いてあるとおり、内容妥当性に似ているんですけれども、より簡易・表面的な検討なので、表面妥当性を検討するよりかは、内容的妥当性を検討するほうがいいということになります。

　それから、妥当性の次の分類としては、基準関連妥当性。これは、外的基準との関連が理論から予想されるものと合致している度合いのことをですね、基準関連妥当性というふうに言います。この基準関連妥当性というのは細分化されていて、収束妥当性というのと、併存妥当性というのと、弁別妥当性、予測的妥当性というのがあって、この外的基準がどういうものかによって、細分化されています。収束妥当性というのは、同じ概念を測定する既存の尺度と同様に概念を測定できる度合いということで、既存の尺度がある場合に、その既存の尺度と比べてみてですね、測定がちゃんとうまくいっているかどうかというのを確認するというのが収束妥当性。この収束妥当性を確認するような状況としては、既存尺度がすでにあって、その尺度の項目を減らした短縮版などをつくる際に、収束妥当性というが検討されることが多いです。それから併存妥当性というのは、尺度によって測定しようとしている概念に類似した概念ですね。収束妥当性と違うのは、同じ概念ではなくて、類似した概念の関連を見て、関連があると思って確認できるのが併存的妥当性というものになります。それから弁別妥当性というのは、今度は関連しないことをもって確認できるというのが弁別妥当性で、理論的には関連しないだろうと考えられるものと、実際にちゃんと関連しないというふうなデータが得られるというのが弁別妥当性。それから予測的妥当性というのは、測定したあとに追跡調査などをしていって、尺度で測定する概念というのが、理論的に予測し得るほかの概念を予測できる度合いというのを、予測的妥当性というふうに言います。

　この基準関連妥当性の確認方法なんですけども、基本的にはほかの変数との関連を見るということをするので、今までやってきた分析で言うと、相関ですね、相関係数を出すような分析をしたりとか、あとは重回帰分析をすることでですね、関連があるかどうかというのを見ることができると。それぞれの妥当性で違ってくるのは、この関連性があるかどうかを見る、相手が収束妥当性であれば同じ概念を測定する従来の尺度との関連を見る。併存妥当性であれば、類似した概念を測定する尺度と、従来の尺度と関連があるかというのを見る。弁別妥当性は、関連がなさそうな概念、変数と関連がないことを確認すると。予測妥当性というのは、理論的に予測しうる概念、変数との関連性を確認するということで、相関分析とか、重回帰分析ですね。あとはこの授業ではやっていないですけども、ロジスティック回帰分析などですね、関連性を分析する、統計モデルを使って確認するというのが、この基準関連妥当性というものになります。それから既知集団妥当性というのは、集団感で特性の比較した結果というのが、理論的に予想されるものと一致する度合いですね。例えば、理論的に男性のほうが高くて、女性のほうが低いだろうというふうなことが予想されるのであれば、男女でその尺度で測定したものというものの得点を比較して、実際に男性のほうが高いと、女性のほうが高いとかというふうに結果が出てくればいいというのが既知集団妥当性ですね。なので、集団間で、尺度で測定した特性値の値というのを比較、特性の値を比較するということをするので、平均を比較するというやつですね。今までやってきたようなですね、t検定とか、分散分析とか、重回帰分析とかで、特性値を比較したりすることができます。それから交差妥当性というのは何かということ、異なる特性を持った集団においても、測定したい概念を測定できる度合いということで、異なる集団を対象にしてもですね、ここの説明と同じですけども、異なる集団を対象にしても、妥当性の検討が成り立つことを検証すると。交差妥当性がよく出てくるのは、一つは国際規格ですね。アメリカでつくられた尺度というのが、日本でも使えるかどうかというようなときに、この交差妥当性というのを検討しますとかというふうな表現になったり。あとは、ある程度似通った疾患のあいだで、比較、妥当性が成り立つかどうかですね、そういうのとかを検討したりとかというときにも使われる。例えばがんですね。乳がん患者を対象につくられたQOLの尺度が、ほかのがんですね。子宮頸（けい）がんの患者さんにも適用できるかどうかとか、肺がんの患者さんにも適用できるかどうかとかというふうなことをですね、見たりするというのが交差妥当性というものになる。

　それから、最後ですね、妥当性としては、因子妥当性というのがあります。これは、尺度で実際に測定したデータというのが、測定しようとしている概念の理論的な因子構造と合致している度合いというのが、因子妥当性というものになります。因子妥当性で出てくるこの因子というのはいったいなんなのかというと、因子というのは質問への回答とかですね、観測される行動などに共通して影響を与えるもので、直接観測できないもの。要は、尺度で測定しようとしているもののことを因子というふうにですね、因子構造というのはいったい何かというと、因子構造というのは、因子の数とか、特定の因子から影響を受ける質問への回答や行動の対応関係のことを因子構造というふうに言います。この因子妥当性を確認するための分析というのが因子分析というもので、因子妥当性というのは、因子構造が理論から導かれる仮説と一致するかどうかというのを確認するというのが因子妥当性の確認方法です。この因子妥当性の確認をする方法の、第一選択の方法としてはですね、確認的因子分析というもので、これは仮説のモデルを、仮説を立てて、それとですね、どの程度一致しているかというのを、当てはまりのよさをですね、データから計算をして評価するというのが確認的因子分析。

　ただ、これでうまくいかないこともあったりとかですね、あとは明確な仮説というのがない場合もあります。そういうときに使われる方法が探索的因子分析というもので、探索的因子分析というのは、データからですね、どの項目とどの項目が共通した因子から影響を受けているんじゃないかというようなものをですね、見つけるのが探索的因子分析と。つまりデータのですね、質問項目への回答のデータからですね、共通して影響を与えていそうな因子というのを見つける、探索するというのが探索的因子分析というものになります。

　ここまでがですね、尺度の信頼性、妥当性というものの話で、少し振り返ると、尺度によってうまく測定したいものが測れているかどうか。例えば健康状態を測る尺度をつくりましたとかですね、QOLを測る尺度をつくりましたというときに、その尺度でちゃんとですね、健康状態とか、生活の質ですね、QOLとかをちゃんと測れているかどうかというのを、ちゃんと確認しないといけない。その尺度で、その測定したいものをきちんと測定できているかどうかを評価する指標として、信頼性と妥当性というのがあって、信頼性というのは、測定がきちんと再現するかどうか。つまり同じ状態の人とかものをその尺度で測定すれば、同じ値が出る程度というのが信頼性ですね。信頼性が高いというのは、ちゃんと同じ状態であれば同じであるよというふうに、結果を出してくれるですね、得点として出てくるというのが信頼性。妥当性というのは、測りたいものをきちんと測れている程度というのが妥当性で、さっき見たとおり、この尺度を構成している項目の内容面から評価したりとか、あとは理論的に関連するであろう、外的基準と関連を見ることによって、確認をしたり、あとは理論的にどんな因子構造になっているかというのを、その理論的な因子構造とどの程度合致しているかというような観点から評価をしたり、理論的にですね、違いが出るだろう、違いがあるだろうというふうに考えられている集団のあいだで、きちんと得点が違う値として出てくるかどうかというのを確認したりですね。あとは、交差妥当性というのは、ほかの集団でも、同じように、ここに挙がっているような妥当性というのが確認できるかというのを確認するもの。確認することで検証できるのが交差妥当性というものになります。

統計講義動画

統計コンテンツクイズ

設問 12-1

以下の記述のうち正しいものを全て選べ。

答え: b
a. 内的一貫性は尺度の項目数が少ないほど高くなる
→誤り: 内的一貫性は項目数が多いほど高くなり、少ないと低くなる
b. 評価者間信頼性は複数の評価者が同一の対象を同じように評価できる程度である
→正しい
c. 尺度の妥当性は一種類の妥当性についてのみ検討すればよい
→誤り: 妥当性はいろいろな種類の妥当性について検討することが望ましい
d. 尺度の妥当性には満たすべき絶対的な基準がある
→誤り: 何らかの統計量がある値より大きかったり小さかったりすれば妥当性があるというような絶対的な基準はなく、総合的に評価する必要がある
e. 尺度の信頼性が低くても、妥当性を高くすることはできる
→誤り: 信頼性が高くないと妥当性を高くすることはできない

設問 12-2

以下のそれぞれの妥当性の種類について、正しい記述をそれぞれ一つ選べ。妥当性の種類

a.   内容妥当性
b.   併存妥当性
c.   収束妥当性
d.   弁別妥当性
e.   既知集団妥当性

記述
A) 同じ概念を測定する従来の尺度と関連があること
B) 尺度により測定しようとしている概念に類似した概念と関連があること
C) 理論的に関連しないと考えられるものと関連しないこと
D) 測定しようとしている概念を測定できるように見えること
E) 尺度の内容が尺度で測定しようとしている概念の意味内容と合致している程度
F) 異なる特性を持った集団においても測定したい概念を測定できる程度
G) 集団間での特性の比較結果が理論的に予想されるものと一致する程度
H) 尺度で測定したデータが測定しようとしている概念の理論的な因子構造と合致している程度

答え:
a. 内容妥当性
→E)尺度の内容が尺度で測定しようとしている概念の意味内容と合致している程度
b. 併存妥当性
→B) 尺度により測定しようとしている概念に類似した概念と関連があること
c. 収束妥当性
→A) 同じ概念を測定する従来の尺度と関連があること
d. 弁別妥当性
→C) 理論的に関連しないと考えられるものと関連しないこと
e. 既知集団妥当性
→G) 集団間での特性の比較結果が理論的に予想されるものと一致する程度