看護・保健系大学院生のための統計学習サイト

第13章：因子分析その２探索的因子分析の基礎

講義動画

ナレーション原稿

(スライド番号19から)
米倉　ここからは、因子分析の話をしていきます。因子分析というのはいったいなんなのかというと、先ほど因子妥当性という話が出てきましたけども、データからですね、この複数の変数に共通して影響を与えるものですね。因子と変数の関係を分析するのが因子分析です。さっきまで出ていた探索的因子分析と確認的因子分析というのがありますけれども、探索的因子分析というのは、得られたデータをもとに因子を探す。変数間のですね、関連の情報から因子を探すというのが探索的因子分析。確認的因子分析というのは、想定した因子構造にデータが適合するかどうかというのを検討するのが、確認的因子分析というものになります。探索的因子分析、確認的因子分析をそれぞれ少し詳しく見ていくと、探索的因子分析というのはですね、複数の変数に共通して影響を与える因子というのを探す分析で、因子構造の仮説がない場合や、確認的因子分析の当てはまりが悪かった場合に、この探索的因子分析というのが使われます。よくあるのはですね、違う言語でつくられた尺度を翻訳して使う場合などにはですね、探索的因子分析を使うことになったりすることもあります。因子構造については、さっき話がありましたけども、因子構造というのは、どのような因子が何個あって、どの変数がどの因子から影響を受けているかというものが因子構造というものになります。確認的因子分析というのは、あらかじめ想定した因子構造とデータを比べて、当てはまりがいいかどうかというのを確認するのが確認的因子分析というものになります。通常ですね、尺度開発をする場合には、測定した因子がきちんと明確に決まっていて、どんな概念を測定しようとして、その概念というのは、どんな概念から成り立っているかというのを、きちんとですね、理論的に明らかにしたうえで測定をしていくということになるので、通常尺度を開発する場合には、この確認的因子分析というのをやって、仮説どおりの因子構造の当てはまりがいいかどうかというのを見ていくことが多いかなと思います。

　ここからはですね、まず探索的因子分析の話をしていこうと思いますけども、探索的因子分析のイメージとしてはですね、この一個一個の項目というのは、A、B、C、D、E、Fというのは、実際にこういう項目に対する回答のデータを取ってきてですね、この回答同士の相関を行列にしたのがこの表になっています。同じ項目同士の相関は１なので、この対角要素は当然１になっているんですけども、このAとBの相関は0.608ですね、AとCの相関は0.575とかというふうなかたちで、それぞれの項目同士の相関というのを見てあげて、この相関のパターンから、相関の高い変数同士でグループをつくると。そのグループに共通して影響を与えているであろうものというのが因子ということなので、このグループ分けをすることで、その背後にある因子って、どんなものがあるのかなというのを見つけていくというのが因子分析のイメージになります。この表で言うと、項目のAとBとCですね。私が受けてきた教育は能力を高めてくれるとかですね、人間関係を豊かにしてくれている、私を幸福にしてくれているとか、この３項目に対する回答というのは相関が比較的高い。D、E、Fのあいだですね、教育がなくても人間のできることはたくさんあるとかですね、豊かな人間関係をつくることができるとか、幸せになれるという、このD、E、Fの３項目のあいだも相関が高い。A、B、CとD、E、F、この相互ですね。例えばAとDのあいだとか、AとFのあいだとか、BとFのあいだとかというようなところで、ここら辺のですね、このグループをまたぐところでは相関が比較的低いというのが出ていると。そうするとこの結果からですね、項目のA、B、Cというのと、D、E、Fといのは、それぞれ似たような質問をしていて、A、B、CとかD、E、Fの背後に、それぞれ共通するような何か概念があるのではないかというふうに考えることができるわけですね。この因子分析では、この変数間の相関関係の情報から因子を抽出するということをします。

　この因子を抽出するというのはどういうことかというと、データをもとにですね、因子と項目の関連性に相当するですね、係数を推定することをですね、因子抽出というふうに言います。詳しく見ていくと、探索的因子分析というのをですね、重回帰分析と同じようにですね、数式にしてモデルを書いてみると、こういうですね、連立方程式というのがですね、探索的因子分析の推理モデルになります。この左辺のですね、ZAとか、ZBとかですね、ZFとかというものは、観測変数、つまり質問項目への回答を、平均が０、標準偏差が１になるように標準化したものをですね、ZAからZFというふうに置いています。この観測変数ですね。質問項目への回答というのは、背後にあるこの因子ですね。因子というものによって、因子となんらかの関連があって、値が決まっていて、さらに誤差のようなもの、独自因子というふうに言いますけども、因子では説明できない部分というのがあるというふうに考えているんですね。この因子の得点ですね。値。それぞれの因子の値のことをですね、因子得点というふうに言っていて、この因子にかかってくる係数のことを因子負荷量というふうに言います。ちょうど重回帰分析で似たような式のかたちをしていると思った人もいるんじゃないかと思いますけども、そのとおりでですね、因子分析では、この質問への回答というのが目的変数で、潜在的な因子ですね、因子の特定というのは説明変数で、このさらに誤差がついてくるというような重回帰分析のモデルを、この項目の数だけ立てるわけですね。得られたデータから、この因子負荷量、つまり因子と質問項目への回答の関連性の強さというのを推定してあげるというのが因子抽出で、因子分析の主な目的になっています。ただですね、これは、このまま特にですね、条件を何も無条件にこういう式を立ててデータを取ってきても、この負荷量のですね、値とか、因子の値というのは求めることができないので、３つ仮定を置いて、値が定まるようにしてあげます。まずは因子得点と独自因子というのは、どれも平均が０、分散１の正規分布に従うという仮定を置きます。さらに、因子得点と独自因子というのは、互いに無相関であるというようなですね、仮定も置いて、さらに独自因子というのは互いに無相関であると、相関していないというような、つまり項目間の誤差、項目それぞれについてくるこの誤差のあいだには相関がないというふうな仮定を置いてある。この仮定を置いたうえでですね、データを取ってきて、この因子負荷量を求めてあげるということをですね、探索的因子分析ではやっています。そうすることでですね、この因子と項目のあいだの関連性の強さというのがわかって、特定の因子と強く関連しているということは、その因子によってその項目への回答というのは決まっているというふうに考えることができるので、そういうようなですね、特定の因子からの因子負荷量が高い項目というのが、一つのグループとしてですね、グループになっているというふうに考えるものですね。あとで具体例とかも出てくると思うので、それを見ていけると。

　この探索的因子分析をするときにはですね、いろいろ決めることがあって、探索的因子分析をするときには、まずですね、分析する項目というのを選ぶ。つまり、この連立方程式を立てる本数ですね。どの項目についてこういう式を立てるかというのを決めてあげるというのが最初のステップですね。その次に因子の数を決めるというのが、因子分析をするときに決めなければいけないことで、因子の数というのはどういうことかというと、この式に含めるfですね。fというものの数を何個にするかというのを、探索的因子分析では分析する人が決める必要があります。ただやみくもに決めてもしょうがないので、あとで因子の数を何個にしたらいいかというのを決めるときの参考資料とかというのもあるので、そういったものも紹介していきます。いずれにしても因子の数というのを決めないと、分析する項目というのを選ぶというのと、因子の数というのを決めないと、この式を立てることができないので、まずはこの２つを決める必要があるということになります。

　その次に、因子の抽出方法を決めると。因子の抽出というのは、もう一度戻りますけど、因子の抽出というのは、データをもとに因子負荷量を推定するというものなので、この推定のしかたというのをですね、あらかじめ決めておくと。あとで出てくるんですけども、最尤法とかですね、主因子法とか、いろんな推定の方法がある。それを決めてあげると。あとは因子の回転をするかどうか。回転の話もあとで出てきますが、回転をするならどの方法を使うかというのを決める。この４つがですね、分析する前に決めること。つまり、この４つが定まらないと、分析を実行することができないわけですね。実際に分析をするときは、統計ソフトを使って分析をするんですけども、この探索的因子分析をするときには、分析する項目、どの項目を因子分析にするか。かけるかというのと、因子の数は何個だというふうに考えるか。どうやって因子を抽出するか。あとは因子の回転をするかどうか。するなら、どの方法を使うかというのを決めると、分析が実行できるようになります。分析をしたらですね、今度は結果を確認して、因子に名前をつけるということをします。結果に納得がいけば終わりで、納得いかなければ項目の組み合わせとか、因子の数を変えてやり直しをしていくということになります。因子分析、これまでやってきたですね、統計解析とか、検定とかだと、P値が0.05よりも小さいと有意だとか、そういうふうな基準値とかそういうのがあったんですけども、因子分析の場合は、そういう基準値というのがあまりありません。因子分析というのは、けっこう質的な分析に似ているところがあって、この項目というのをですね、似たような項目に分類をするために、数量的な指標ですね、因子負荷量というのを参考にして、この項目の分類をするというようなものなんですけども、この因子の数だったりとか、項目の組み合わせとかによって、けっこう結果が変わるんですね。最終的にですね、この因子分析って何をしたいかというと、因子に名前をつけて、この項目をグルーピングして単純化するというのが探索的因子分析の目的になっています。なので、何か客観的な指標である基準を満たせば、妥当な結果かというふうな基準というのはあまりないんですね。なので、けっこう最後の結果に納得がいけば終了とかというふうになりますけども、解釈ですね。結果の解釈というところにかなり重きが置かれていて、同じ分析結果でも、研究者によってはですね、これでいいだろうというふうに言う人もいれば、ちょっと納得がいかないというですね、理論とちょっと違うんじゃないか、解釈ができないんじゃないかというふうなことになってくるので，けっこう探索的因子分析というのは、質的な分析のセンスというかですね、そういったところも少し必要になってきます。

　ちょっと脱線しましたけども、この探索的因子分析のステップですけども、まずは分析する項目を選ぶというのは、そのとおりというかですね、どの項目を使うかというのを選ぶので、そのまま選んであげればいいんですけども、因子の数を決めるというのはけっこう難しいと思います。因子の数と項目を決めてあげないと分析できないので、どうにかして決めてあげないといけないと。これはなんで因子の数を決めないと分析できないかというと、さっき出てきたモデルの方程式というのを決めることができないので、推定すべきこの因子負荷量が何個あるかというのも決まらない。なので、因子の数を決めないと分析できないわけですね。統計ソフトのなかにはですね、因子の数を決めなくても結果が出るものがあるんですけども、それはですね、ソフトで基準をつくって勝手に因子数を決めて分析をしているだけなので、本来この因子分析というのは、因子の数を先に決めないと分析することはできないというところは知っておいてください。

　この因子の数って、じゃあどうやって決めたらいいのかという話なんですけども、まず一番大事なのは、理論とか仮説に基づいて因子の数を決めるというのが大事です。特に尺度開発をするときに、探索的因子分析を使う場合にはですね、測定をする概念とか、その下位概念を定義していたりとか、ある程度想定しているということがあるはずなので、それに従うというのは、まずは原則です。そのうえでですね、分析を何回かやってみて、結果、因子を解釈できるかどうかという観点から決めるとかですね、なので、何回か因子が１つの場合、２つの場合、３つの場合というふうなかたちで、何回か結果を何とおりか結果を出して、それを比較して、どれが一番理論的に解釈できるかというような観点から決めるということもあります。それから、ただそれだけだとなかなか決められないということもあるので、一応統計的な基準ですね、ここにいろいろ基準があるんですけども、そういった基準を参考にすることでですね、こういう基準を補助的に使って決めたりするということもできます。

　因子数を決めるときの参考指標としては、よく出てくるですね、有名な基準というのは、カイザー基準というもので、固有値ですね。固有値はあとでまた出てきますけども、固有値というのを計算して、固有値が１よりも大きい因子の数というのを採用するというのが１つ。それからスクリーテストというのをやってですね、このスクリーテストというのは何かというと、このスクリープロットですね。これがスクリープロットなんですけども、スクリープロットというのを描いて、このスクリープロットが、傾きが急激に変わる直前の数を因子数とすると。この場合、ちょうど３個目のところで傾きが急激に変わっているので、２個、因子を２個にしたほうがいいというふうにですね、決めるというのがスクリーテストですね。このスクリープロットというのは、因子の番号と固有値ですね。固有値の大きい順にこの点をプロットしていって、その固有値が急激に、固有値同士を結んでいった線の傾きが、急激に緩やかになる直前のところで切って、個数とするというような方法。あとは、検定をベースにですね、決めるという方法もあって、これは因子抽出法が最尤法の場合に使用できるという方法です。どんな基準かというと、カイ二乗検定をしてですね、有意にならない最少の因子数を採用するというのがカイ二乗検定というものになります。ただしサンプルサイズが大きいと、因子数がですね、多めに見積もられてしまうので、そこは欠点ということになります。SPSSという統計ソフトでできるのはここまでで、あとはほかにもですね、これは最少偏相関平均とか、平行分析。これは、実際に皆さんが因子分析をするときに、こんなのがあったな、というのを思い出してもらえればよくて、テストとかそういうのに出すつもりはないので、これは本当に参考情報として見ておいてもらえればと。こういう方法などを使ってですね、因子の数を決めるときの参考にしている。この次のも参考です．これは特に知らなくても大丈夫です。

　今まで出てきたようなですね、参考資料と、あとは理論とか仮説に基づいて、因子の数を決めたらですね、今度は因子抽出の方法というのも決めて、分析に進んでいくと。因子抽出の方法は、よく使われるのは最尤法というのと、最小二乗法というのと、主因子法というのがメジャーな方法としてあります。一番数学的に望ましいものとしては最尤法というもので、これは観測データですね、つまり実際の手元にあるデータが得られる確率が最大になるように因子負荷量を推定してあげるというものです。その利点としては、適合度というのを出せるので、それを比較することで、どのモデルがいいかというのを決めることができるというのが最尤法のいいところです。それ以外にも最小二乗法とかですね、主因子法という方法があります。因子抽出の方法としてはですね、まずは最尤法でやってみるというのが定石で、最尤法でやってみて、うまくいったら最尤法をそのまま使っていいと。ただ最尤法はですね、けっこうデータの分布とデータのそれぞれの回答の分布がですね、正規分布に従っていなかったりとか、あとはサンプルサイズが小さい場合にはですね、不適解というのを出すことがあって、そういう場合にはですね、最尤法だとうまく結果が出せないということもあるので、そういうときには最小二乗法とか、主因子法というのを使うことでですね、結果を出すことができるということがあるので、最尤法でうまくいかなかったらほかの２つの方法を試してみるというのが、よくやるやり方です。これはもう、完全に皆さんが結果を見るときにはですね、あまり気にしなくてもいいところなので、分析を自分でやるときにですね、思い出してもらえればいいかなと。

　ここまでですね、因子抽出の方法まで決めると、最低限ですね、分析の結果を出すことはできて、まず結果でチェックするところとしては、共通性というところを見ます。共通性というのは何かというと、各項目が受けるですね、因子負荷量の２乗を合計したものですね。つまり、因子分析をしてですね、共通性が低い項目というのは、ほかの項目と異質であるということを表している指標なんですね。なので、この共通性というのを計算して、出てきた共通性の値を見てですね、値が低い項目というのは、尺度を構成する項目としては不適切な可能性があるというふうに評価することができます。この共通性というのは、計算式はここに書いていないですけども、統計ソフトで因子分析をすると、こういうふうなかたちですね、共通性というのが出てきて、この因子抽出後というほうを見ていきます。この因子を抽出したあとの共通性というのはですね、１を超えていないかですね。共通性の値の範囲は０から１なので、１を超えている場合にはうまく推定できていないということになります。なので、共通性が１を超えていないかどうかというのをチェックするというのと、あとは共通性の大きさですね。０に近い値。だいたい0.2とかですね、それぐらい以下の場合は、削除の候補になるというふうに言われていますけども、この共通性が低い項目というのは尺度をつくるときにはですね、削除の候補になってきます。この場合はですね、共通性が１を超えている項目も共通性が低すぎる項目もないので、この場合は特に削除とかする必要はないというですね、削除する必要もないですし、推定方法も変える必要はないというふうなことになります。

　それからあとは、見るところとしてはですね、固有値というところも、分析、因子の数を決めたりするときに使ったりするので、大事な概念で、固有値というのはいったい何かというと、これは線形代数とかをですね、大学の教養とかでやった人は思い出してもらえればと思いますけども、まったくやったことがないという人は、そういうものなんだな、というふうに理解しておいてもらえればいいですが、正方行列に対してですね、この行列同士の、行列とベクトルをかけて、この固有値、スカラーですね。スカラーかける固有ベクトルというふうなかたちに変換できるようなベクトルのことを固有ベクトルというふうに言って、この係数のことを固有値というふうに言います。この固有値というのはですね、この方程式を解いてあげれば求まるんですけども、それを計算した結果というのがこんなかたちで、統計ソフトで分析するとこんな感じで出てきます。この固有値というのはどうやって見るかというと、カイザー基準とかですね、スクリー基準で因子数を決定する場合にはこの固有値の情報を使って、カイザー基準の場合はですね、この初期の固有値というところを見て、この固有値がですね、１を超えている因子の数を因子数として因子分析をやってあげるというふうなことをします。スクリー基準の場合は、この固有値の値をグラフに描いて、さっき出ていましたけども、こういうですね、スクリープロットというのを描いてあげて、傾きが急激に緩やかになる直前の点の個数というのを因数として対応するというような因子数の決め方の基準になります。固有値というのは、このカイザー基準とかスクリー基準で因子数を決定する場合には、こういうところも参照ということですね。

　それから、負荷量平方和と因子寄与率というところも、因子数をですね、決めたりするときとかに使われます。負荷量平方和というのは何かというと、因子分析によって推定した因子負荷量を２乗して合計したもの。因子寄与率というのは、負荷量平方和を質問項目の数で割った値ということで、この各因子寄与率の表しているものというのは、各因子で全体の項目のばらつきですね、項目の特定のばらつきというのを、どれぐらい説明しているかというのがわかります。この因子分析をするということは、多くの項目のばらつきというのを少ない因子で説明しようとしているものなので、ある程度因子寄与率というのが採用した因子数と、ある程度、50％とかですね、60％とか、70％とか、いくつか基準がありますけども、この因子分析をした、抽出後の負荷量平方和の累積％が、ある一定の水準を超えるような数を因子数とするというような考え方もあります。あとで出てくるんですけども、斜交回転をおこなった場合には因子寄与率というのを計算することができないので、斜交回転をする場合には、この結果というのは特に気にしない。

統計講義動画

統計コンテンツクイズ

設問 13-1

以下の因子分析に関する記述のうち、正しいものを全て選べ

答え: c
a.因子の数を決める際に最も重要な基準は統計的な基準である
→誤り: 最も重要なのは理論や仮説で、統計的な基準は絶対ではない
b.因子分析をした結果、因子負荷量が0。4を下回った項目は必ず尺度から削除しなければならない
→誤り: 因子負荷量0 4はひとつの目安ではあるが、0 4を下回ったからといって必ずしも削除する必要はない
c.因子分析をする際には因子の数は分析者が決める必要がある
→正しい
d.探索的因子分析はあらかじめ想定した因子構造にデータがあてはまるかを確認する分析である
→誤り: これは確認的因子分析の説明。探索的因子分析はデータから因子と項目の関連の強さを推定し、因子構造を探索する分析である。
e.因子の回転は因子と観測変数の関連性の強さを推定するために行う
→誤り: 因子と観測変数の強さの推定は、「因子の抽出」。因子の回転は因子を抽出したあと、因子構造を解釈しやすくするために、因子負荷を単純構造(各項目ができるだけ少ない因子から高い負荷を受け、他の因子からの負荷はゼロに近くなるような状態)に近づけ解釈しやすくする操作のことである。