第14章:因子分析その3因子の回転と解釈

ナレーション原稿

(スライド番号33から)
米倉 何回もこの因子の回転という話が出てきたんですけど、因子の回転という話をこれからしていきます。因子の回転というのは、この因子分析をした結果から、どの項目が、どの項目とどの項目がグループになるかというのを探すときにですね、わかりやすくするための結果の値の操作の方法のことで、今ここに出てきている因子行列という結果がありますけど、これは、回転をしないでですね、因子負荷量を推定した結果というのがこれです。この結果を見ると、項目の32番、36番、37番というのは、1番目の因子から、0.7ぐらいの因子負荷量というのが得られていて、2番目の因子からは-.396とかですね、だいたい-.400に近い値というのが出ています。それに対し下の3項目というのは、1番目の因子から.573、だいたい.500付近の値が出ていて、第2因子ですね、2番目の因子からもプラス.500ぐらいというふうな因子負荷量が出てきています。このパターンから、どの項目とどの項目がグループになっているかというのを因子分析では、この結果を見て、どの項目がグループかというのを決めるというかですね、判断するというのが一つのですね、因子分析のステップなんですけども、このパターンからはですね、32と、36と、37という、上の3つの部分と、上の3つがグループになって、下の3つが同じようなですね、1番目の因子と、2番目の因子から受けている負荷のパターンが似ているので、この上3つと下3つというのは、それぞれ別のグループになっているということが、この結果からわかります。ただ、これは因子の数が増えたり、項目の数が増えてくると、どういうパターンになっているかというのを認識するのが難しくなってくるので、できるだけグループを判断するためにですね、どの項目がどの因子から影響を受けているのかというのを、わかりやすくしたほうがいいということになります。そのわかりやすくするための操作というのが因子の回転というので、因子の回転の目的というのは、因子負荷、因子負荷量の値をですね、単純構造に近づけて解釈しやすくするということを目的としています。この単純構造というのはいったい何かというと、各項目ができるだけ少ない因子から高い負荷を受けて、高い負荷を受けている因子以外の因子からの負荷というのは、0に近くなるような状態のことを単純構造というふうに言います。つまり、因子負荷が高いところはすごく高くて、ほかのあまり関連がない因子からの負荷は0になるように、さっきのですね、この因子行列のこの値というのを、どうにかうまく操作をして、この結果を解釈しやすくするようにしてあげようというのが因子の回転という操作になります。

 因子の回転にはですね、大きく分けて直交回転と斜交回転という方法があって、直交回転といのは、因子間の相関を0に固定して操作するもの。斜交回転というのは、因子間の相関を許容するような回転の状態です。通常はですね、斜交回転を使います。なので、斜交回転の説明だけしていきますけども、斜交回転というのは、各項目の因子負荷量が特定の因子だけから高い負荷量を持つように調整をしてあげると。これはいったい何をするかというと、このですね、因子行列に特定の何かですね、どっちかの因子がですね、負荷が高くなるようになって、値がですね、負荷が小さいほうのものについては、0に近づくような計算ですね、行列をかけてあげたりとか、行列を何乗かしてあげるとかですね、そんな操作をしてあげるのが回転というものになります。それをですね、やってあげて、結果をわかりやすくするということをしています。斜交回転というのは、軸を直交させたままの回転よりもですね、制約が少ないので、より明確な因子記録がわかるという方法の、こっちの斜交回転のほうがよく使われます。斜交回転をするとですね、因子行列、因子負荷行列というのは、パターン行列と構造行列というものの2種類に分かれます。あとで出てきますけども、斜交回転をしたときの因子の解釈というのは、このパターン行列というものに基づいておこなっていきます。斜交回転のなかでですね、どんな方法が使われるかというと、計算が簡単なのはですね、プロマックス回転というのがよく使用されます。この辺も実際に皆さんがやるときに思い出してもらえればいいかなと思いますけども、通常ですね、因子の回転をするときには、プロマックス回転を使うというふうに覚えておくのが一番単純かなと。直交回転をするという選択肢もなくはないんですけどもここにも書いたとおり、因子間ですね、複数因子が存在するときに、因子のあいだの相関が0という仮定というのはかなり強い仮定なので、通常はもう斜交回転を使います。なので、論文ですね、実際に読む論文とかでもか直交回転は使われません。なので、普通は斜交回転が使われているというふうに思ってもらえればよくて、その斜交回転のなかでも、最もよく使われる回転の計算の方法がプロマックス回転という方法。

 今、いろんな抽象的な話をしていましたけども、回転のイメージとしてはですね、さっきの因子行列というのを、2次元の座標にプロットしたものがこれです。さっきのですね、因子行列で、因子1からの負荷というのをXの値。因子2からの負荷量の値をYに値としてプロットしてあげているのが、この回転前というところなわけです。そうすると、これはこう見るとすごくよくわかると思うんですけど、下の3つですね。32番、36番、37番の項目というのは、グラフのなかだと固まって、つまりグループとして位置しているわけですね。因子分析というのは、このようなかたちで因子負荷のパターンでできたグループというのを見ているわけです。グループを変数間の相関からつくるというようなことをしているというような話をしましたけども、グラフで描くとこのようなかたちで、因子負荷で決まる座標を、点を打っていくとこのようにですね、それぞれの項目に対応した点というのが打たれると。回転する前はこういうふうに、こっちのグループは第1象限ですね。XとYが両方ともプラスのエリアに固まっていて、こっちのグループというのは、第4象限ですね。Xがプラスで、Yがマイナスのほうのグループのところに固まっていると。これだとですね、グラフにするとわかりやすいんですけども、因子負荷の値そのものを見ると、ぱっと見ですね、この上の3つと下の3つがグループになっているというふうに認識するのは難しいと。これは2因子で6項目だから、まだ上の3つがグループで、下の3つがグループだというのがわかりますけども、これが、数が増えてくると、なかなか同じグループに属する項目というのはどれかというのが見つけられにくくなるわけですね。じゃあ、これをですね、わかりやすくするためにどうするかということを考えたのが、この因子の回転というもので、回転をしてあげてですね、この固まり、グループを軸の上に乗せるようなことをしてあげるとかですね、そうすると、あとでパターン行列の値が出てきますけども、特定の因子からの負荷が比較的大きな値になって、これを見てみると、因子2からの負荷量というのは、ほぼこのグループは0に近くなる。こっちのグループというのは、因子1からの負荷量というのは0に近くなっていて、因子2からの負荷というのは大きくなってくる。こういう状態に持っていくことで、どの項目が1つのグループになっていて、どの項目がもう1つのグループになっているかというのを、因子負荷量からも判断しやすくなるというのが回転をやる目的というかですね、回転をやっていることということになります。

 直交回転、あとは直交回転と斜交回転の違いですけども、直交回転というのは、この座標計をですね、90度に保ったまま、この固まりをですね、回していく。この場合はほとんど直交しているかのように見えるんで、そのままくるっと回すと軸に乗っていると思いますけども、実際にはここの角度が90度であるということはまれなので、斜交回転ではですね、この角度を90度以外にできるようにうまいこと考えて計算を、私が考えたわけじゃないですけども、うまいこと考えた人がですね、うまくこの軸が直交していなくても、固まりを軸に乗せられるように軸を動かしてあげるというようなことをしているわけですね。回転をした結果出てくる因子負荷量の行列というのは、パターン行列いうふうなもので、さっきの結果と比較して見てもらうとわかりやすいと思いますけども、回転したあとのパターン行列というのは、上の3つの項目というのは、第1因子ですね。1番目の因子から高い負荷を受けていて、第2因子からの負荷量というのはほぼ0に近くなっているというのがわかると思います。こっちのほうがさっきより上の3つがグループだというのは鮮明になっているわけですよね。下の3つに関しては、第1因子ですね。1番目の因子からの負荷量はほぼ0に近いのに対して、第2因子からの負荷量というのは、1に近くなる方向に大きくなっているということで、この回転したあとのパターン行列というのも見てあげることでですね、より因子の解釈をしやすくなるということになります。この因子負荷量のパターンからグループをつくってあげて、このグループになった項目の意味内容から判断して、因子に名前をつけてあげるということをします。この尺度の場合は、上の3つというのは、教育なしでの幸福で、下の3つというのは、教育による幸福とかというふうに、もとの論文というのはですね、名前をつけられているんですけども、このそれぞれの項目の意味内容からですね、因子に名前をつけるというところまでやるというのが因子分析というものになります。

 あとはこのパターン行列などのですね、因子負荷量のチェックポイントなんですけども、どの因子からの負荷も小さい項目というのは、尺度の項目としては不適切な場合があるので、どの因子からの負荷も小さいものというのは除外の方向になります。小さいというですね、因子からの負荷量が小さいというもののおおまかな基準としては、0.3から0.4未満ですね。ちょっと厳しめにすると、0.4未満だったらごっそり切っちゃうとかというようなこともありますが、あまり基準を絶対視してですね、項目をどんどん落としていってしまうと、せっかくですね、いっぱいつくったですね、意味内容としては含めておきたい項目とかも落ちてしまう可能性があるので、あくまでもこれは目安ですね。これに従わなければいけないというわけではありません。それから複数の因子から大きな負荷を受けている項目というのも、尺度として使う場合には不適切な可能性があるので、そのような項目がないかというのはチェックする必要があります。あとはさっき話をしたとおり、因子負荷量のパターンからグループをつくるということで、見方としてはですね、同じ因子から強い負荷を受けている項目というのはグループになるというふうに思ってもらえればいいと。この場合だと、上の3つの項目というのは第1因子ですね。1番目の因子から強い負荷を受けているので、この3つのグループ。下の3つというのは、2番目の因子から大きな負荷量を受けているので、グループになる。じゃあ、グループになる項目が決まったらですね、あとはこの項目と質問項目の内容というのを総合的に見て、この因子、これらの項目の背後にある概念というのはいったいなんなんだろうというのをですね、名前をつけて記述してあげるというような、そういうのが探索的因子分析というものになります。なので、質的研究の話、これまでほかの授業でちょこっとやったんじゃないかと思いますけど、質的研究に少し似ているわけですね。質問項目というのがそれぞれの人の語りを少し、切片というか、断片化したもので、この因子分析というのは、その回答に当てはまるか当てはまらないかというのを回答してもらったデータをもとにですね、因子負荷量というのを計算してあげて、この因子負荷量をもとにカテゴリをつくってあげるというようなことをしていると。なので、こういった量的な情報を利用して、質問項目を質的に分類するというのがですね、因子分析の一つのイメージと思ってもらえればいいかなと。

 あとはですね、因子分析をそもそもやることに意味がある項目群かというようなですね、ものをチェックしたりすることもあります。それが因子抽出の妥当性の指標とかというように呼ばれているもので、このKMOというですね、KMOの適切性指標というのを確認すればいいというふうに言われています。ほかに反イメージ相関というものが扱われることもあるんですけども、基本的にこのKMOの結果と一致するので、これを見てあげればいい。これはだいたいの統計ソフトで算出することができるので、これの値を見てあげて、基準としてはこういうような基準があるので、KMOの値が小さいと、変数間の相関というのはあまり高くなくて、そもそも因子分析をできるようなデータではないというような解釈になるということですね。このKMOのサンプリングの適切性指標の結果というのは、この因子分析をする前にですね、信頼性の分析を、クロンバックのアルファ係数とかを計算することがあると思うんですけど、このKMOによるサンプリングの適切性指標は、おおむね信頼性ですね、内的一貫性の結果と同じような意味合いを持っているので、内的一貫性が高い項目群であれば、このKMOのサンプリングは、適切性指標もおおむね高くなるような傾向があります。

 今までちょっと難しそうなというかですね、抽象的な話をしてきましたけども、この因子分析というのはですね、論文でどういうふうに出てくるかというと、こんな感じで因子分析の結果が出てくるんですね。因子分析で出す結果の本体というのは、このパターン行列の結果ですね。つまり、因子負荷のパターンが、この論文で出すときにですね、主要な結果として出てきます。なので、因子の数に応じて、それぞれの因子、抽出された因子というのを書いて、それぞれの因子に対応する因子負荷量というのを、このように載せると。あとはですね、この因子の名前とかというのを、このようにですね、この項目の意味内容に合わせて名づけてあげて書いてあると。因子負荷量というのがこのように載っていて、この結果を見ると、この3つの項目というのは、因子1からですね、強い負荷を受けていて、それ以外の項目からは、負荷はあまり高くないということで、この3つがグループになる。この3つの項目の質問項目の意味内容から、この3項目に共通する因子というものの名前を考えてあげて、こういうふうに名前をつけてあげる。この最初の3項目でいうと、医療従事者に質問をしているとかですね、治療経過を共有しているとか、思いや目標を共有できているというようなところなので、医療従事者といかに協働できているかというようなことを表しているということで、服薬における医療従事者との協働性というふうな名前がつけられているみたいです。それ以外のところについても同じです。このようなかたちで、因子負荷量の結果を、あとはそれぞれの負荷量平方和とかというのを載せたりするということもあります。こんな感じで因子分析、探索的因子分析の場合は、この因子負荷量の値からグループをつくって名前をつけるというようなことをするというのが、かなり一般的なやり方になります。

 あとは確認的因子分析ですね。確認的因子分析というのは、教科書の後ろのほうにですね、構造方程式モデリングという章があると思うんですけど、それをですね、応用したものになります。確認的因子分析の目的は、先ほど少し話をしましたけども、分析をする人が想定した因子構造というのをデータに当てはめて、当てはまりがいいかどうかというのを評価するというのが目的です。さっきまでやっていたですね、探索的因子分析というのは、データから因子構造を探索していたのに対して、確認的因子分析は、想定した因子構造にデータが当てはまるかについて確認するというのが目的になっています。確認的因子分析の手順としては、仮説に基づいて因子構造を設定していくと。このときですね、因子帰属がないというふうに考えられる項目の因子負荷は、積極的に0に固定するというようなことをしていきます。確認的因子分析の場合は、さっきの探索的因子分析の場合は、このようにデータから因子負荷量を求めるというようなことをしていたんですけども、確認的因子分析の場合は、因子のですね、項目の関係というのを、あらかじめですね、こことこことは関連があると、こことここは関連がないというふうに設定をして、因子構造をですね、仮説に基づいて設定して、それにデータが当てはまっているかというのを確認するという違いがあるんですね。設定した因子構造の係数をデータから推定して、推定した因子構造の当てはまりのよさというのをですね、適合度指標というものをもとに評価するということをしています。

 探索的因子分析と確認的因子分析の違いなんですけども、確認的因子分析ではですね、探索的因子分析で設定していた因子の数のほかに、どの項目への回答がどの因子から影響を受けているかというですね、因子帰属も分析をする人が指定をするというのが大きな違いです。探索的因子分析では、探索的因子分析の手順を見てもらえばわかりますけど、因子数だけ決めて、因子帰属については分析結果から解釈する、判断するというようなことをしていました。それに対して確認的因子分析は、因子帰属も分析をする人が指定をするわけですね。あとは、因子構造というのも仮説に基づいて設定をするので、因子負荷量の解釈を容易にする必要がありません。なので、確認的因子分析の場合は、因子の回転は、明示的におこなう必要はないということになります。

 比較するとですね、このようなかたちになる。探索的因子分析と確認的因子分析、目的が違うと。探索的因子分析は因子構造を探索するのが目的であるのに対して、確認的因子分析は、因子構造の当てはまりの確認をするのが目的だと。因子数は、どちらも分析者が決める。因子帰属ですね。どの項目がどの因子に属するかというのは、探索的因子分析は推定結果に基づいて判断するのに対して、確認的因子分析は分析をする人が事前に決めるということをします。因子の回転ですけども、探索的因子分析の場合は、結果を解釈しやすくするためにですね、細かい回転方法を設定しますけども、確認的因子分析は、直交回転を想定するか、それとも斜交回転、つまり因子感に相関を設定するか、設定しないかという2種類しかないわけですね。この確認的因子分析というのは、さっきもちょっと出てきましたけど、構造方程式モデリングというものの一種なので、それについてですね、ちょっと簡単に触れつつですね、説明をしていきたいと思います。

 出てくる用語の整理なんですけども、観測変数、潜在変数は最初のほうにやりましたね。観測変数というのは、実際にデータが得られている変数のこと。具体的には質問紙への回答とか、検査等の特定値というのが観測変数ですね。潜在変数というのは、実施にデータを得ることはできない変数のことで、因子分析の因子などのことを潜在変数というふうに言います。それから内生変数とか、外生変数という用語も出てくるんですけども、内生変数というのは、モデルのなかで少なくとも1回はほかの変数の結果になる変数のことを内生変数というふうに言います。外生変数というのは、一度もほかの変数の結果にならない変数のことを外生変数。あと構造方程式モデルではですね、測定方程式というのと、構造方程式というものを組み合わせてですね、変数と変数の関連を記述するんですけども、測定方程式というのは、因子分析の方程式のことを指します。構造方程式というのは、変数と変数の関連を表す方程式のことを表していて、測定方程式以外の方程式のことを構造方程式というふうに言います。あとはパス係数ですね。パス係数というのは、この構造方程式モデルで推定をする変数と変数の関連の強さですね。変数から変数への影響力の大きさというのを表しているのがパス係数で、これは重回帰分析の偏回帰係数とかですね、因子分析の因子負荷量に相当するものがこのパス係数というものになります。解釈も同じです。

 確認的因子分析を含めたですね、構造方程式モデルは、複雑な変数間の関係を扱うことができます。実際にはですね、数式、連立方程式を立てているのと同じような感じなんですけども、数式だけだとですね、変数間の関連がわかりにくくなってしまうので、この変数と変数の関係というのを、この数式、方程式に基づいて表した図のことをパス図というふうに言います。構造方程式モデルのパス図のルールとしてはですね、ここに挙がっているようなルールがよく一般的に使われていて、まず潜在変数ですね。因子などは楕円で表現されます。それから観測変数ですね。実際にデータが得られている変数は、四角で表されます。ここでいうところの経済的満足とかですね、健康度の自己評価とかというのが観測変数ですね。それから、原因ですね。説明変数から結果、目的変数に向けて矢印を引いていきます。矢印が刺さる変数ですね。つまり内生変数には誤差をつける。誤差というのはですね、こういうですね、eと書いてあるですね、というのがルール。あとは、共変動ですね。共分散とか相関というのは、双方向の矢印で表すというような書き方をして、変数と変数の関連というのをですね、このように図で表すということをしています。こういうですね、変数間の関連に関するモデルというのを立てて、実際にデータを使ってですね、それぞれの変数と変数のあいだの関連の強さですね、パス係数を推定してあげるというのが構造方程式モデルというものになります。

 さらにですね、モデル全体として当てはまりがいいかどうかというのを評価できるのが、確認的因子分析を含めた構造方程式モデルのいいところで、このデータ、モデルにどれだけデータが当てはまっているかというものの指標のことを適合度指標というふうに言います。この構造方程式モデリングではですね、この使える適合度指標が豊富にあって、さまざまな側面からですね、当てはまりを評価できるので、いいというふうに言われています。適合度指標の1つの種類としては乖離度というものがあって、これは実際にですね、データとして得られた値と、モデルで推定した値のズレを評価してあげると。してあげたものがカイ二乗値として出てきます。このカイ二乗値というのは、二変量の検定でやったときのカイ二乗値と同じで、このカイ二乗値というのは、カイ二乗分布に従うことを利用してですね、検定をすることができます。この構造方程式モデルでのですね、カイ二乗検定の帰無仮説というのは、モデルがデータに適合しているというのが帰無仮説なので、検定をしてですね、帰無仮説が棄却されなければ、モデルがデータに適合しているというふうな解釈をするというふうな考え方をします。それからRMSEAというですね、適合度指標もあって、これは、1自由度あたりのモデルの分布と真の分布のズレを表しているもので、これは、意味はあまり理解できなくてもいいんですけども、RMSEAの基準としてはですね、0.05以下で当てはまりがよくて、0.08以下は許容範囲で、0.1以上は当てはまりが悪いというふうに言われています。なので、この推定をした結果、RMSEAの値がいくつかというのを見ることで、当てはまりというのは評価することができるということですね。

 それから独立モデルとの比較によるものというですね、適合度指標もあって、これは、独立モデルというのは、変数と変数のあいだに、観測変数間の相関がないというふうに想定したモデルと比較して、どれぐらい観測変数間の相関がないモデルと離れているかというのを表しているものです。当然ですね、観測変数間の相関がないモデルというのは当てはまりが悪いはずなので、当てはまりが悪いはずのモデルと比べて、そこから遠ければ遠いほどですね、当てはまりがいいだろうというような観点による適合度の評価というものになります。この独立モデルとの比較による適合指標としては、NFIと、CFIと、PCFIというのが出てくる指標です。NFIというのは、独立モデルとの距離を数量化したもので、値が大きければ大きいほど当てはまりがいいというふうに解釈する指標です。それからCFIというのは、このNFIの値を0から1までの範囲に収まるように変換したもので、1に近いほど当てはまりがよいというふうに言われています。あとは、基準としては0.9以上は許容範囲で、0.95以上なら当てはまりがよいというふうに評価する。PCFIというのは、CFIにですね、モデルの複雑さ、つまり変数の多さとかですね、あとはパスを引いている数でペナルティをかけたもの。できるだけ変数の数が少なくて、パスの数が少ないモデルのほうがいいモデルだというふうに評価されることがPCFIというものになります。

 それから、情報量基準というものもですね、適合度の指標として使われていて、AICと、CAICとか、あとはBICとかですね、そういった指標があります。それぞれに違いはですね、この自由度ですね。つまり、モデルに含める変数の数とか、パスの数ですね、というので、どの程度ペナルティをかけるかですね。つまり、どの程度シンプルなモデルのほうを評価しようとしているかというのによって、AICとCAICとBICというのが違います。AICが一番モデルの複雑さに対するペナルティが緩いものです。AICの値というのはどういうふうに評価するかというと、値が小さいほどよいモデルというふうに評価します。なので、さっきまでのCFIとかですね、RMSEAとかみたいに、一定の値よりも大きいとか、小さければいいというふうな評価のしかたをするのではなくて、ほかのモデルと比較をして、小さいモデルのほうがいいモデルだというふうに評価をすると。複数のモデルを比較するときに使われるのがこの情報量基準のほうになります。CAICは、AICよりもモデルの複雑さに対するペナルティを強めたもの。BICはさらにですね、それよりもモデルの複雑さに対するペナルティを強めたものということで、BIC、CAIC、AICの順番にシンプルなモデルの評価のほうが高くなるというような指標になります。

 それからGFIという指標もあって、これは回帰分析でいうところの決定係数に似たような指標がこのGFIです。GFIというのは、得られたデータから計算したですね、分散と共分散の行列と、あとはモデルを当てはめてステイした分散共分散行列を比較して評価する。1以下の値を取って、1に近いほど適合度がいいというふうに言われています。AGFIというのは、重回帰分析でいうところの自由度調整済み決定係数と同じようなもので、パラメータが少ないモデルのほうがいいというふうに評価されるのがAGFI。この確認的因子分析ではですね、この適合度指標も見てあげることでですね、想定した因子行動に、どの程度データが当てはまっているかというのを評価してあげるということをしています。なので、尺度開発をするときにですね、この因子が、こういう因子があって、この因子とこの項目というのは関連しているはずだと。つまり、このモデルでいうと、他者からの不当評価を甘受する率直でない受け身的自己表現というですね、因子からここに挙がっているようなですね、ちょっと具体的な項目は、この論文を見ないとわからないんですけども、この6項目というのは、この因子から影響を受けている。つまり、この6項目の回答に共通して存在するようなですね、概念というのはこういう因子があると。ほかのところも同じで、この3つのですね、因子というのを想定して、それぞれに因子に帰属する項目というのはこれだというふうに指定したうえでですね、このモデルにデータがどれくらい当てはまっているかというのを評価したようですね。論文ではこのようなかたちでパス図を示して、そのモデルの当てはまりのよさというのを示したりするというが一般的。この場合ですね、RMSEAは0.08以下であれば許容範囲内で、GFIは0.9以上あればだいたいいいというふうに言われているので、そんなに悪くない適合度だというふうなことがですね、ここからわかると。なので、確認的因子分析の結果の見方としては、適合度を見てあげて、適合度がですね、基準よりも上か下かというようなところが一つの見方です。当てはまりがよければ、因子的な統制というのが確認できるというような考え方をする。という見方をします。

 それではですね、今日は、授業のほうはこれで終わりにしたいと思います。(終了)