第9章:重回帰分析その1多変量解析の基礎

ナレーション原稿

米倉 今日は、多変量解析の話ということで、一番ですね、多変量解析の基本になってくる重回帰分析というものの話までしていこうと思います。

 最初の部分はですね、ちょっと疫学でやったことと関わってくるんですけども、この変数間の関係というのには、いろんな関連、関係があって、今まで二変量だったら関連があるかないかというだけのですね、ものだったんですけども、変数が3つ以上になってくると、ここに挙がってくるようないろんな変数間の相互作用があって、それをですね、どのように統計的に分析するかだったりとか、どのように処理をすればいいのかというようなところが変わってきます。こういう複雑な3つ以上の変数が関わってくるようなデータをですね、分析するために使われるのが多変量解析というもので、今日はこの重回帰分析というものの話をしていきます。

 多変量解析、今週と来週2回に分けてですね、話をしていくんですけど、多変量解析とは何かというと、3つ以上の変数の関連性を明らかにするということで、大きく分けるとですね、説明型というのと分類型の2つに分けられます。この説明型、分類型は、私が勝手に名前をつけているんですけれども、説明型というのは、多くの変数で一つの行動や状態を説明する方法ということで、説明変数が今まで回帰分析のところとかでもやりましたけれども、説明変数が複数で、目的変数が1つあると多変量解析が説明型のですね、多変量解析というもので、重回帰分析とか、一般線形モデルとかですね、ロジスティック回帰分析とか一般化線形モデルというふうに呼ばれるような、というのが説明型というタイプの多変量解析になります。例えばですね、これは患者の服薬アドヒアランスという、アドヒアランスって、処方された薬を処方どおりに飲んでいるかとか、あとはそういったですね、時間どおりに飲めるような工夫をしているかどうかと。そういった薬をきちんと飲めるかどうかというようなもの、概念ですけども、こういったアドヒアランスというものには、年齢だったり、疾患の重症度だったり、家族が協力しているかどうか、してくれるかどうかという、いろんな要因で、ちゃんと薬をですね、処方どおりに飲めるかといのは変わってくると。例えば年齢であれば、年齢が高くなるとですね、忘れやすくなってしまったりとか、逆にちょっと若い、若くて仕事とかをしていると、忙しくて飲むのを忘れてしまったりとか、いろいろあるわけです。年齢も関係してくるでしょうし、疾患の重症度とかも変わってきて、によっても変わってきて、そんなに自覚症状がないような疾患であれば、お薬を飲まなくてもですね、日常生活に支障がないので飲まないということもありますし、飲まないと症状が出てきて何もできなくなってしまうというような、そういう病気であれば薬を飲まないと動けないとかですね、支障があるので飲むというようなこともあると思いますし、家族がいて協力してくれるとかですね、そういったことがあれば、当然飲み忘れが防げたりとかですね、するということで、いろんな要因が関連してくるというのを表現しようとするのが、説明型の多変量解析。

 一方で、分類型の多変量解析というのは、多くの変数をまとめたり、分類したりすると。つまり、いっぱいあるですね、情報というのを、できるだけ少ないものにまとめると。集約するという、集約するために使われる分析というのが、主成分分析とか、因子分析などのような、分類型のですね、多変量解析というものになります。ここでも服薬アドヒアランスというのが出てくるんですけども、これは来週分類型の話はしますけども、服薬アドヒアランスといっても、あなたはちゃんと薬を飲んでいますかというふうに聞くだけではなくて、処方どおりに飲んでいる以外もですね、ちゃんとこのアドヒアランスというのが高ければ、勝手にですね、薬を中断しないとか、どんな薬を飲んでいるか、どんな効果があるのかというのを知っているとかですね、知識があるとかですね、いろんなアドヒアランスの側面というのがあるわけですね。アドヒアランスが、あなたはアドヒアランスが高いですかというふうに聞いても、こういうアドヒアランスというのは測定できるとは考えられていなくて、アドヒアランスが高ければ、こういった行動に表れるだろうというような、ほかの人がですね、観察したりとか、あとは答えてもらうことで、測定できるようなものから、複数のこういうアドヒアランスが高ければやっているであろうことというのを聞くことで、それのあてはまりの具合を見ることで、アドヒアランスを推定するというようなことをします。推定するときにはですね、それぞれの項目の重要度というのが変わってくるので、つまり、それぞれの回答に何か係数をかけて得点化しようというとき、その得点を計算するための重みですね。係数をデータから推定してあげようというのが主成分分析とか、因子分析ですね、分類型の多変量解析というものになります。そのようなかたちで、多くの変数の情報を、より少ない変数に集約してですね、集約はするんだけども、情報をできるだけ捨てないで集約するための分析手法というのが分類型の多変量解析というものになります。

 こういったですね、多変量解析にはいろんな種類のものがあって、さっき前回の授業の質問で出てきましたけど、分散分析とかですね、重回帰分析というのを全部ひっくるめて、一般線形モデルというふうに言うんですけども、目的変数が正規分布で、最初に情報を使ってパラメーターを推定する分散分析と、共分散分析と、重回帰分析というのを合わせて一般線形モデルというふうに言います。一般線形モデルは説明型の多変量解析の一種です。ただ、目的変数が正規分布に従う係数ではないということもあるので、目的変数が正規分布の量的変数ではないときに使われるようなですね、多変量解析というのが一般線形モデルというふうに呼ばれているもので、ロジスティック回帰分析は、二変量の兼ね合いのところで少し見かけたなと思う人がいると思うんですけど、二値の質的変数を目的変数にして、多変量解析ですね。回帰分析をおこなうというようなものがあります。ほかにもプロビットを使ったですね、回帰分析とか、ポアソン回帰とか、そういったものがあるんですけど、ここら辺の一般化線形モデルの話は、この授業では扱いません。教科書のほうにはロジスティック回帰とかですね、ポアソンは書いてあったかな。ここら辺の話は出てくると思うので、興味がある人は教科書のほうを見ていただければと思います。あとは分類型もですね、いろんな種類があって、ここに書いてあるもの以外のものもですね、いっぱいあるんですけども、よく出てくるというかですね、ものとしては、主成分分析とか、因子分析ですね。来週はこの因子分析の話をします。それからクラスター分析とか、判別分析とかですね、そういったものも分類型に属するというようなかたちになります。

 この説明型と分類型は、多変量解析でなんで必要かということなんですけども、説明型の多変量解析が必要になってくる状況としては、1つはですね、注目する要因以外の条件を揃えるために多変量解析が必要ということがあります。これは、多変量解析をすることで、疫学でやった交絡をある程度除去することができるので、この説明型の多変量解析というのはよく使われるわけですね。ほかにもですね、交絡を除去するという以外に、多くの病院で説明をすることで、多くの要因をモデルに含めることで、複雑な行動や特性や状態をうまく説明できる。つまり、うまく予測するために複数の要因を使うというのが説明型の多変量解析で、必要になってくる理由ですね。つまり2変数の分析では表現できないような複雑な関連性を明らかにするといったことや、2変数の1つの要因だけでは説明しきれないような現象だったりとか、あとは病気とかの発生確率とかですね、発生の予測とかを期待するときとかにも使われますけども、多くの要因で説明したほうが、複雑なものというのをうまく予測したり、説明したりできるので、説明型の多変量解析が必要だというようなですね、主に交絡を除去するためというのと、あとはうまく予測するためという、2つの用途でこの説明型というのは使うと。

 分類型の多変量解析というのは、今度は変数が多すぎてですね、情報が多いというときに、少ない情報に集約して、わかりやすくするというのが分類型の多変量解析の用途ということになります。次回ですね、やりますけども、質問紙や検査などでは、直接測定できないものを、統計モデルを使ってですね、つまり心理とかそういうもの測定を、数学的な、統計的なモデルで推定をしてあげようというようなこと。分類型の多変量解析をやるということですね。そうすることで、多くの変数で、より精度の高い測定をするとかですね、あとは多くの変数の、情報が多すぎるという状態を少し解消して、わかりやすい説明ができるようなグループに分けてあげるというようなことをするときにですね、この分類型の多変量解析というものが使われます。

 ちょっと質問があったんですけども、説明型のですね、多変量解析で要因を多くしすぎると、解析が難しくなるということですけども、基本的はもう二変量までは2次元の座標で関連をイメージすることができると思うんですけど、3つ目ぐらいになってくるともう立体になって、関連って解釈というのは難しくなってきます。なので、4次元、5次元とかになってくると、普通の人には全体を全体として理解するというのは、なかなか難しくなってくると思います。ただし、今日やっていくような重回帰分析であればですね、ほかの変数の値が、まったく同じ状態であったときに、特定の注目する変数が、目的変数のどのような関連にあるのかというのを回帰係数として出してくるというのはあるので、そういう解釈はできるんですが、ただ、説明変数が4つ、5つになってくると、その4つ、5つの状態がまったく同じ状況というのは想像できないということが出てくるわけですね。なので、具体的に何個というふうにですね、決まっているわけではないんですけども、10個、20個になってくると、人間の頭では想像できないような状態像とかというのが出てきたりすることはあります。なので、どんな状況でもあてはまる数というのはないと思いますが、解釈は、想像はできなくても、そういう状況があるというふうに仮定すれば、解釈そのものはできなくはない。実際にそういう人がいるかどうかというのも、想像するのは難しいような状況というのはあり得ますけども、仮定の話として、まったくこの説明変数に含まれるような変数の状態が同じだったとしたら、というふうな解釈はできるので、そういうことになるかと思います。多変量解析の必要性については、この2つ。そういう意味では用途によって、このようなものがあるということですね。

 この変数間、多変量解析で主に説明型のほうに関わってくるわけですけども、変数が3つになると、どんどん関連性というのは複雑になってくるんですね。疫学の授業でやった交絡というのも、3つ目の変数を考慮しないと、交絡のせいで誤った解釈をしてしまうということものあるというような話をしていましたけども、第3の変数の存在を考え始めると、どんどんこういう可能性もある、こういう可能性もあるというので、代表的にはこの3者の変数の関係というのには、今度は関連がある、ないだけではない状態というのが出てくるわけですね。疫学の授業でやった交絡というのは、第3の注目している2つの変数に共通の原因があって、その共通の原因があるからこそ二変量で関連を見ると、第3の変数の存在を考慮しないで、二変量だけで見ていると、関連があるかのように見えるというのが交絡でしたけども、二変量の関連を見ているだけではですね、このXとYは関連しているように見えるし、第3の変数ではTですね。TとX、TとYも関連していると。ただし、この第3の変数を考慮してXとYの関連を見ると、XとYの関連はない。もしくは非常に弱いというような状態になるというのが交絡という。

 媒介というような関連もあって、このXとYが関連しているというのはそうなんですけども、XとYのあいだに第3の変数が入ってくるというような媒介というものもありますし、あとはXとYが関連しているんですけども、このXとYの関連のしかたが第3の変数の状態によって変わるというようなこともあります。さらに複雑になってくるのはですね、この抑制と歪曲。これは、抑制と歪曲で分けて書いてあるものと、抑制と歪曲は同じものだというふうにして書いている教科書とかですね、本とかがあるんですが、この2つというのは、第3の変数を考慮しないときは無関係と。関連があるとかというときも、歪曲の場合はあるんですけども、抑制の場合は、この2つの変数は二変量で関連を見ると、関連がないように見える。ただし、第3の変数を考慮してあげると、関連性が出てくるというような場合もあります。それから、歪曲の場合はもうちょっと違っていて、二変量の関係ではですね、関連があるんですけども、第3の変数を考慮すると、関連の方向が逆になるというのが歪曲というものになってきます。

 実際のこういう交絡とか媒介が起こっているときに、二変量の散布図を書くと、こういうふうにですね、二変量、このXとYというものにだけ注目していると関連があるように見えるんですけども、実際に交絡とか媒介が起こっているときにはですね、交絡要因、もしくは媒介するような要因というのを考慮してあげると。この色がついているですね、色分けをしたグループというのは第3の変数。第3の変数の状態によって、このように5グループに分かれていると。実は、このそれぞれのグループごとに見ると、このxとyというのは関係がないような、グループごとに見ると関連がない。つまりグループ、この色分けで決まる変数、色分けを定義しているような変数というのは、交絡要因になって、このxとyの関連がxとyに関連があるかのように見えるというときに、このように出てくるというわけですね。

 ちょっと疫学の復習ですけども、交絡というのは、注目している結果と原因の関係というのが、それ以外の第3の要因によって攪乱されること。典型的な例は飲酒と肺がんの関係というやつで、飲酒と肺がんのこの二変量だけ関連を見ると、お酒を飲んでいる人、よく飲む人は肺がんになりやすいというような関係というのが、いろんなコホート研究とかで出てくるんですけども、実際には、飲酒が直接肺がんを引き起こしているのではなくて、喫煙が肺がんを引き起こしていると。ただし、飲酒と喫煙のあいだにですね、けっこう強い関連があって、お酒を飲む人は、一緒にタバコを吸うことも多いということがあるので、ここの関連というのが、後ろからつながって、飲酒と肺がんに関連があるように見えるというのが交絡というものでした。

 あとは、これは前に疫学でも出てきて、繰り返しなので飛ばしますけども、こういう一見関連がないようなものでも、交絡によって関連が出てきたりとかするようなことがあるので、仮にですね、統計的な分析をして、関連があるように見えたとしても、本当に関連があるのかというのは、きちんとこの交絡要因を調整しているかどうか、交絡要因を考慮しているかどうかというのをきちんと見たうえでですね、この関連性というのを評価しないといけませんよというような話になる。この通院回数と、囲碁と将棋の話でいうと、年齢が高い人のほうが囲碁、将棋が好きな人が多くて、年齢が高い人のほうが病院に通うような、疾患があることが多いので、関連があるように見えたわけですね。つまり、年齢が交絡要因、交絡因子になって、囲碁と将棋が好きな人は、通院回数が多いというふうに見えてしまうということになります。

 この交絡因子への対策として、これも疫学でやりましたけども、研究対象者を制限したり、マッチングしたり、無作為化、ランダム化をしたり、層別に分析をしたりとかというようなことがありましたが、一番使い勝手がいいというか、データを集めたあとでも使えて、比較的よく交絡をコントロールできるので、多変量解析ですね、これから説明していくような重回帰分析ですね。というのが、交絡因子への対策として使えると。しかも倫理的な問題で無作為化できないような、強制的に何かの介入だったり、曝露要因を割り当てることができないようなときにも、多変量解析であれば、ある程度この交絡への考慮ができるので、便利ということでいろんな研究で使われているということですね。というのが、交絡と多変量解析の関係というか、交絡因子をどうにか整理をして、より妥当な関連性の結果というのを得るために多変量解析というのは使う。

 それから修飾の話ですね。修飾というのは、この修飾する要因の違いによって、目的変数と説明変数の関連のしかたが違うというようなもので、架空のデータですけども、このようにですね、第3の変数であるグループごとに分析をすると、それぞれxとyの関連のしかたが違ってくるというようなものが、結果として得られるというようなときには、修飾が起こっているというふうに言われたりします。実際の論文とかの例ではですね、こういうようなもので、このCES-Dというのはですね、精神健康度を測る、尺度で、尺度については来週やりますけども、精神健康度の健康がいいか、悪いかというのを表していると。このCES-Dは、点数が高いほど精神健康は悪いというふうに解釈できるスコアなんですけども、この精神健康度と、あとは死別。配偶者との死別があったか、なかったか。あったのだったら、死別してからどれぐらいの期間がたっているかというので、3群に分けているんですね。死別後1年以内、一番ショックが大きいであろう。死別後1年以上たって、ある程度時間が経過している。死別はしていないという3群。さらに、第3の変数として、社会的支援ですね。親戚だったりとか、あとは子どもだったり、これは高齢者を対象にした研究なんですけども、社会的な支援ですね。友達だったりとか、親戚だったりとか、子どもとかが、何か話し相手になってくれるとかですね、何か手伝ってくれるとか、いろいろあるんですけども、そういった支援があるかないかというのが第3の変数としてあると。そうするとですね、この死別後の期間と、精神健康の関係というのを、さらにこの第3の変数では社会的支援の高い、低いの別に見ると、こういう結果になると。つまり、社会的支援が高い分、点線ですね。点線のほうは、死別後1年以内で、比較的ショックが大きいであろうという人たちであっても、このCES-Dの点数は上がらない。つまり、死別があろうがなかろうが、あまり変わらないような結果になっているんですね。それに対して、社会的支援が低い人たち。つまり、友達がまったくいなかったりとか、家族とかですね、親族も遠方にいたりとかして、なかなか会えないとかですね、電話とかもあまりできないとか、そういうような人たちのなかで見てみると、配偶者を死別してしまって期間が浅い日とは、この精神健康度はほかのグループよりも悪くなっているというようなかたちで、この第3の変数である社会的支援が修飾、この死別後の期間、死別の有無、死別後の期間というものの精神健康に与える影響、関連というのを修飾をしているということで、これが効果な修飾というものの例というものになります。

 それから抑制ですね。抑制というのは、二変量では関連が見られない。つまり、これは連続量、量的変数同士の関連で、模式的に出ていますけども、回帰直線の傾きがほぼゼロ。二変量よりは関連が見られないんだけど、抑制変数を考慮して、これは、抑制変数は色分けをしているグループだと。この抑制変数を考慮して分析をすると、関連が出てくるということが起こるんですね。これが抑制というもので、こういったこともあるので、二変量の関連を分析しただけではわからないと。本当に関連があるかどうかというのはわからないというのがあるということになります。

 抑制の例としてはですね、これは臨床現場での針刺し事故とHIV感染について、ケースコントロール研究をしたものです。針刺し事故をしたあとにですね、この感染を防ぐために逆転した酵素の阻害薬を予防内服ということが、本当にこの予防に効果があるのかというのをケースコントロールで見てみようというような研究なんですけども。この何も特に第3の要因というのを考慮しないで、単純にこの曝露後の予防内服をしたか、していなかったかで、感染が実際に起こったかどうかというのを比べてみると、ここですね。CrudeのOdds Ratioですね。特に何も調整しないで出したオッズ比というのは0.7で、これを見てもらうとわかると思いますけども、33人感染した人のうち、33人のうち27人で予防内服をしている。それに対して、CONTROLSですね。感染しなかった人のなかで予防内服をしていた人というのは、36%。つまり、33人中27%が36%ですね。この比を取ると、0.7ということで、見えていないというか、有意ではないので、この予防内服をしていようがしていなかろうが、感染するリスクというのは変わらないというような結果になったわけですね。単純に比較するだけだと。なんかおかしいわけですよね。なんかおかしいというか、予防するために飲んでいるのに効果がないのだろうかと。よくよく見てみると、実は、最終的に結論としては効果があるということなんですけども、なんでこれは単純な比較では関連が出なかったのか。違いが出なかったのかというと、この事故の深刻さによって、予防内服をするかしないかという、その確率が間違っていたわけなんですね。深刻な事故のほうが曝露後の予防内服をする可能性が高い。一方で、深刻ではない事故の場合には、予防内服をしないと。つまり、より感染するリスクが高いときに予防内服がされていたので、結果として予防内服をしていなかった。していないでリスクが比較的低い人たちの感染リスクと、もともとリスクが高い状態で予防内服をするということで防げたもの、防げなかったものというのを比較していたことになるので、関連がないように見えてしまったわけですね。なので、この事故の深刻さを制御することで、曝露後の予防内服がちゃんと予防に関与というか、効果を発揮していて、これが多変量調整をして、事故の深刻さをきちんと制御したうえで出した結果になっていますけども、このように、さっきの単純な比較だけだと誤った結論を出していた恐れがあったわけですね。なので、このように単純な二変量の関連では関連がなかったとしても、関連を見ただけでは出なかったとしても、多変量にすると関連が出るということが起こるので注意が必要だということになります。

 それから歪曲の視覚的なイメージはこんな感じですね。二変量では負の関連なんだけど、多変量にすると、関連の方向が逆になると。さっきまでは右下がりで負の相関だったものが、グループに分けると正の相関になるというようなものですね。これがイメージ。

 実際の論文でですね、この歪曲が起こっているというのが、なかなか見つからなかったので例はないんですけども、イメージとしてはこういう。二変量の関連では負の関連なのに、多変量にすると正の関連になるとか。逆もあります。二変量では正の関連だったのに、多変量にすると、負の関連になるというようなこともあるので、なので、二変量の関連だけを見て結論を出すというのは、通常、二変量の関連だけで結論を出せるのは、RCTをやったときぐらいですね。RCTをやらないで、ランダム化比較試験をやらないような状態のときは、こういう第3の変数の影響というのは除去することができないので、二変量の解析、分析だけで、ある程度妥当な結論が得られるのは、ランダム化をしたときぐらいかなと思います。ランダム化をしていたとしても、こういうですね、効果の修飾というのが起こるというのを防ぐことができないので、ランダム化をしていてもですね、こういった修飾というのは起こったりする。効果の修飾に興味がないということもあるので、RCTですね、何かの薬の効果とか、治療の効果とかというのを見るときには、必ずしもこういう修飾する要因というのを探索したりするわけではないんですけども、いずれにしてもRCTをやっていないのであれば、多変量解析をしないと、誤った結論が生まれてしまう可能性があるというふうになります。

統計コンテンツクイズ

設問 9-1

ある集団で飲酒と肺癌の関係を調査した際、因果関係があるようにみえた。しかし、この集団では飲酒者の大半は喫煙者であり、非飲酒者の大半は非喫煙者であった。喫煙者の中でも非喫煙者の中でも、飲酒と肺癌に関連は認められなかった。 この調査において「喫煙」はどれにあたるか。





答え: b

設問 9-2

交絡因子の制御に有効でないのはどれか。





答え: d
交絡因子への対処方法は以下の通り

・研究デザインでの対処
 研究対象者の制限
 マッチング
 無作為化

・解析段階での対処
 マッチング
 層化
 多変量解析


交絡因子の制御に有効でないのは無作為抽出
無作為化(ランダム化)と混同しないように注意