統計学の使い方

I. 単変量解析

パラメトリック法－連続変数（年齢、血圧等）、正規分布するもの。

ノンパラメトリック法－連続変数および尺度・順序変数（疾病ステージ、試験順位等）、分布の型は問わない。

1) 2群間で平均値または中央値の差を検定する（後者はノンパラメトリック法）

	パラメトリック法	ノンパラメトリック法
対応のある場合¹	paired t-test	Wilcoxon signed rank test
対応のない場合²	Student t-test* Welch t-test**	Wilcoxon rank sum test Mann-Whitney U test

¹例えば、同じ集団にある薬を投与した前後で血圧を比較、あるいは、投与群と非投与群を１対１のペアにマッチ（年齢、体格、喫煙有無等で）して比較。

²同、ある薬を投与した群としない群とで血圧を比較（マッチしない）。

* 両群の分散に有意差がない（等しいとみなせる）。

**両群の分散に有意差がある。

2) 2変数間の関連を検定する（相関係数）

パラメトリック法	ノンパラメトリック法
Peason's product moment correlation coefficient (r) *	Spearman's rank correlation coefficient (rs), Kendall rank correlation coefficient (t)

* いわゆる相関係数（２変数とも正規分布する連続量）。

3） 2群間で率の差を検定する

	対応のある場合¹	対応のない場合²
通常	McNemar test	χ2 test (Yates' correction)
セル内サンプルの数が少ない（５以下程度）	Exact probability test ( not common)	Fisher's exact probability test

¹例、薬剤・placebo投与群を１対１でマッチ（セル内はペアの数であることに注意）。

		Placebo 投与
		効果あり	効果なし
薬剤投与	効果あり	a	b
薬剤投与	効果なし	c	d

²例、薬剤・placebo投与群をマッチせずに解析（セル内は人数）。

	効果あり	効果なし
薬剤投与	a	b
Placebo 投与	c	d

註：上記は２×２分割表であるが、χ2 testはm×ｎ分割表に拡張されて用いられることもある。しかし、それは表中の比率が一様に分布するか否かを検定しているのであって、傾向（表の左から右へ増加等）やどこが多い（少ない）という検定を行っている訳ではない。

4) ｎ群（ｎ≧３）の間で平均値または中央値が一様とみなせるか検定する（後者はノンパラメトリック法）（どの群が大きいとか小さいとは言えないことに注意）

	パラメトリック法	ノンパラメトリック法
１要因 ¹　（ｎレベル）	一元配置分散分析	Kruskal-Wallis test
２要因 ²　（ｎレベル）	二元配置分散分析	Friedman test

¹例えば、ある薬の非投与群、低量投与群、大量投与群とで血圧を比較（投与・非投与のような２レベルでは、Student t-testと同じ）。

	非投与	低量投与	大量投与
血圧	X11,X12,...X1k	X21,X22,...,X2m	X31,X32,...X3r
平均値	X1	X2	X3
人数	k	m	r

²同、同じ集団にある薬の非投与、低量投与、大量投与をそれぞれ行い、投与前後の血圧の変化量を比較（投与・非投与のような２レベルでは、paired t-test と同じ）。

合計＝ｍ人

	非投与	低量投与	大量投与
被験者１	X11	X12	X13
同２	X21	X22	X23
同３	X31	X32	X33
・・・	・・・	・・・	・・・
同ｍ	Xm1	Xm2	Xm3
平均値	X1	X2	X3

5) 多重比較

統計検定を繰り返し行うと、偶然（chance）により、本来統計学的には有意ではないものが有意となってしまう。

1) Bonferroni の修正（保守的ではあるが各種の統計手法に応用可能）

2) その他

あらかじめ決めておいた特定の１対に限定して比較する（フィッシャー法）。　対照群と他群を対にして比較する（ダネット法）。２群を対にして，すべての対について比較する（チューキー法）。
２群の比較ばかりでなく、任意の群を合併したものを含め、すべての対比を行なう（シェフェ法）。

page top

II．多変量解析（作成中)

1) 重回帰分析

ある変数Ｙ（目的変数または従属変数）の変動が、ｍ個の変数（X1, X2, ....Xm）（説明変数または独立変数）の変動で説明できるか否かを示す。b0 は定数、b1 ....bm は独立変数相互の影響を除いた後のＹとＸiの関係を表すので、偏回帰係数と呼ばれる。

モデル：Y = b0 +b1X1+b2X2+....+bmXm （通常、サンプル数ｎはｍの３倍以上必要といわれる）

例、ある集団で血圧（Ｙ）と年齢(X1)、体重(X2)、身長(X3)およびアルコール摂取量(X4)の関係を検討する。

回帰式全体が有意であるか否かを示すのがＲ（重相関係数）。これが有意でなければ回帰式は意味がない。 b1 ....bmは有意であるものしか意味がないと考え、これらが有意となるような説明変数のみを採用する方法が変数選択増減法（stepwise regression method）である。なお、変数採用の基準としてＡＩＣを用いる場合があるが、国際的には通じないのでやめた方が良い。これに対し、たとえ有意でなくとも基本的な交絡因子は取り込むべきと考え、全変数を回帰式に採用することがある（強制投入法）。上記の例で言えば、アルコール量と血圧の関係に注目して解析する際に、年齢、身長、体重も回帰式に採用することにあたる。
通常ＹおよびXiを標準化してから回帰式が求められるため、偏回帰係数を標準化偏回帰変数という。測定単位により偏回帰係数が変わることをなくすためである。ここで、標準化された変数値＝（元の値－その変数の対象集団での平均値）÷（その変数の対象集団での標準偏差）
m = 1は通常の単回帰である。Ｒに相当するものは相関係数（ｒ）。回帰係数の標準化は行わない。

2) 因子分析

因子分析は１組の多変数データを比較的少数の共通な潜在的変数の一次結合として要約する手法である。すなわち、サンプル数Ｎの集団でｎ種の変数のデータＸij (i = 1, 2,..., N; j = 1, 2, ... n) が得られたとき、標準化したデータＺij = (Xij - Xj)/sj （Xj, sj = 変数ｊの平均値と標準偏差）について次のモデルをあてはめる。

モデル：Zij = a1jfi1 + a2jfi2 + ..... + amjfim + eij

ここで、fi1, fi2.....fimはｍ個の共通潜在変数（共通因子）、a1j,a2j.....amjはその潜在変数にかかる重み（因子負荷量）、eijはこのような潜在変数では説明できない部分を示す。例、1000人で実施した30項目からなる知能テスト結果を要約し、ヒトの知的能力を記憶、計算、集中力、語彙および空間認識の５つの尺度のそれぞれの得点であらわす。この例では、これら５つの尺度が共通因子、各尺度の得点と30項目のテストのそれぞれの得点との関係が因子負荷量となる。

因子の抽出法には、主因子法、最尤法などがある。これにより得られた解では共通因子間の相関はない（直交しているという）。しかし多くの変数で第１因子に最も因子負荷量が高くなるため、回転と呼ばれる操作により各因子に等しく因子負荷量が分布するようにする（バリマックッス回転が有名）。因子分析の結果とは通常回転後のものをさす。因子数の決定は一義的にはいかず、いくつの共通因子があるかを予め想定することが重要。

3) 多重ロジスティック分析

ある現象（例えば疾病）が発生するか否かを多数の変数（X1, X2, ....Xm）の組み合わせによって予測する手法。すなわち、ある現象の発生する確率をＰとする時、オッヅ比Ｐ/（１－Ｐ）の自然対数である ln{P/(1-P)}（ロジットまたは対数オッヅ）について以下のモデルを当てはめる。

モデル： ln{P/(1-P)} ＝ b0 + b1X1 + b2X2 + .... + bmXm

右辺＝λとおいてこの式を変換して、Ｐ = 1/{1 + exp(-λ)}。X1, X2, ....Xm　は連続または順序変数。

各変数の係数biより相対危険度（Relative Risk, RR）（Xiが有無の形の変数の時）またはUnit Riskが算出される。後者は、当該変数が１単位増加したときある現象がおこる確率がどれくらい増加するかを示す。RR＝exp（bi）、その95%信頼区間＝exp (bi ± 1.96SEbi)。ここで SEbi ＝ bi の標準誤差。例、ある集団で観察開始の５年後に、虚血性心疾患による死亡と観察開始時点の年齢、喫煙有無、飲酒量、血圧、血清コレステロール値・中性脂肪、運動習慣（３段階）、近親者の虚血性心疾患有無の関係を検討する。各変数のRRないしUnit Riskが求められる。

4) 共分散分析

分散分析で群間の平均値の比較を行う際、変動の要因と考えられる因子以外の変数に群間に違いがある場合、この変数（共変数）を補正して比較を行う手法である。

例、喫煙者と非喫煙者の２群で血圧を比較する際、両群の年齢に差があると考えられる場合は年齢の補正が必要となる。この分析では、因子が喫煙、共変数が年齢となる。モデル：目的変数（血圧）の共変数（年齢）に対する回帰を各群（喫煙群、非喫煙群）で求める。それぞれの群で、得られた回帰式により、全群を通じた共変数の平均値に対応する目的変数を算出する。こうして得られた目的変数の補正値を群間で比較する。

回帰式における回帰係数が群間で差があってはならない。若し差があるとすると共変数の目的変数に対する影響が群間で異なることになる。
一般的には、２群間、１因子、１～２個の共変数にとどめておいた方が良い。

5) その他

III．生存曲線の分析

1) 生存分析

観察開始時より死亡までの期間を調べて、累積生存率を求め、解析する方法を生存分析と言う。観察期間中に脱落、他の原因による死亡その他で観察が打切られる例を除外する場合は、直接生存率法という。これに対し、通常は打切り例を含め解析を行うために、生命保険数理（Cutler - Ederer）法またはカプラン・マイヤー（Kaplan-Meier）法が用いられる。特に、例数が少ないとき（50程度以下）は後者を用いる。これらにより、ある時点における生存確率（例、５年生存率）を求めることができる。分析にあたっては、開始より一定期間毎（例、週、月）の生存割合をプロットした生存曲線を作成する。２群（例、治療、未治療）間の生存率の差は、Cox-Mantel検定、一般化 Wilcoxon 検定または Log rank 検定で行うことができる。

2) Cox の比例ハザードモデル

打ち切り例がある場合に生存期間に及ぼす複数の因子の影響を解析したい場合、Cox の比例ハザードモデルが用いられる。共変量（説明変数）の時間経過に伴う変動があってもかまわない。従属変数は生存期間である。このモデルの回帰係数からは相対危険度を求めることが出来る。これは、すべての共変量がゼロの時を基準として、リスクがその何倍であるかを示す。

page top