統計のTips


・数値に外れ値があったときに変わるもの

平均値や標準偏差は一部の数値の変化を鋭敏に反映する→非抵抗統計量

調整平均や中黄絶対偏差は一部の数値の変化は反映しない→抵抗統計量

 

・標準偏差と標準誤差の違い

SDは標本データのばらつきを見ていて,SEは標本の平均値そのものがもつ信頼区間を意味する。

SEは標本平均の分散の平方根であり,これは標本数に影響を受けるため,標本数を表記するのが

普通である。実験データで同一試料を複数回測定して平均値を示すときには,抽出標本の平均値の

信頼区間として標準誤差を用いるのが正しい。一般的にはSDを使った方が直観的にとらえやすい。

 

・中心極限定理と大数の法則

中心極限定理は変数が正規分布に従うか否かにかかわらず,その変数のnが十分に大きいときには

その変数は正規分布に近似的に従うと見なせるというものだが,その重要なところは,正規分布

していないものでも,サンプル数を増やせば正規分布で近似できるということにある。

代数の法則とはチェビシェフの不等式で与えられるものであるが,nを大きくすると,標本平均は

母平均に限りなく近づくという法則。

 

・分散で分母をnにするかn-1にするか

特に推定・検定の時に母分散の推定値と標本分散の推定値が一致しないので,分散の分母は

自由度であるn-1にする。また,この分散を特に不偏分散とよぶ。

 

・統計分析手法の選択

#1

連続変数と連続変数(散布図を描くとき)→相関係数・回帰分析

相関(correlation)は連続変数の間の関係

関連(association)は名義変数の間の関係

相関関係があっても因果関係があるとは限らない点に注意

 

#2

名義変数と名義変数→分割表分析(カイ2乗検定)

 

#3

名義変数と連続変数→平均値の差の検定

対応のない(独立標本の)2群間の比較→t検定(parametric)/Mann-Whitney U検定(non-parametric)

対応のある(関連標本の)2群間の比較→t検定(parametric)/Wilcoxonの符号付順位検定(non-parametric)

対応のない(独立標本の)3群以上の間の比較→ANOVA(parametric)/Kruskal-Wallis検定(non-parametric)

対応のある(関連標本の)3群以上の間の比較→ANOVA(parametric)/Friedman検定(non-parametric)

 

#4

連続変数と名義変数→ロジスティック回帰分析

 

・統計分析する前に

parametric法を用いて分析する前にデータ分布の正規性と等分散性とRandom性を確認しなければならない。

もし確認できないときにはその方法の変法か,non-parametric法など非連続データの検定を用いる。

正規性は正規分布曲線と比較したり,尖度・歪度で評価したりする。(正規分布では尖度は3,歪度は0)

たとえば,対応のない2群間の比較で,正規性はあるが等分散性がないときにはWelch検定を行う。

 

・Kolmogorov-Smirnov検定

2群間の代表値に差があるか,2群の分布に差があるかどうかを調べる検定

 

・棄却域の選択

一般に2つの標本平均値の一方が明らかに大きいことが共通の理解となっていたら,片側検定を行う。

つまり,片側検定では不等号のある対立仮説ができることになる。たとえば,栄養指導によって

体重減量したかという検定をするときには片側検定がよい。片側検定の時にはデータ指定順序が問題になる。

 

・頑健性(robustness)

前提条件がどれくらいまで崩れてもよいかということ。t検定ではデータ数に差がなければ頑健性は高い。

 

・相関と共分散について

2変数とも連続データで,正規分布に従っているならばPearsonの相関係数を用いることができる。

すくなくとも一方が非連続データの時にはnon-parametric検定のSpearmanやKendallの相関係数を用いる。

相関性の有無を判断するために相関係数が統計学的に0と異なるかを検定するのは「Fisherのrのz変換」。

 

・多項式回帰(Polynominal regression)と重回帰(Multiple regression)の違い

多項式回帰は単回帰の一つで,独立変数が一つだが,その変数を含む項が複数あるものをいい,

重回帰とは独立変数が複数あるものをいう。

 

・分割表のまとめ方の注意

研究スタイルによって読み方が異なるので注意する。

有効

無効

薬剤A

30

20

50

薬剤B

15

35

50

45

55

100

#1. Prospective Study → 薬剤Aの有効率(60%)の方が薬剤Bの有効率(30%)より高い

#2. Case-Control Study → 有効例を比較すると薬剤A(67%)の方が薬剤B(33%)より高い

#3. Transverse Study → 患者100例分を集計した結果,薬剤A・Bともに50例に服用されていて,

全体での有効率は45%で有効率は薬剤Aの方が高い。

 

 

・ノンパラメトリック検定の重要性

パラメトリック検定しか習っておらず,その前提条件を忘れている人が多いため,

とりあえずパラメトリック検定をする人がいるが,間違っている。

ノンパラメトリック検定は分布に依存しない検定法(Disribution free test)なので

正規性や等分散性が確認できないときに使うべき検定法である。

たとえばGOTなどの値は高い値に裾の長い分布になるが,このようなときには,

対数変換などの変換をして正規性を確認してからでないとパラメトリック検定は用いることは

できない。しかしノンパラメトリック検定なら「とりあえず」的に用いることができる。

ただし,パラメトリック検定ができるときにノンパラメトリック検定を用いると,一般に

やや厳しすぎる結果を導き出すことになる点に注意しなければならない。

またノンパラメトリック検定の本来の適応である,順序変数(悪化・不変・改善など

各段階に分けられたデータ)の場合も,当然この検定を用いることになる。

以下に頻用されるノンパラメトリック検定と対応するパラメトリック検定を記す。

Mann-Whitney U検定 - t検定

Kruskal-Wallis検定 - 一元配置分散分析(one-way ANOVA)

Friedman検定 - 繰り返しのない二元配置分散分析(two-way ANOVA without repetition)

 

・生存分析について

データ数が十分に大きいとき,具体的には1群で50以上のとき,生命表法によって生存分析を

行ってよいが,データ数が少ないときにはKaplan-Meier法にて生存分析を行う必要がある。

生存率の検定はLogrank検定を行うのが一般的である。

 

・累積ハザード曲線の解釈のしかた

累積ハザード曲線はイベントが発生すると増えていくので,曲線が平坦であればあるほど,

生存率の減少が少ないことがわかる。対数累積ハザード曲線は時間軸を対数変換したもので

この曲線が直線に近いときには,生存分布をワイブル分布で近似できる。特に傾きが1の時には

ワイブル関数の特殊な場合である指数関数モデルとなる。つまり,もし傾きが1に近いときには,

その生存率は指数関数的に減少しているといえる。

 

・多重比較の考えかた

最も簡単な方法はBonferroni法で,比較するすべての2群の数,つまり全体の群数をnとすると

nC2の値をp値にかけて補正して比較する方法。有意水準をnC2で割って比較するともいえる。

 

・生存分析 回帰モデルについて

変数(共変量)が疾患の発生や患者の予後に与える影響を調べる手法で,回帰モデルには

比例ハザードモデル(Coxの回帰モデル)とパラメトリックモデルがある。

比例ハザードモデルはハザード比がどの時点でも一定であることが前提である。

ハザード関数の分布は仮定しなくてよい。

パラメトリックモデルはハザード関数の分布を仮定しなければならない。分布の仮定が適切ならば

回帰モデルの精度は比例ハザードモデルよりも高くなるが,一般に臨床では分布を仮定できない

ときがほとんどなので,パラメトリックモデルを適用すべき機会はあまりないと思われる。

ちなみにハザードとは各時点における単位時間あたりにイベントが発生する確率で,生存率曲線より

計算できる。ハザード比とはある群を基準としたときに,他の群が何倍発生率が高いかを示したもの。

比例ハザードモデルではExp(係数)がハザード比になっている。

 

・生存分析の視点

生存分析は大きく分けて2つの評価指標がある。一つは生存時間であり,これは回帰モデルを

用いて分析することができる。もう一つは改善・不変・悪化などの転帰を従属変数とするもので

この変数が複数ある時,この分析法は多重ロジスティック分析と呼ばれる。