◎統計検定
実験前 データを取る
実験はギャンブルのようなもので、
どんな結果が出るかはわからないが、
- 実験計画を立てる。
- 「2群に差がない!」という帰無仮説を立てる。
群間のサンプルの選択は公平にしなければならないが、
勝率が高くなるような実験計画をデザインも必要である。
生物実験では、物理科学実験とは異なり、
得られるデータは必然的にばらつきを伴う。
- 測定者による誤差
---実験技術の向上に伴い、
データの信頼度は上がる!
- 測定装置、あるいは測定方法による誤差
- 測定されるものの性質による個体差
統計解析を行う目的は、標本のデータを解析することによって、母集団の情報を推定することである!データ解析
1)データの代表値の推定 平均値 中央値 最頻値 2)データの分布の推定 データのばらつき---分散 標準偏差 標準誤差 3)データの検定
得られたデータは偶然か、必然か?確率 Probability
p値:帰無仮説が成立する確率4)帰無仮説が正しいかを検定する p>5%---「差がない確率p」は5%以上=有意差なし!
p<5%---「差がない確率p」は5%以下=有意差あり!データの評価
1)考察 統計はあくまで確率である。統計は統計として、検定結果は、しっかり自分なりに考察する! つまり、実験で、データ解析のための統計とは
統計検定↓↓↓ 「有意差があるか、ないかを」を検証する! 対立仮説
alternative
hypothesis検定をする人が、望んでいる仮説。---「2群に差がある。」
↓しかし統計的手法は、は、ひねくれている!帰無仮説
null
hypothesis(比較する母集団の間には差はなく、観察された差は偶然にすぎないという仮説)
通常 検定を行うときに立てる仮説
---「2群に差がある」と予想されるのに、わざわざ可能性の少ない「2群に差がない」と無に帰する仮説!検定 =統計学的帰無仮説検定
帰無仮説を立て、得られたデータから、帰無仮説が成り立つかどうかを検証すること。p値
Probability測定したデータが、偶然帰無仮説通りになる確率=対立仮説通りにならない危険率!
2群に、たまたま差が出ないことは、ありえないわけではない。そのまれなことが起きる確率。有意水準
significance level
α帰無仮説を棄却するために、あらかじめ決めた確率水準。
5%、あるいは1%と決めることが多い。統計学的
有意差あり
statistical
significancep値 <有意水準
---「差がない確率」は有意水準以下である!--帰無仮説は棄却→→→
1. 帰無仮説が棄却されたので、「有意差あり!」
2. 「有意差がない」にもかかわらず、たまたま珍しい事象が観察され、検定では「有意差あり!」となった。
あくまで統計は確立であり、「有意差あり」は「データの重要性」を保証するものではない。統計学的
有意差なしp値 >有意水準 ---「差がない確率」が高い。--帰無仮説は承認→→→
1. 帰無仮説が承認されたので、「有意差が認められない!」=「等しい」というわけではない!
→まずは、データを増やして再検討!
→考察例)「統計学的に有意差は認められなかったが、一定の傾向が示唆された。」
→考察例)「有意差を検出するために十分なサンプル数で検定したので、意味のある差はないと判断した。」
2. 「有意差がある」にもかかわらず、たまたま珍しい事象が観察され、検定では「有意差なし!」となった。検定における
2つの誤り第1種の過誤 type-I error level: ←→他群比較
「帰無仮説が正しい場合に,誤って仮説を棄却する誤り」の判断の基準となる確率。
---「有意差がない」のに、「有意差がある」とする誤り
第2種の過誤 type II error (β):
「帰無仮説が誤っているのに,仮説を採択してしまう誤り」
---「有意差がある」のに、「有意差がない」とする誤りサンプル数 サンプル数が大きい場合は、小さい差であっても「統計学的有意」となる場合がある。
「実験における重要性」を検出できるような研究デザインを組むことも重要である。外れ値
Outlierデータの主要な固まりから大きく外れたデータ。
ミスである可能性もあるので、解析の前に外れ値のチェックを行うことは極めて重要である。
(明らかな原因がなく極端なデータが生じた場合は、スルミノフ棄却検定やトンプソン棄却検定により判定する必要があるらしい。)両側検定と
片側検定帰無仮説に方向性がある場合のみ、片側検定を使う。
ex)仮説「新薬は旧薬より効くはずである。」
両側検定におけるP値0.05は、片側0.025になるが、片側検定では片側のみで0.05なので、当然片側検定の方が有意差が出やすくなる。自由度
degree of freedomサンプルの大きさによって、ズレの確率は違ってくる。したがって、統計的検定ではサンプルの大きさを表す「自由度」という基準を算出し、それに対応したズレの確率を推定する。
t検定 ----サンプル総数マイナス1
対応のある平均値の差の検定 ----対の数マイナス1
偏差値 standard score(T score) ←→t-test/z値
- T値、T-scoreと同義である。
- 偏差値=z値 x 10 +50
- 平均が50、標準偏差(SD)が10の正規分布に近似するように変換した値
- これによって、平均点が高くても低くても自分の点数が他の人と比べてどの位置にいるかを知ることができ、国語や数学といった内容の異なる変数でも同じ偏差値という数量化により比較することができる。
- パーセンタイル順位を標準化した値を10倍して50を足すことで求められる。
- 分布の形状が異なる2つのデータがあるとき、T値が同じであれば順位も同じである。
正規分布のベルカーブ
% 13% 2.14% 13.59% 34.13% 34.13% 13.59% 2.14% 13% 標準偏差 -4σ -3σ -2σ -1σ 0 +1σ +2σ +3σ +4σ 偏差値 10 20 30 40 50 60 70 80 90 z値 -4 -3 -2 -1 0 1 2 3 4 z値 z-value、Zスコア z-score ←→偏差値
- 分布の平均値からのずれを示す値。注目している標本値と分布の平均値の差を分布の標準偏差で割った値で定義される。Z-scoreの絶対値が大きければ大きい程、分布の平均値からのずれが大きいことを示している。
- 平均が0、標準偏差(SD)が1になるように変換した値
このような変換を標準化や基準化とも言われ、変換した数値のことをZスコアと呼ばれる。- 標準化によりZスコアを算出することで、さまざまな数値を比較検討することが可能になる。→発現量解析
- 母集団の平均と標準偏差が既知の場合、変数 x のZ得点 z は以下のように計算される。
μ = 母集団の平均値、 σ = 母集団の標準偏差
z = ( x − μ ) /σ
データ群の当該数値から平均値を引いて、標準偏差で割ることで求める。- 平均との差が、標準偏差の何倍あるか
P値 0.01 0.05 0.1 Z値 ±2.58 ±1.96 ±1.65
Nominal variable
名義変数順序のない変数 名義尺度
カテゴリーデータOrdered variable
順序変数順序のある変数 順序尺度
整数データContinuous variable
連続変数順序のある変数 間隔尺度
数値で表される定量的データ!
Independent variable
独立変数群を分ける因子factor Dependent variable
従属変数測定された値
scale 尺度 比較 例 質
的
デ
−
タNominal scale
名義尺度・対象を分類するためにつけた符号。
・同一性を示す。最頻値 物の品番 Ordered scale
順序尺度・対象を比較するためにつけた順位。
・同一性・順序性を示す。中央値 10段階VAS
Score(-, ±, +, ++ , +++)
Stage (I, II, III, IV)量
的
デ
−
タInterval scale
間隔尺度・間隔の大小関係のある測定値。
・絶対0の定まらない
・同一性・順序性・加法性を示す。平均と
標準偏差温度(←10℃は5℃の2倍暑いわけではない。) Ratio scale
比率尺度・倍数関係(比)を問題にする測定値
・原点0がある。
・同一性・順序性・加法性・等比性を示す。平均と
標準偏差体重
100mmVAS
閾値 潜時
|
帰無仮説:「変数は正規分布にしたがう!」 →P>0.05:正規分布(に従わないとは言えない)→パラメトリック →P < 0.05 (帰無仮説を棄却): 正規分布ではない。→ノンパラ |
Mean 平均値 | 総和/サンプル数 数値データで分布が対称性の場合に用いる。 |
Median 中央値 | データの大きさの順に並び替えた時、真ん中の値 (50%点) 順序変数や数値データでも分布が対称でない場合に用いる。 |
Mode 最頻値 | もっとも度数(頻度)が高い値。 モードはbimodal distributionの場合に用いる。 |
Variance : V (母)分散
=母標準偏差 ---ばらつきの要約値 ={[データxi]と[平均X]の差(偏差)}の2乗した総和を、 [データ数n-1]で割った値 母標準偏差=SD2 |
| ||
Standard deviation : SD 標準偏差 ---データが、その平均からどれだけ広い範囲にばらついているかを示す。 正規分布の場合は、グラフの変曲点 =[分散V]の正の平方根
|
SD=√V | ||
Standard error of MEAN : SE (S.E.M) 平均値の標準誤差 ---データの平均がどのあたりにばらついているかを示す。 母集団の標準誤差 =[標準偏差SD]を[√n]で割った値 (標準誤差はデータ数に依存するので、必ずデータ数を記載する。) 平均±2SEは 母平均が96%存在することが期待される範囲を示す。 不偏標準誤差 =[標準偏差SD]を[√自由度]で割った値 |
|
◎ | ┏parametric test:パラメトリック検定 ┃ ・平均値を比較する検定法 ┗non-parametric test:ノンパラメトリック検定=分布に依存しない検定法 Disribution free test ・生のデータをいったん「順位」に置き換えて、平均順位(=中央値)を比較する検定法 ---ペーパーには、mean ± SEと書くべきではないが、・・・ |
条件 parametric test non-parametric test 分布 ・正規分布 ・分布に依存しない
(正規分布の場合は判定が厳しすぎることがある。)分散 ・等分散 ・等分散でなくても良い 変数 ・間隔尺度である連続変数
・比率尺度である連続変数・離散値のある順序変数
・対数
・絶対0の定まらない体温、pHなど
parametric test non-parametric test 1■対応のない2群の検定 Student's t-test Mann-Whitney's U test
(=Wilcoxon rank sum test)2■対応のある2群の検定 Paired t-test Wilcoxon signed-rank test 3■対応のない1要因で分類される多群の検定 One- factor factorial ANOVA Kruskal-Wallis test 4■対応のある1要因で分類される多群の検定 One- factor repeated measures ANOVA Friedman test 5■対応のない2要因で分類される多群の検定 Two- factor factorial ANOVA 6■対応のある2要因で分類される多群の検定 Two- factor repeated measures ANOVA 7■対照群と各群を比較する多重比較検定 Dunnet法 8■すべての2群同士を比較する多重比較検定 Tukey-Kramer法
Bonferoni/Dunn法Steel-Dwass法
Games-Howel9■すべての対比を比較する多重比較検定 Scheffe法 ? Scheffe法 ?
箱ひげ図 box plot、box-and-whisker plot
| ||
蜂群図 bee swarm plot | ||
バイオリンプロット violin plot
|
|