[基本解説]
 研究と検定
 統計検定
 データの種類
 データの要約
 パラメトリック検定とノンパラメトリック検定


研究と検定
実験前 データを取る
 
実験はギャンブルのようなもので、
 どんな結果が出るかはわからないが、
  • 実験計画を立てる。
  • 2群に差がない!」という帰無仮説を立てる。
     群間のサンプルの選択は公平にしなければならないが、
     勝率が高くなるような実験計画をデザインも必要である。
 
生物実験では、物理科学実験とは異なり、
 得られるデータは必然的にばらつきを伴う。
  • 測定者による誤差
     ---実験技術の向上に伴い、
      データの信頼度は上がる!
  • 測定装置、あるいは測定方法による誤差
  • 測定されるものの性質による個体差
 
統計解析を行う目的は、標本のデータを解析することによって、母集団の情報を推定することである!
データ解析
 
1)データの代表値の推定 平均値 中央値 最頻値
2)データの分布の推定 データのばらつき---分散 標準偏差 標準誤差
3)データの検定
 得られたデータは偶然か、必然か?
確率 Probability
 p値:帰無仮説が成立する確率
4)帰無仮説が正しいかを検定する p>5%---「差がない確率p」は5%以上=有意差なし! 
p<5%---「差がない確率p」は5%以下=有意差あり!
データの評価
 
1)考察       統計はあくまで確率である。統計は統計として、検定結果は、しっかり自分なりに考察する!
つまり、実験で、データ解析のための統計とは
  1. 実験のデザインを考える!
  2. 2群に差がない!」という帰無仮説を立てて、データを集める。
  3. 実験結果を、グラフにして、どのような解析が適切であるかを検討する。
  4. 「2群に差がない確率p」を計算する。
     ---p<有意水準 →「有意差あり!
  5. →→→検定結果に考察を加える!!!
統計検定
統計検定↓↓↓「有意差があるか、ないかを」を検証する!
対立仮説
alternative
 hypothesis
検定をする人が、望んでいる仮説。---「2群に差がある。」
↓しかし統計的手法は、は、ひねくれている!
帰無仮説
null
 hypothesis
(比較する母集団の間には差はなく、観察された差は偶然にすぎないという仮説)
通常 検定を行うときに立てる仮説
 ---「2群に差がある」と予想されるのに、わざわざ可能性の少ない「2群に差がない」と無に帰する仮説!
検定=統計学的帰無仮説検定
 帰無仮説を立て、得られたデータから、帰無仮説が成り立つかどうかを検証すること。
p値
 Probability
測定したデータが、偶然帰無仮説通りになる確率=対立仮説通りにならない危険率!
 2群に、たまたま差が出ないことは、ありえないわけではない。そのまれなことが起きる確率。
有意水準
 significance level
 α
帰無仮説を棄却するために、あらかじめ決めた確率水準。
 5%、あるいは1%と決めることが多い。
統計学的
 有意差あり

statistical
 significance
p値 <有意水準
 ---「差がない確率」は有意水準以下である!--帰無仮説は棄却→→→
 1. 帰無仮説が棄却されたので、「有意差あり!」
 2. 「有意差がない」にもかかわらず、たまたま珍しい事象が観察され、検定では「有意差あり!」となった。
あくまで統計は確立であり、「有意差あり」は「データの重要性」を保証するものではない。
統計学的
 有意差なし
p値 >有意水準 ---「差がない確率」が高い。--帰無仮説は承認→→→
 1. 帰無仮説が承認されたので、「有意差が認められない!」=「等しい」というわけではない!
  →まずは、データを増やして再検討!
  →考察例)「統計学的に有意差は認められなかったが、一定の傾向が示唆された。」
  →考察例)「有意差を検出するために十分なサンプル数で検定したので、意味のある差はないと判断した。」
 2. 「有意差がある」にもかかわらず、たまたま珍しい事象が観察され、検定では「有意差なし!」となった。
検定における
 2つの誤り
第1種の過誤 type-I error level: ←→他群比較
 「帰無仮説が正しい場合に,誤って仮説を棄却する誤り」の判断の基準となる確率。
 ---「有意差がない」のに、「有意差がある」とする誤り

第2種の過誤 type II error (β):
 「帰無仮説が誤っているのに,仮説を採択してしまう誤り」
 ---「有意差がある」のに、「有意差がない」とする誤り
サンプル数サンプル数が大きい場合は、小さい差であっても「統計学的有意」となる場合がある。
「実験における重要性」を検出できるような研究デザインを組むことも重要である。
外れ値
 Outlier
データの主要な固まりから大きく外れたデータ。
ミスである可能性もあるので、解析の前に外れ値のチェックを行うことは極めて重要である。
(明らかな原因がなく極端なデータが生じた場合は、スルミノフ棄却検定やトンプソン棄却検定により判定する必要があるらしい。)
両側検定と
 片側検定
帰無仮説に方向性がある場合のみ、片側検定を使う。
 ex)仮説「新薬は旧薬より効くはずである。」
 両側検定におけるP値0.05は、片側0.025になるが、片側検定では片側のみで0.05なので、当然片側検定の方が有意差が出やすくなる。
自由度 
degree of freedom
サンプルの大きさによって、ズレの確率は違ってくる。したがって、統計的検定ではサンプルの大きさを表す「自由度」という基準を算出し、それに対応したズレの確率を推定する。
 t検定 ----サンプル総数マイナス1
 対応のある平均値の差の検定 ----対の数マイナス1

偏差値 standard score(T score) ←→t-test/z値
  • T値、T-scoreと同義である。
  • 偏差値=z値 x 10 +50
  • 平均が50、標準偏差(SD)が10の正規分布に近似するように変換した値
  • これによって、平均点が高くても低くても自分の点数が他の人と比べてどの位置にいるかを知ることができ、国語や数学といった内容の異なる変数でも同じ偏差値という数量化により比較することができる。
  • パーセンタイル順位を標準化した値を10倍して50を足すことで求められる。
  • 分布の形状が異なる2つのデータがあるとき、T値が同じであれば順位も同じである。

    正規分布のベルカーブ
    % 13%2.14%13.59%34.13%34.13%13.59%2.14%13%
    標準偏差-4σ-3σ-2σ-1σ0+1σ+2σ+3σ+4σ
    偏差値102030405060708090
    z値-4-3-2-101234
z値 z-value、Zスコア z-score ←→偏差値
  • 分布の平均値からのずれを示す値。注目している標本値と分布の平均値の差を分布の標準偏差で割った値で定義される。Z-scoreの絶対値が大きければ大きい程、分布の平均値からのずれが大きいことを示している。
  • 平均が0、標準偏差(SD)が1になるように変換した値
    このような変換を標準化や基準化とも言われ、変換した数値のことをZスコアと呼ばれる。
  • 標準化によりZスコアを算出することで、さまざまな数値を比較検討することが可能になる。→発現量解析

  • 母集団の平均と標準偏差が既知の場合、変数 x のZ得点 z は以下のように計算される。
    μ = 母集団の平均値、 σ = 母集団の標準偏差
    z = ( x − μ ) /σ
     データ群の当該数値から平均値を引いて、標準偏差で割ることで求める。
  • 平均との差が、標準偏差の何倍あるか
    P値0.010.050.1
    Z値±2.58±1.96±1.65


Variable 変数:統計データ
Nominal variable
 名義変数
順序のない変数 名義尺度
カテゴリーデータ
Ordered variable
 順序変数
順序のある変数 順序尺度
整数データ
Continuous variable
 連続変数
順序のある変数 間隔尺度
数値で表される定量的データ!
Independent variable
 独立変数
群を分ける因子factor
Dependent variable
 従属変数
測定された値

 scale 尺度 比較




Nominal scale
 名義尺度
対象を分類するためにつけた符号。
同一性を示す。
最頻値 物の品番
Ordered scale
 順序尺度
対象を比較するためにつけた順位。
同一性・順序性を示す。
中央値 10段階VAS
Score(-, ±, +, ++ , +++)
Stage (I, II, III, IV)




Interval scale
 間隔尺度
間隔の大小関係のある測定値。
絶対0の定まらない
同一性・順序性・加法性を示す。
平均
標準偏差
温度(←10℃は5℃の2倍暑いわけではない。)
Ratio scale
 比率尺度
倍数関係(比)を問題にする測定値
原点0がある。
同一性・順序性・加法性・等比性を示す。
平均と
標準偏差
体重
100mmVAS
閾値 潜時

データの要約
 データ形状は 「代表値」と「ばらつき」によって決まる。
parametric test:パラメトリック検定
┃ 平均値を比較する検定法
non-parametric test:ノンパラメトリック検定=分布に依存しない検定法 Disribution free test
  生のデータをいったん「順位」に置き換えて、平均順位(=中央値)を比較する検定法
   ---ペーパーには、mean ± SEと書くべきではないが、・・・
条件parametric test non-parametric test
分布 正規分布 分布に依存しない
 (正規分布の場合は判定が厳しすぎることがある。)
分散 等分散 等分散でなくても良い
変数 間隔尺度である連続変数
比率尺度である連続変数
離散値のある順序変数
対数
絶対0の定まらない体温、pHなど

 parametric test non-parametric test
1対応のない2群の検定Student's t-testMann-Whitney's U test
(=Wilcoxon rank sum test)
2対応のある2群の検定Paired t-testWilcoxon signed-rank test
3対応のない1要因で分類される多群の検定 One- factor factorial ANOVAKruskal-Wallis test
4対応のある1要因で分類される多群の検定 One- factor repeated measures ANOVAFriedman test
5対応のない2要因で分類される多群の検定Two- factor factorial ANOVA 
6対応のある2要因で分類される多群の検定Two- factor repeated measures ANOVA 
7対照群と各群を比較する多重比較検定Dunnet法 
8すべての2群同士を比較する多重比較検定Tukey-Kramer法
Bonferoni/Dunn法
Steel-Dwass法
Games-Howel
9すべての対比を比較する多重比較検定Scheffe法 ?Scheffe法 ?








◎オッズ odds ◎オッズ比 odds ratio:OR 参考1/2