第5章:推定と検定

ナレーション原稿

 ここまでで分からないよとか、ちょっとここがよく分からないというのはありますか。大丈夫ですか。もしかしたら具体的な例が出てこないとよく分からないという方もいるかもしれないですが、午後、論文とかそういうものを見てもらいながら、やってもらえばそこそこイメージがついてくるのではないかなと思います。じゃあ、進めています。
 ここからがたぶん学生のときにというか大学生で授業を聞いても、よく分からなくて、統計が嫌いになってしまったというところの原因かと思うんですが、ここが一番多用されるところです。
 まず復習というか、きょうやったものなので復習といっても、もう覚えていると思うんですが、統計解析は記述統計と推測統計というのがある。今まで見てきたのは記述です。つまり取ってきたデータの中で男女の人数が何人いるかとか、その労働時間が男女で何時間ぐらいか、平均はどれぐらいかとか、あとは関連性、相関係数が幾つかというのを出していたんですが、さらに推測統計では、取ってきたデータ、取ってきた対象者の人たちが所属している母集団、母集団の様子というのを推測してあげようということでやってきた。推測統計で出てきたのが点推定というものと、区間推定というものです。さらに検定統計量を使って仮説検定というものをやっていって、母集団でも観察集団で得られたデータの結果というのが成り立つのだろうかということを検討していくという考え方です。
 まず、推測統計というのが必要になるシチュエーションですが、全数調査、これはたぶん社会調査の授業でやったことがあると思うんですが、調査には全数調査というのと、標本調査というものがあります。全数調査は悉皆調査というふうに呼ばれたりすることもあります。全数調査というのはその名のとおり、母集団全員に調査をしてデータを得る調査です。日本のは公的統計でいうと国勢調査です。今年、国勢調査イヤーですが、国勢調査と人口動態統計です。死亡とか婚姻とか離婚と死産とか出生、そういうのを統計。これが全数調査にあたる。
 ただ、全数調査、母集団のサイズにもよるんですが、例えば日本国民全部を対象にする国勢調査であれば、ものすごいコストが掛かるわけです。平成12年の国勢調査、15年前の国勢調査であれば、690億円の税金を投じてというとあれですが、これは必要な統計なのでしょうがないんですが、それぐらい掛かっている。これだけのコストというのを掛ける価値があるものと、そうでないものがあります。全数調査のいいところは誤差がそもそも定義できない。つまり全部に調査をしているので、標本誤差というのは含まれない。精度が高いのでいいんですが、コストが問題。
 なので、精度がそこまで高くなくていいから、コストを抑えたいというときに使うのが標本調査です。標本調査というのは、これは皆さん、知っていると思うんですが、母集団から標本を抽出してきてデータを得る。そのデータから母集団の様子を推測してあげようという考え方です。全数調査に比較すれば当然、調査対象の数が減るのでコストが低い。ただ、この母集団からどうやって抽出をするかによって得られるデータが毎回、毎回違うので、集計結果に誤差、標本誤差というものが含まれます。
 例えばこの教室の全体を母集団とすると、この中からこっち側の3名の方を抽出して出てくる、例えば男女比だったら、今この3名だと女性100%であります。片やここの2番目の島、コスギさんがいる島から抽出すると、男女比が今度は男性が40%です。5分の2。なので、サンプルの取り方によって出てくる結果に違いが出てくる。それが標本誤差というものです。
 イメージにすると、母集団を例えば1万人いたとしたら、そこから50人を抽出してあげて、この抽出する人数は予算とかどれぐらいの精度でやりたいかというので違ってくるんですが、抽出してあげた標本のデータから母集団の様子を推定してあげますよというのが標本調査です。この母集団の特性値、平均とか分散とか相関係数といろいろあると思うんですが、それをパラメータ、母数というふうにいいます。推定というのは、この標本のデータから母数を推し量ることです。推定には大きく分けて点推定というのと、区間推定、2個あるんですが、点推定というのは母集団特性値に最も近いというのを推定してあげます。例えば年齢とかであれば、平均年齢はこの集団では何歳だというその値そのものを推定してあげるというのが点推定。区間推定というのは誤差です。今、教室にいる人たちの平均年齢は例えば仮に35歳ぐらいだとしてみよう。ただ、母集団ではこれぐらい誤差があるかというのを推定してあげようというのが区間推定というものです。後でちょっと出てきます。
 いろいろな点推定値と抽出してきた標本から推定する値というのはいろいろあるんですが、さっきまでの記述統計では単純に取ってきたデータというのは、平均とかを取っていた、平均を取ったりとか、分散を出したりしていたんですが、標本から計算する統計量で母集団を推測してあげるというのが推測統計なので、例えば平均値、母集団での平均というのと、点推定値はどういう値が使えるとかというと標本平均です。つまりは取ってきたデータの平均を取ってあげれば母集団の平均が一番いい推定値になるよということです。比率についても同じで、例えば男女比とか有病率とか、そういうものは標本比率です。取ってきたデータから計算をした割合とか、そういうのが母集団の様子を最もよく推定している値ですよというものになります。
 それに比較して、ばらつきの指標は計算の仕方がちょっと違います。分散もそうですし、標準偏差もそうなんですが、標本分散ではなくて、不偏分散というのが母集団での分散なり、標準偏差と一番いい推定値というふうになります。分散を計算するときは、標本分散である分母にn、標本数を使っていたと思うんですが、不偏分散ではそこから1を引いたものを使います。これが不偏分散というものです。不偏分散の平方根、ルートを取ったものが不偏標準偏差というもので、これが母集団での標準偏差の点推定値になります。
 さっき出てきた偏差値を計算するときのデータなんですが、これだと標本平均というのが70点で不偏分散が106.2。不偏標準偏差は10.3ということで、さっき標本標準偏差は実は9.8だったんですね。これはこの人数でそのまま割っているので9.8。標本標準偏差だったんですが、これを何らかの母集団の推定値というふうにして使うときは、不偏標準偏差といいますが、さっきよりちょっと大きい値、10.3になる。その違いがちょっとあるということです。母集団の様子の推定値として扱うときは、不偏標準偏差というもので、不偏分散というものを使います。
 推定には当然誤差が入ってくる。1万人から50人を抽出してきて、それぞれの平均、平均年齢を計算するんだったら、1万人から50人を取る取り方はものすごい膨大な取り方がある。コンビネーションの1万の50はものすごいことになります。例えば10人から3人を取ってくるだけでも、すごくいっぱい選び方があります。その取ってくる取り方によって違ってくるので、誤差を定量化してあげよう。その誤差を定量化するときの指標として出てくるのが標準誤差というものになります。
 標準誤差というのは点推定値の分布のばらつきにあたります。つまり何度も母集団からサンプリングをして、この教室から例えば5人を取ってきて、5人を取ってきた平均値、平均年齢というのを毎回、計算します。それを平均年齢というのがどういう母数か。後で具体的にやってみてもいいかもしれないですね。何度も母集団からサンプリングをしたときの点推定値の標準偏差。何回も母集団から取ってくると、平均年齢はばらつきますので、毎回、1回目に取ったときは平均年齢は50歳。次が45歳という感じで毎回毎回母集団からサンプリングをして、平均年齢を計算したときのその値というのが何らかの分布になります。その分布の標準偏差というのが標準誤差になります。
 標準誤差というのは標準偏差、母集団の標準偏差が分かっていれば、こういう式なんです。標本数の平方根を取ってあげたもので標準偏差を割ってあげると、標準化されてきますし、母集団での標準偏差は分かっていないというときは、こういう式です。基本的にはどっちにしても母集団の標準偏差を使うか、不偏標準偏差を使うかのどっちかなんですが、それを使って標準誤差というのを計算することができます。この式を見て分かるとおり、抽出する標本数というのは多くなればなるほど標準誤差が小さくなる。つまり母集団の様相をうまく推定できるということです。例えば1,000人からなる母集団であれば、1,000人そのものを取れば、全数調査になって誤差がゼロ。500人を取れば半分になってくるので、少し誤差が入ってくる。100人だともっと数値のそれが悪くなるということで、サンプル数が多くなればなるほど標準誤差が小さくなるということを覚えておいてください。
 この誤差というのをさらに区間として表現してあげようというのが区間推定というものです。これもたぶんよく分からないと、95%、信頼区間があって、統計の授業でやったことがあると思うんですが、何なのよというと、これはものすごい、よく分からないものんですね。区間推定というのは何をするか。母数、母集団の何らかの値です。平均年齢だったりとか男女比であったりとか、何かの病気の有病率だったりとか、そういうものが真の値というのが入る、母数が入る区間というのを推定してあげます。
 信頼度というものと信頼区間というものがあります。信頼度というのは、95%信頼区間のところの95%というものです。これは自分で決めてあげるものです。区間推定をするときに自分で決めてあげるものです。信頼区間というのは、区間推定で求められる区間で信頼度と合わせて○○%信頼区間というのを使います。よく使われるもの、95%信頼区間というものです。意味なんですが、同じ母集団から同じ数の標本を抽出して区間推定をするということを繰り返したときに信頼度の確率、例えば95%であれば、95%の確率で母数が含まれている区間。何のことかよく分からないなということになると思いますが、さっきのテストのデータ、こういうテストのデータからすると、全受験者から10人分のデータを抽出してきて、95%信頼区間というのを100回計算をしてあげると、5回は95%信頼区間に全受験者の平均点が含まれない。逆をいうと、95回は95%信頼区間の中に平均点が含まれるような区間ですよということです。プラクティカルなというか、実践的には信頼区間が狭いほど、推定の精度は高いですよという、信頼区間というのは推定の精度の指標です。
 それをシミュレーションしてみると、1万人の母集団からさっきのテストの例、平均点が70点のテストを受けた1万人の母集団、既にテストの結果はつまり分かっているということです。テストの結果が分かっていて、1万人から10人の標本を抽出して95%信頼区間を100回計算しました。そうするとこんな感じです。信頼区間というのは線で表されているものです。これを見てあげると、赤で示されているものというのは、真の平均値、70点というのを含んでいないものが5つだけあります。赤いもの。1、2、3、4、5です。こんなふうになるような区間というのが95%信頼区間です。これは実際にはちょっとずるをしていて、1万人の母集団から10人の標本を抽出して95%の信頼区間を出すことを100回繰り返しても、5個だけが外れるというわけではありません。これも確率なので、5個外れるときもあれば、6個外れるときもあるし、7個外れるときもあるんですが、イメージとしては、100回繰り返したら、95回はちゃんと母集団の平均値だったりとか、母数というのが入る区間というのが95%信頼区間ですよと。90%信頼区間であれば、同じことをすると、10回は外れるぐらいの区間。99%信頼区間であれば、100回信頼区間を出せば、1回は外れてしまうというような区間のことになります。この区間が狭ければ狭いほど推定の精度が高いですよということです。
 95%信頼区間なんですが、このような式です。平均、Mというのは平均の点推定値なんですが、母分散、母集団での分散が分かっているときはこういう式でやる。信頼区間はこれも統計ソフトにお任せしておけば、勝手に出してくれます。母分散が分かっていないときは、ちょっとこういう違う値を使って区間推定というのができます。このグラフはt分布というもの。t分布というものの確率、パーセントを使って計算をするんですが、これも特に皆さんは意識しないでも、自分でやるときは統計ソフトが勝手に出してくれます。平均値の区間推定をやってあげると、こんな感じでまず平均が70ということです。不偏標準偏差が10.3なので、標準誤差というのは10人ですね。10人の学生さんの標準偏差をルートの10です。10人で割ってあげると、だいたい3.3。さらにt分布の2.5%でやると、こういう2.26という値なので、信頼区間はこういう感じで出てきますよということができます。これは皆さん、手計算ですることはまずないと思います。
 これも先ほどから繰り返しているとおり、信頼区間の幅というのは、標本数が大きくなると、どんどん狭くなっていきますよということで、標本数が大きくなると、95%信頼区間なり、何パーセント信頼区間もそうなんですが、信頼区間の幅は狭くなるということです。
 一応ちょっと時間が過ぎてしまったので……

 さっきまでは区間推計の話をしていましたが、ここからは、今度は仮説検定という話をしていきます。さっきの区間推計を応用してというか、区間推定の考え方を使ってはいるんですが、ちょこっと違ったものです。
 仮説検定は何をするものかというと、母集団の特性についての予想、仮説が正しいか、間違っているかというのを標本調査のデータから判断をする、意思決定をするための方法です。母集団全体のデータが取れる全数調査では検定が必要ないということは注意が必要です。全数調査をするのだったら、検定とか推計は必要ないというのは、先ほどというか、午前中に少し触れたと思うんですが、あくまでも標本調査のデータから母集団の様子を推測、推定するから必要になってくる。全数調査であれば、検定をするまでもなく、それが事実というか、例えば日本国民の男性、女性の数は国勢調査をすれば、基本的にはそれで決まるので推測する必要がない。
 逆に検定とか、推計とかをする必要があるというのは、例えば全国から無作為抽出をして、そのデータから男性と女性の数を推測するというときに仮説検定、推計をするわけです。この部分の違いを押さえておいてください。
 その仮説が正しいかどうかというのをどうやって判断するか。例えば男性と女性のどちらが多いかというのを調べる。一番正確な方法は国勢調査をするということですね。全員の性別を調べる。ただ、これは690億掛かるわけですね。国がやるんだったらいいですが、われわれ一般的な一般人がこんなことをやろうと思ったら、例えば夏休みの自由研究で日本の男性と女性はどちらが多いか調べてみようというのに690億突っ込める人なんて、日本にはほとんどいない。なので、もう少しコストを抑えて自由研究で調べる。なので、標本調査のデータから判断をしていこう。
 そのときに、じゃあ、どのぐらい違えば、例えば男性が46%で、女性が54%なら、本当に男性が多いのかとか、49%と51%だとどうか。それに今、結論付けなければいけないというときに、結論というか、結論を出さなければいけない。どっちが多いというのを出さなければいけないというときに使う考え方が仮説検定というものです。白黒をつけてやろうというものです。ただ、誤差が入っているので、間違うことも当然ある。それがαエラー、βエラーというものがあるんです。
 標本調査であれば、十分な数の標本を母集団から無作為抽出すれば、一定の精度でこういう推測ができるというのが検定のポイントです。
 検定で出てくるのは、これはもう教科書というか、授業でやったことがあると思うんですが、帰無仮説と対立仮説という用語が出てきます。何かというと、帰無仮説というのは母数の値を明確に指定する仮説というものです。例えば、新しく開発した血圧を下げる薬の効果というのは、従来の薬の効果とどうだ。従来の薬の効果は分かっているので、新しい薬の効果はこれ。例えば10だけ下げると指定してあげる。あとは日本に住んでいる男性の比率と女性の比率は同じ。つまり、男性が50%を占めているという形で明確に母数の値が指定できる仮説が帰無仮説というものです。
 逆に対立仮説は帰無仮説の正反対の内容の仮説。例えば新しく開発した血圧を下げる薬の効果は従来の薬の効果と同じではない、もしくはよい。あとは日本に住んでいる男性の比率と女性の比率は同じではない。通常は証明したいことは対立仮説ですね。皆さんが研究をやるときに何かと何かに関連があるとか、新しくつくった薬のほうが効果がある。そういうことを証明したいことが多いのですが、対立仮説が正しいということを直接示すのはほぼ不可能に近い。なぜかというと、母数が1つに定まっていないので、新しく開発した血圧を下げる薬の効果についても、新しい薬のほうが10だけ下がる、20だけ下がる、いろいろな事象が無限にあります。男女比に関しても男性が40%で女性が60%、男性が70%で女性が30%とか、違うといっても無限に事象がある。
 なので、ここで考え方としては、じゃあ、母数が定まっている帰無仮説というのは正しいかどうかを検討して、正しくなければ対立仮説が正しいということにしておこうという考え方です。よく勘違いするというか、仮説検定で有意だったら、それが絶対的な真実だという人がいるんですが、それは間違いです。仮説検定をして、後で出てくるように有意だったとしても、それが間違っている可能性は、当然確率的な問題なのであります。この帰無仮説が正しいかどうかというのを調べるのは、対立仮説が正しいことを示すよりは比較的簡単です。
 これは高校の数学とか、中学でもやった証明問題で、背理法というのをやったとことを覚えていますか。そういうのがあるんです。つまり、何か、本当は正しくないはずというか、正しくないと思っていることを正しいと無理やり仮定してあげる。つまり、帰無仮説は正しいと仮定してあげます。それをそのまま議論を進めていきます。そうすると、帰無仮説が正しいと仮定して、標本のデータが偶然得られる確率を計算してあげる。
 どうやって計算するかというと、確率分布が分かっている指標を使って有意確率を計算してあげます。帰無仮説が正しいもとで標本のデータが偶然得られる確率はどれぐらいかというのを計算してあげて、その確率がある一定水準を下回ったら帰無仮説が間違っていることにしようという考え方です。
 例えば男性と女性の比率が同じではないという帰無仮説。というのは、男性50%、女性50%ということですね。それに対して、実際に取ってきたデータでは男性が30%で、女性が70%でした。じゃあ、本当に50%、50%というのが正しいとしたら、30%、70%というデータが偶然得られてしまう確率は幾つなのかというのを計算することができて、その確率が例えば、3%、1%であれば、かなり起こりにくいことだ。そんな起こりにくいことが起こるということは、もともとの前提が間違っていたのではないかという論理でこの仮説検定というものがあります。
 手順としては帰無仮説をまず設定してあげて、有意水準を決めます。検定統計量を計算して、検定統計量から有意確率を。帰無仮説を棄却するかどうかを判断するというのが全体的な流れです。
 帰無仮説を設定するというところですが、ここら辺はだいたいパターンが決まっていて、例えば変数の型とかによって違う。例えば平均値というのが労働時間の話で出てきたと思いますが、男女で労働時間が違うかどうか検討するのであれば帰無仮説、つまり平均値の違いがあるかどうかというのを検定するときは、平均値の差がないよというのが帰無仮説になってくるので、何を検定するかでここは勝手にだいたい決まってきます。有意水準は慣例としてだいたい5%を使うと決まっています。ほかの水準を使っても別にいいんですが、慣例として5%。5%よりまれなことが起こってしまったら、帰無仮説が間違っていることにしようという慣例があります。
 検定統計量を計算してあげます。これは検討する仮説、帰無仮説によって統計量は変わってくるんですが、平均の差を検定するときはt値で検定統計量を計算しますし、クロス表の検定であればカイ二乗値を計算してあげます。こういうt値とかカイ二乗値はあらかじめどういう確率でどういう値を取るかというのが分かっている分布です。なので、その得られたデータから検定統計量を計算すると、自動的にこういうデータが得られる確率が分かる。そうすると、その確率が出てくるので、5%よりまれな事象、つまり3%とか、2.5%とかであれば帰無仮説を棄却する。つまり対立仮説が正しいと考える。
 逆であれば、つまり有意確率が有意水準を上回っていれば、帰無仮説を採択。つまり帰無仮説が間違っているとはいえないということで結論を下すということになります。
 何度もいっているとおり、検定というのはあくまでも確率です。なので、間違っている可能性も当然あります。誤差が含まれているので間違う可能性があります。
 1つの誤りは第1種のαエラーというものです。これは帰無仮説が本当は正しかった。つまり、本当は差がないはずなのに、偶然取ってきたデータが極端なデータが得られてしまって、帰無仮説が棄却されてしまったという現象です。これは一定確率、つまり有意水準、決めた有意水準と同じ確率だけ、つまり5%を有意水準とすると、全く関係がなかったとしても、つまり5%の確率で間違って差があるといってしまう。つまり、同じ母集団から100回抽出してきたら、5回は間違った結論を下すような取り方をしていた。そういうミスです。
 逆に第2種の過誤。これは対立仮説、本当は差があったのに、帰無仮説が棄却できなかったという事例です。こういうこともありうる。これも、本当は母集団では差があるのに差がないとしてしまったということですね。こちらは通常の探索的な研究では、βは特に気にしないことが多いです。第2種の過誤を厳しくコントロールする必要があるのは介入研究です。治験とか、そういう実験研究。薬の効果があるかないかとか、新しい治療方法のほうが生存率が高いとか低いとか、そういうのを検討するときはβエラーをうまくコントロールしないといけない。
 なぜかというと、差があるかどうか、検定というのはサンプル数、数が増えてくれば増えてくるほど違いがあるというのを検出しやすい。つまり、例えば日本の男女の人数が、実際には女性のほうが確か多かったと思いますが、1万人いるとして、4,999と5,001。違いは確かにあります。それは1万人を全員調査すれば、その違いは検出を100%できる。ただ、そのしょぼい差をもって、違いがあるというか、効果があるといってしまっていいのか。薬の効果というのはそうですね。例えば、今までの治療では5下がっていた。新しい治療では5.1下がった。0.1の差を検出するためだけに数十万人のデータを取れば、それぐらいはたぶん差は出るんですね。ただ、臨床的に意味があるかないか、そういったところをうまくコントロールしてあげる、つまりβエラーをコントロールしてあげないと、実際にはほとんど差がないものを無理やり0.1の差が違いますよといってしまうことになってしまうので、実験研究だったりとか、薬とかそういうのではβエラーもきちんとコントロールするということが求められる。たぶん皆さんはそういうのはされないというか、修士の段階ではそれぐらい手の込んだことをするのはなかなか難しいと思うので、今後やることがあるかもしれませんが、教科書はそこまでがっちりしない内容だと思います。
 あとは両側検定と片側検定と書いています。これは何かというと、差がないという帰無仮説の対立仮説には2通りがある。
 例えば日本に住んでいる男女の比率は同じではないということでは、男性のほうが少ない場合と、男性のほうが多い場合と2通りあります。両方ともありうる。つまり男性が多い場合も、女性が多い場合もどっちもありうると考えてやるのが両側検定。いや、もう男性のほうが少ないということしか起こらないはずだというときに片側検定というのをやります。こちらのほうは両側検定より有意になりやすいとなっています。ただ、一般的にはどちらもありうると考えてやる両側検定が使われます。
 片側検定に使えるシチュエーションは、よっぽど過去の研究とか、そういうことがあり得ないということが分かっていない限り、片側検定を正当化されない。つまり、使ったら何で片側検定をやっているんだといわれてしまう。なので、両側検定をやっておけば安心だということです。

統計コンテンツクイズ

設問 5-1

仮説検定について正しいのはどれか。すべて選べ。









答え: b,g
a.医学・看護学の研究では、原則として片側検定を用いる。
誤り:そのような原則はなく、通常は両側検定を用います
b.統計学的に有意であったとしても、それだけでは強い関連性があるとは断定できない。
正しい
c.統計学的に有意でないことが示された場合は、各群が同質であると証明されたと考える。
誤り: 検定で有意でない場合でも「群間に差はない」というような帰無仮説を積極的に支持することはできません。したがって、有意でなかったとしても、各群が同質であると証明することはできません。
d.群間に差があると仮定する仮説を帰無仮説、差がないと仮定する仮説を対立仮説という。
誤り: 帰無仮説と対立仮説の説明が逆です。
e.P値を計算して0.05(5%)を下回れば有意な関連があると言える。
誤り: 有意な関連があると判断するのは、設定した有意水準を下回ったときです。有意水準を0.05に設定してP値が0.05を下回れば「有意」という判断になりますが、有意水準はいつも0.05に設定するわけではありません。この文章では有意水準をいくつに設定しているかが不明であるため、P値が0.05を下回ったとしても有意な関連があるとは言えません
f.母集団では差があるのに、標本のデータを用いて検定をした結果、有意にならなかった場合を第1種の過誤という。
誤り: この説明は第2種の過誤についてのものです。第1種の過誤は母集団では差がないのに有意(差がある)と判断してしまった場合のことです
g.有意水準を5%に設定した場合、母集団では差がなくても検定が有意になる確率は5%である。
正しい
h.P値は帰無仮説が正しい確率である。
誤り: P値は帰無仮説が正しいと仮定した場合に、標本のデータから計算される検定統計量の値よりも極端な値が出る確率であり、帰無仮説が正しい確率であるとは解釈できません。