第2章:記述統計と推測統計、データの型

ナレーション原稿

ここから理論編というか、実際、どうやって成り立っているかというか、解析をしていくかとか、解析原理とかどういう方法があるかという話をしていきます。
 まず統計解析というのは大きく分けて2つに分けられます。記述統計というものと推測統計というものです。これは両方とも重要なんですが、記述統計というのは集団の特性を示すものです。代表値、平均値とか中央値、そういうものを示したりとか、ばらつきの指標を出したりとか、関連性の指標を出したりとか、本当に記述をする。例えばこの教室に今いる人たちを1つの集団として扱うとすると、例えばここの教室には男性が何人いるとか、平均年齢が何歳とか、この部屋にいる人の平均年齢が何歳とか、そういったことを記述するというのが記述統計というものです。
 それに対して推測統計というのは、実際に取ってきたデータから、観察した集団の人たちが所属しているもっと大きな集団、母集団といいますが、母集団の特性を推定だったりとか、検定を行って、母集団の特性を推測する。例えばこの教室にいる人たちは、母集団は例えば放送大学の大学院の学生さん。今、戸ヶ里ゼミの学生さんを抽出してきて調査をした。そのデータから放送大学の大学院生の例えば今ここにいる人たちの男女比、放送大学の大学院の学生の男女比もこれぐらいだろうというふうに推し量ったり、平均年齢はこれぐらいだろうというふうに推し量ったりするというのが推測統計というものになってきます。
 あと、ここらへんの統計解析で出てくる変数とか呼び方も1回覚えておいてもらったほうがいいなと思います。基本的には量的研究をやるときは、記述が目的の、今まで誰も調査をしてこなかったような集団に対しては、記述をすることだけでも意味があると思うんですが、ここにいる皆さん大半の修士論文で量的研究をやる方というのは、変数と変数の関係、何か問題があったりとか、病気だったりとか、いろいろなそういうものがあって、その原因というのを探そうと、つまり何か2種類以上の事象だったりとか、現象だったりとか、病気だったりとか、そういうものの関係を見ていく研究をする人が多いと思います。つまり何か結果があって、それに対する原因がある。
 それを統計解析をするときにはその現象なり、概念だったりとか、そういうのを調査できる形に起こしていって、それを変数として扱って、関係性を見ていくということをします。その変数のうち、結果、何かの病気だったりとか、あとは看護師さんとかの離職率だったりとか、離職をする、しないとか、メンタルヘルス、健康状態だったり、そういう結果側が従属変数と呼ばれたり、目的変数と呼ばれたり、被説明変数と呼ばれたりします。逆に原因側を独立変数とか説明変数、そういうふうに呼んだりします。例えば結果が死亡だったら、高血圧が原因で死ぬとか、そういったものだったりとか、ストレスがたまっていて仕事を辞めるとか、精神健康の不調を来すとか、そういう原因側のもののことを独立変数とか説明変数と呼んだりします。
 これを原因と結果の関係を表すときにバス図というものが使われることもあります。矢印が刺さる側というのは結果で、矢印が出ていくほうが原因。双方向に原因と結果、つまりXがYの原因になったし、YはXの原因にもなっているということもありますし、どっちが原因か結果かよく分からないけれども、とりあえず相関はある。関連はあるというようなことを表現したりすることもあります。ひとまず変数の呼び方、原因と結果をだいたいどういう分析をするときも潜在的に想定するということがあると思いますので、こちらを覚えておいてもらえればと思います。
 量的研究の論文だと集計の分析でだいたい示すものというのがあります。記述統計であれば、対象者の特徴だったりとか、肺がんと喫煙の関係とか、喫煙とかそういう疫学でいうと、疫学でというところの原因と曝露だったりとか交絡因子、そういうものの分布を記述したりとか、アウトカム、従属変数の分布を記述したりということは通常求められる。これは後で午後のグループワークで使う論文を見てもらえば分かるんですが、こういうまずは対象者の特徴を記述する記述統計はだいたい普通ので示します。さらに推測統計の技術を使ってアウトカムと何かしら注目している要因の関係を示していくということをします。
 こういう集計とか推測統計をやっていくときに気を付けるというか、考慮しなければいけないものが尺度というものです。変数の型、これが最初のほうに出た変数の型です。大きく分けて2つの種類があります。質的データと量的データ、質的変数とか量的変数と呼ぶこともあります。質的データというのには大きく分けて2つの種類があって、名義尺度というのと順序尺度というものがあります。量的データ、量的変数には間隔尺度というもので測定されるものとか、比率尺度というふうになっているものがありまして、このデータの種類、変数の型によって集計とか分析の仕方が違うということ、これは覚えておいてください。データの型によって適切な集計の仕方とか分析の仕方がありますよということです。
 まず名義尺度、質的変数のうち、名義尺度と呼ばれるものはどういうものかというと、性別とか、あとは出身の県とか仕事の内容、これはデータに入力するときに数字をいちいちデータファイルに男とか女と入れたら時間がかかるのと、あとは解析をするときにこういうマルチバイト、漢字のデータは非常に扱いづらいので数値に落とします。ただ、数値は区別するためだけについている。つまり数値の値そのものだったりとか、間隔には意味がありません。これは数値が入れ替え可能ということですね。男性が今1になって女性が2になっていますが、女性が1で男性が2でも全く問題はないですし、数値の値そのものに全然意味がない。こっちも愛知、三重、岐阜、その他となっていますが、この数字は入れ替え可能ですよ、値そのものに意味があるわけではないということです。そういったデータが名義尺度というものです。単に分類区別するためだけに数値が振られるようなデータです。
 次に順序尺度です。これはさっきの区別に加えてどっちが上でどっちが下かという情報を含んでいるのが順序尺度です。治療効果だったりとか、あとは職位とか、階級。通常はあくまでも順位なので、大小関係が同じであれば、値は任意に決めることができます。例えば職位は何ですかというもので、取締役以上に1、部長級2という感じでやっていますが、例えば取締役以上というのを1にして、部長級を3にして、課長級を5にして、係長以下を7にしても、大小関係は保たれるので大丈夫だ。実際には面倒くさいのでそんなことはしませんが、大小関係が同じであれば、値を任意に決めてもOKなようなものというのが順序尺度です。なので加減乗除、数字の間隔には意味がないというもので、足し算をしたりとか、引き算をしたりとか、掛け算をしたりとか、割り算をしても、通常は意味がないといわれます。
 さらに情報量が増えて間隔尺度というものです。間隔というのは等しいけれども、ゼロが任意に決まっているもの。足し算、引き算には意味があるけれども、比率には意味がないよというものです。つまり絶対的なゼロがないということです。例えば摂氏の温度というのは、ゼロ度いうのは実際には温度が全くのゼロというわけではなくて、任意に水が固体になるというか、氷になる温度はゼロ度で決めているだけなので、実際には温度のゼロというのは絶対零度です。そこになると温度がゼロというふうになるので、摂氏温度というのは間隔尺度というものになります。後で多項目スケール、さっきちょこっと出てきコスギさんの調査票の最初のストレッサー、程度というのも何かの合計点です。そういうものは間隔尺度として扱うことが多いです。
 さらにこれでは何でもできるというものが比尺度と呼んでいるので、間隔尺度のように間隔も等しい。1の意味が同じ。どことどこを取っても、1の意味が同じ。かつ、ちゃんとゼロに意味があるものです。ありなしがはっきりしている。例えば身長だったら何センチということでゼロセンチという人はいないですが、ゼロセンチだったら長さがゼロということです。体重だったら何キロです。50kgとか60kg、ゼロキロだったら重さがないとか、血圧がゼロだったら血圧がない。そういうあるなしがきっちり分かっているものというのが比尺度というものです。

統計コンテンツクイズ

設問 2-1

統計学的な分析の対象とはならないのはどれか。最も適切なものひとつを選べ。





答え: b
定性データは会話や文章などのテキストのデータでそのまま集計できないデータである。それ以外は定量データで統計分析の対象となりうる。

設問 2-2

大小の比較ができない変数はどれか。





答え: a
名義変数は値の違いによって、異同の区別ができるだけでそれ以外の比較ができない。

設問 2-3

変数の値同士を足したり引いたりしたものに意味がある変数はどれか。すべて選びなさい。





答え: c,d
間隔変数、比率変数は値が等間隔であることが保証されているため、足し引きすることができる。

設問 2-4

回答を量的変数として扱いたいときに適切でない回答方法はどれか。





答え: a
順位法は選択肢を一定の順番に並び替えてもらう方法で回答を量的変数として扱う場合には適当ではない。それ以外の回答方法は回答を量的変数として扱いたい場合には適当な方法である。