第1章:イントロダクション -データの作り方-

ナレーション原稿

 まず量的研究の流れです。ここは調査が最初に来ているんですが、実際には調査の前に文献検討とかをして研究計画を立てるというところがあるんですが、そこまで無事にできたとして、分析をするまでは結構時間がかかります。まず調査をしたら調査票が返ってきたりとか、インターネット調査の場合にはデータを入力したものが手に入るので楽は楽なんですが、調査票、きょう皆さんにお配りしているようなこういう調査票です。
 例えばこれはきょうコスギさんの調査票ですが、こういうアンケート、対象の方、この場合は精神科の病棟に勤務している看護職員の方に配るんですが、こういう調査票を配って対象者の人にこういう形で○をつけて答えてもらう。答えてもらったものを実際のデータを入力していく。例えば○がついたものが返ってきました。そうしたら、今、回答してもらったのがありましたが、コーディングという作業です。aに○がついていたら、どうやってファイルに入力しようかとか、ここに○がついていたら、どういうふうに入力をしようかとか、そういうものの設計をしていきます。
 これは調査票をつくるときには同時並行にもできます。実際にはデータが入ってきてから、例えばありうるのがaとbの間に○がついているとか、いろいろイレギュラーな回答をしてくる人もいたりします。そういうのをあらかじめ想定できるのであれば、できる限り想定をすればいいんですが、返ってきてからでないと分からない。例えば欄外にごちゃごちゃと、こんなのでは分からないと書いてあったりとか、4ではないの、5といって5を書いてきたりとか、そういう人もいます。それをどうやってデータに起こすかという計画を立てるところ、コーディングというものですが、これはエディティングというものです。4.5をどうやって扱うか。そういうのを先にやります。データ入力と同時にやると、例えば同じ4.5でも、4.5と入力したい気分のときと、いや、これは4だというふうにやりたいときとか、変わってしまったりする。先に基準を、ちゃんとルールを決めて、それに沿ってやるというのが大事なところです。
 そのルールができたらデータ入力をしていって、2回入力したりとか、間違いがないように入力をしていく。それだけ注意をしてやっていても、あり得ない値が入ってきたりしてしまうので、集計票を出しておかしな値はないかをチェックをしたり、それとデータクリーニング。
 あとは論理チェックといって、例えば男性にしか聞いていないはずの項目になぜか女性が答えているとか、当てはまらない、答えてはいけない。あと最初のほうで性別を聞いて、後半で性別に特異的な項目、あり得ないような性別だけではなくても、例えば仕事をしていますかと聞いたあと、仕事から得られる収入を聞く。なぜか仕事をしていないと書いてあるのに年収が書いてあるとか、そういうのが起こったらどうするのかとか、そういったあり得ない値とかおかしな値をまずチェックしていくというのがデータクリーニングです。
 ここまでできたら、だいたいデータが完成するんですが、実際には調査票から出てきたデータをさらに加工して自分で分析をするために変数をつくるということもします。例えば先ほどのコスギさんの、午後、詳しくやると思うんですが、最初のここのものは、どれぐらいストレスを感じているかという項目です。1項目、1項目を扱うこともできるんですが、例えばこういうのを全部で47項目、47項目の合計点を使って、どのぐらいストレスがあるかという度合いにしたりとか、そういう加工、入力したもの、値そのものを使うだけではなくて、入力をした値から、さらにそれを合成するとか、変形したりして使うということもします。データを加工して分析をする。加工と分析は行ったり来たりすることがあります。
 さらに分析をしているときにデータクリーニング、気付かなかったエラーとかに気付いたりすることもあるので、そういったデータとここらへんの入力とかそういうところは多少行ったり来たりすることがありますが、だいたいこういう流れで進んでいって、分析をしていって自分の思ったとおりというか、目的に合った分析結果が出てきたら、そこで出てきた分析結果をまとめて論文を読む人に分かりやすいように表をつくったり、図をつくったりして、さらにそれに文章をつけて論文化できるという流れになります。
 きょうは、実際にはどういうふうにやるかはやらないというか、実際には分析は統計パッケージとパソコンのソフトを使ってやるんですが、パソコンのソフトの原理というか、どういう考え方でどういう分析があるのかということをきょうは解説していきます。
 これはさっき説明したところです。エディティングとかコーディングのことです。コーディングでは回答を数値に置き換えるということで、実際に調査項目を数値に置き換える。置き換えたものが変数だと考えていただければと思います。
 これから調査をする人はだいたいExcelか何かを使ってデータを入力していくと思うんですが、一般的なデータファイルはこういう構造になっています。2次元の表です。縦方向に変数、調査の内容が入ってきます。横方向にはそれぞれの対象者だったり、人だけではなくて会社を相手にして調査をする人もいるかもしれませんし、介護施設とかそういうのを相手に調査をする人もいるかもしれないですが、横方向はそれぞれの対象者、1人、1企業、そういったものです。レコードと呼んでいます。それぞれの人の回答を2次元の表に入力していく。これを実際にはExcelを使って、そのまま集計することもできるんですが、通常はExcelからさらにほかのソフト、専門的な統計ソフトを使って集計をすることのほうがおそらく多いと思います。
 データファイルもつくり方によって、かなり分析の効率が変わってきます。例えば皆さんは日本人なので日本語を使いたくなると思うんですが、ところが入力するときもそうですし、分析をするときもそうですが、ひらがな、カタカナ、漢字が入っていると非常に面倒くさいことになります。なので、データファイルの中では、数字とか記号とかアルファベットのみを使う。つまり半角です。全角文字は使わない。あとは変数の名前もできるだけシンプルにしておくと、後で統計パッケージを使って解析をするときに楽になります。だいたい変数の内容はどういうものかというのを記録するときのというのが統計パッケージについていますので、詳しい内容はパッケージのラベルに記述すればOKということです。
 あとさらにデータは1セルに1つということで、これはよくあるんですが、こういう項目、複数選んでもらうという項目が幾つかあると思います。これは例えば大学生、看護学生さんに将来働きたい診療科を答えていただく。当てはまるもの全てにということで答えてもらうような項目だったりとか、あとは複数、指定された数だけを選んでもらう方法だったりとか、あと順位をつけてもらう方法。
 こういうのがあるんですが、こういうのを例えばさっきの診療科、どの診療科で働きたいかというのでこういう回答が得られたらとします。いろいろ入力の仕方、自前で考えたりすると思うんですが、悪い例がこういう1つのセルにカンマ区切りが出る、自分ルールをつくって入力をするというのはあまりよろしくありません。いい例としては、それぞれ選んでいるか、選んでいないかという変数をつくって、01で表現をするというほうがスマートにその後使えます。なので、扱いやすいデータファイルをつくっていけるように、M1の人はもしかしたら、何のことをいっているのかと分からないかもしれないですが、実際に自分で調査をするときに思い出してもらえればと思います。
 これもなんですが、データです。どんどん分析を進めていくと、どうやって加工したのかとか、どういうふうにやったかというのを忘れてしまうことがあります。特に皆さん、ほかに仕事を持って研究をしている方がほとんどだと思いますので、1日で全部が終わるということはあり得ないというか、1回、ちょっと分析をして、寝かせている仕事が入って忙しいので、時間ができたからまたやろうというふうになることが多いと思うんですが、そのときにデータをどうやって加工したかとか、そういった記録が残っていないと、次にやるときに、あのときどうやったかということになって、また時間のロスが出てきます。なので、どうやってコーディングに関しても、ちゃんと記録を残したりとか、データの値の変更の記録も残すし、どうやって加工したかとか、そういったものの記録を残しておく。あとは分析の記録も残す。だいたいどの統計ソフトでもスクリプト、コマンドを書いて実行するというものがついているので、そのコマンドをテキストファイルなり何なりできちっと残しておこうというのが大事です。
 これはおそらく2年生以上の人は、もうすぐ迫っていることですし、1年生の方はこれからと来年以降にやることかもしれないですが、こういった原則を覚えておいていただけると楽なのかな。