Last modified: Thu, 23 Apr 2009 10:25:41 +0900
データの扱い方
以前のR on Windowsでは、データの読み込み、データの扱い、データの扱い Part2として3つのセクションに分けて説明していました。Rコマンダーを使うことで、簡単なマウス操作ですべて行えるようになったので、まとめてしまいます。
データの読み込み
まずはデータの読み込みです。Rコマンダーをインストールすると、勝手にRODBCというパッケージもインストールされるので、クリップボードにコピーしたデータ、SPSS、Minitab、STATA、ExcelもしくはAccess、dBaseのデータセットも利用できるようになります。方法は簡単です。練習を兼ねて説明していきます。練習に用いたファイルはhttp://plaza.umin.ac.jp/~takeshou/R/dat/data.csvにおいてあります。ご自由にご利用ください(*01)。
追記: csvファイルは比較的どの場所に保存しておいても大丈夫ですが、ExcelやAccessなどのファイルは空白や2バイト文字を含まないフォルダ(*02)に保存しておかないと読み込みに失敗するようです。
- まず、Rコマンダーを立ち上げる
- メニューの「データ」→「データのインポート」を選択
- 「テキストファイルまたはクリップボードから」を選択(今回はCSVファイルなので「テキストファイルまたはクリップボードから」ですが、その他SPSSなどのデータセットから選択する場合は、適宜自分で読み替えてください。)
- 今回のファイルはカンマ区切りのデータですので、「フィールドの区切り記号」でカンマを指定(*03)
- 自分のファイルに合わせた指定を終えて「OK」
- その後、「ファイルを開く」ウインドウが開きますので、ファイルを指定
- これで読み込みが完了しました
読み込みが完了すると、Rコマンダーのデータセットの部分に「青色」で指定した名前(デフォルトでは「Dataset」)が書かれ、スクリプトウィンドウと出力ウィンドウにデータセットをインポートした際のコマンドとその結果が出力されます。これから先は、スクリプトウィンドウや出力ウィンドウの内容は書きませんが、最初ですので下に表示します。
- スクリプトウィンドウ
- Dataset <- read.table("C:/analysis/data.csv", header=TRUE, sep=",", na.strings="NA", dec=".", strip.white=TRUE)
- 出力ウィンドウ
- > Dataset <- read.table("C:/analysis/data.csv", header=TRUE, sep=",", na.strings="NA", dec=".", strip.white=TRUE)
- Dataset: データセットの名前(いくつか制限があるが任意)
- read.table(): ファイルを読み込む命令(エクセルファイルなどの場合はまた違う命令になる)
- header=TRUE: データセットの1行目に列の名前が入っている場合。逆の場合はheader=Fなどとする
- sep=",": カンマ区切りという事
- na.strings="NA": 欠損値の記号
- dec=".": 小数点の記号
- strip.white=TRUE: 後で調べます
*01: くれぐれも誰の、いつのデータなどという詮索は行わないでくださいね(笑)。
*02: デスクトップや(デフォルトの)マイドキュメントはやめましょう。
*03: 実際のデータを利用される時は、データにあわせていろいろと指定してください。
データの表示、編集
データの表示は簡単です。データセット名の横にある「データセットを表示」と書かれたボタンをクリックするだけです。どんな時でも、表示されたデータを見て間違ったデータセットを表示していないか確認しましょう。また「データセットの編集」をクリックするとデータセットの編集画面が現れます。こちらは自分で編集できるようになっています(*04)。
*04: データの編集内容までは記録に残りません。編集済みのファイルを使用して、Rコマンダー上ではなるべく編集しないようにした方がいいと思います。Rは解析ソフトであって、表計算などには向かないと思います