続・Rコマンダーでいろいろ遊んでみましょう。
Last modified: Thu, 23 Apr 2009 10:25:41 +0900
まずはデータを図示しましょう。データを図示することはデータの大まかな性質を理解するために非常に大切です(*01)。
ある変数を図示する際に、尺度によって方法が異なってくるので先にまとめておきます。また、この分類によって代表値も変わり、適用される統計手法も異なるので注意しましょう。
Rコマンダーには「インデックスプロット、ヒストグラム、幹葉表示、箱ひげ図、QQプロット、散布図、散布図行列、折れ線グラフ、条件付散布図、平均のプロット、棒グラフ、円グラフ、3次元グラフ」が用意されています。インポートしたデータに対して使えるコマンドのみを表示しているので表示したいグラフを選択しましょう。図の描き方は以下のとおりです。簡単ですね。
変数値を適当に区切って度数分布の様子を見るものです。何か解析を行う際には、まず変数ごとにヒストグラムを作り、変数の頻度の様子を見るので、かなりの頻度で使うことになると思います。
データの中央値、四分位、外れ値を用いて変数の様子をわかりやすく表示したものです。こちらはデータを頻度ではなく、代表値によってまとめたものです。ヒストグラムと並び、かなりの頻度で使われます。
2つの連続変数の関係を2次元の平面上に点として示したものです。複数の変数の関係を一目で見ることができるため、非常に多用されます。これもかなりの頻度で使うことになるはずです。
選択されているアクティブデータセット内のすべての変数について1対1の関係をプロットするものです。すべての変数の組み合わせについての散布図が一度に得られるので、変数が多いときに非常に役に立ちます。もちろん、変数の数は自分で選択できます。
連続変数の分布が正規分布しているかどうかを見るグラフです。Rでは正規分布のみならず、さまざまな分布に対応しています。
円全体を100%として、各カテゴリの割合にしたがって区切り塗り分けた図です。ニュースなどでいろいろ見たことがあるのではないでしょうか?ここではすでにインストールされているパッケージ「car」の中のデータを用いてみます。
ある値ごとの頻度を縦棒として、異なる値ごとにこの縦棒を横に並べたものです。ここでも「car」の中の「Angell」を利用してみます。