http://r4ds.had.co.nz/data-visualisation.html
今日は引き続き、3章を翻訳中。トラブルもなく順調に半分くらい完了。
Aesthetic
3章のテーマはAesthetic(美的)らしい(もっといい訳があったと思う)。要するにただデータをグラフ化するのではなく、わかりやすくプロットさせようということ。まず事前準備として、
library(tidyverse)
と読み込んで、最初の例は、
ggplot(data = mpg) + (注:+を打った後に改行している) geom_point(mapping = aes(x = displ, y = hwy))
だった。すると下のようなグラフが出来上がる。
それぞれの関数について解説すると、ggplotはプロットに関するメインの関数でgeom_pointはどのようにプロットをするかを決める関数らしい。今回ggplotはmpgデータセットを読み込んでいるだけ。そしてgeom_pointの引数にmapping = aes(x = displ, y = hwy)というのがあるが、これはx軸はmpgデータセットのdispl列をy軸はhwy列を対応させるという意味。特にaes関数は各列をどのように表現するかということを設定する関数のようだ。ちなみにaesはAesthetic(美的)だと思う。だから、車の種類によって分類したければ、
ggplot(data = mpg)+ geom_point(mapping = aes(x = displ, y = hwy, color = class))
とすると車の種類(class)ごとに色分けがなされる。
他にもalpha(透過率)やshape(形状)などが用意されている。注意としてshapeは6種類までしか用意されていないので7つ目以降はプロットされない。
ついでに、geom_pointは装飾に関する関数ということで次のような使い方もできる。
ggplot(data = mpg)+ geom_point(mapping = aes(x = displ, y = hwy), color = "blue"))
こうするとプロットが全部青色になる。
上のグラフを見るとわかるが、この青色は見た人になんの情報も与えない。aes関数の引数外のパラメータは、そのデータを説明するものではないことを覚えておこう。
補足
mpgデータセットは自動車に関するデータである。この記事中のグラフはx軸をエンジンの大きさ、y軸を燃費としている。分類(class)は2シートだとかコンパクトカーだとか。今回の結果を分析すると、大型のエンジンは燃費が悪い傾向にあるということ(つまりnegative:負の相関)。そして例外的に2シートカーはエンジンが大型であるのにも関わらず、燃費が比較的よいこと がわかる。