今日からR言語で統計を勉強します。既にドットインストールで使い方は学び終えた。ざっと使ってみた感想としては、プログラミング言語よりはmaximaとかOctaveみたいなツールの感じ(この2つもプログラミング言語に含まれるのかもしれないけど)。データセットがデフォルトで用意されてるのは嬉しいですね。ちょっと不満なのは代入演算子が=ではなくて->なこと。毎回間違えるからイライラしてしまう。
次の段階として、Rで統計する本を探した。面白そうな本で、
Rではじめるデータサイエンス
があった。日本語だと相応の値段だが、英語が無料で(!)公開されているそう。 http://r4ds.had.co.nz/index.html
ということでこれを約1ヶ月かけて翻訳・勉強することにした。ちなみにCC byでもあるので、問題ない範囲でなら自由に利用できる・・・はず。
1 Introductionは長いので、今日は2 Introductionから。英語得意じゃないので結構時間がかかる。以下メモ書き。2章は短いのでほぼ全文に目を通せたが、他の章は図やソースコード込とはいえ結構長いので飛ばし読みになると思う。
このサイトのゴールは「データ探索」を早くこなせるようにしよう ということ。そもそも全体の流れは、
- データの読み込み
- 整形
- [サイクル]変形→可視化→モデリング(?)
- 結果が出る
というもので、この3番を探索と言うらしい。探索では何度も仮説を立て、それを検証することになる。
- 変形…重要な変数を選んだり、結果をフィルタリングしたりできるようにすること
- 可視化…結果を明瞭にするために行う
- モデリング…22章で解説
今日はここまで。
CC by Garrett Grolemund, Hadley Wickham