Press "Enter" to skip to content

[R]データの整形

wyosis 0

4章 http://r4ds.had.co.nz/workflow-basics.html

久しぶりに英訳。さっそくだが4章はRの基本を述べているところなので省略。Rの基本文法を学びたい人はドットインストールとかもおすすめです。

Transformation(整形)とは?

5章 http://r4ds.had.co.nz/transform.html

3章ではデータの可視化について見てきたが、あれのように関数一発でグラフが作れるというケースは稀らしい。なぜならば、用いるデータが自分にとって都合のいい形式になっているとは限らないからだ。だから、新しい変数をつくったり、順番を並べ替えたりしなくてはならない。じゃあどうやるのかというのを学ぶのが5章とのことらしいです。そしてこの作業のことをTransformationという。

準備

5章ではnycflights13というパッケージの中にあるflightsというデータフレームを用いる。これは2013年にニューヨークを出発した計333776個のフライトに関するデータである。ではまずnycflights13パッケージを読み込む。

library(nycflights13)

一発でうまくいった人はいいが、こちらの環境だとパッケージが存在しないという旨のエラーを吐かれた。install.packages(nycflights13)を試してもないと言われる。ぐぐってみると、配布サイトのURLを直接指定してインストールしなければいけないらしい。

install.packages("https://cran.r-project.org/src/contrib/nycflights13_0.2.2.tar.gz", repos=NULL, method="libcurl")

これで再び、

library(nycflights13)

とすると今度はすんなりうまくいった。次に恒例の

library(tidyverse)

を読み込んで準備は完了。

なお、nycflights13を読み込んだ時点で、flightsのデータフレームが使えるようになっている。中身が見たい人はflightsと打ってみよう。

flights

dplyrの基本

5章でやけにdplyrという単語が出てきて、最初は(俗語っぽいし)無視していたが、訳に支障が出てきたので調べてみた。ここによると、dplyrとはDetaframes apPLY function in R (Rにおけるデータフレームの処理関数郡)という意味らしい。日本語訳は適当だが・・・。applyはさらにsplit, apply, combine (分ける、適用、合わせる)を代表したもので、ようするにデータフレームを整形する関数を集めたパッケージのことをdplyrということだと思う。ではどのような関数が用意されているのかというと、

  • filter 変数による観測のピックアップ
  • arrange行の並び替え
  • select 名前による変数のピックアップ
  • matate 既存変数からから新しい変数を作る
  • summarise たくさんの値を一つにまとめる

これらの関数はいくつか共通点があって、

  1. 第一引数には処理するデータフレームが来る
  2. 第二引数以降には変数名を用いて、どのような処理を施すかを指定する
  3. 返り値は新たなデータフレームである

というわけで次回以降はdplyr関数郡の使い方を見ていきます。

コメントを残す

メールアドレスが公開されることはありません。