Google Career Certificates
Google データアナリティクス プロフェッショナル 7コース 3週目

Google データアナリティクス Google データアナリティクス プロフェッショナル
Google データアナリティクス

■R の中のデータ

▼R のデータフレーム
 データフレーム→列の集まり
 列には名前をつける
 データフレームに格納されるデータは
 数値や factor(因子型)、文字列など さまざまな型があります。
 データフレームには日付やタイムスタンプ、 論理型のベクトルなどが含まれます。
 最後に、 たとえデータ項目の一部が欠落していても
 各列には同じ数のデータ項目が 含まれている必要があります。

 Tibble
Tidyverseでは、Tibble は合理化された データフレームのようなものです。
Tibble はデータの操作を容易にしますが
標準的なデータフレームとは少し異なります。
まず、Tibble では入力するデータ型を 変更することはありません。
文字列を factor, つまり因子型やその他 に変えたりすることはありません。
ベースのデータフレームにはより変更を加える ことができますが Tibble の方が簡単です。
Tibble では、 クリーニングやデータ型の変更を
あまりする必要がないため、 時間の節約ができます。
また、 Tibble では変数名を変更することも
行名を作成することもありません。

▼データフレームを扱う
head などの関数を使い すばやくプレビューすれば
データフレーム全体の表示を 避けることができます。
また、データフレームの構造を知るには
str や colnames 関数が使えます。
これらはデータの確認に使える関数に 過ぎません。

R のデータフレームは head()、glimpse()、str() 関数を使って、プレビューできます。

▼Tibble の詳細
 Tibble は、データセットの最初の 10 行と、画面に収まるだけの列だけを自動的に取得するように設定された、
 いわば効率的なデータフレームのようなものです。これは、大規模なデータセットを扱う際に非常に便利です。

 as_tibble() 関数を使うと、既存データから tibble を作成できます。

▼クリーニングの基本
 skimr パッケージ は、データの要約を
 とても簡単にしてくれ、かつすばやく 読み進めることができます。

 ※インストールしたら、必ずlibrary()で読み込む。
 
 データフレームのサマリーを得るためには
 いくつかの関数が使えます。
 skim without charts、glimpse、 head、そしてselectです。

 rename()関数、列名を変更する
 

▼ファイル名の命名規則
 

ファイル名は適度な長さにする

読みやすくするため、アンダースコアやハイフンを使用する

ファイル名の先頭または末尾は文字か数字を使用する

日付のフォーマットは YYYY-MM-DD など、一般的なものを使用する

関連するファイルのファイル名は、デフォルトの順序で機能するものを使用する

(例:年代順、または数字から始まる論理的な並び順など)

  

 すべきでないこと

ファイル名に不必要な文字を使用する

スペースまたは「特殊な」文字(例:&、%、#、<、> など)を使用する

ファイル名の先頭または末尾に記号を使用する

不完全な、または一貫性のない日付フォーマット(例:M-D-YY)を使用する

デフォルトの順序で機能しない関連ファイルのファイル名を使用する
(例:数字や日付の形式をランダムに並べる、文字から始まる並び順など)

▼R の演算子に関する詳細

算術演算子
関係演算子
論理演算子
代入演算子

 
▼データを整理する

 arrange()
group_by()
filter()

▼データを変換する
 
 separate() 列を分割する
unite() 列を結合する
mutate()テーブルの値を変換する

▼tidyr パッケージでデータをワイドからロングにする

 pivot_longer() pivot_longer() 関数は tidyr パッケージの一つで、この R 関数では、行数を増やし、列数を減らして、
 データフレームのデータを長くすることができます。同様に、データの行数を減らし、列数を増やしたい場合は、 pivot_wider() 関数を使用します。

▼同じデータ、異なる結果

 Anscombe’s quartet

▼R におけるbias関数

 bias()

▼バイアスのかかったデータの扱い方
 

■ウィークリーチャレンジ3

1回目 50%
2回目 97.5%で合格。
 これはかなり難解でした。

コメント

タイトルとURLをコピーしました