Google Career Certificates
Google データアナリティクス プロフェッショナル 4コース 2週目

Google データアナリティクス Google データアナリティクス プロフェッショナル
Google データアナリティクス

▼データクリーニングをしましょう
 質の悪いデータの1位 ヒューマンエラー

▼データクリーニングの重要性

▼ダーティデータとは?
 不完全、不正確、または解決すべき課題とは無関係なデータ

▼ダーティデータの把握と修復
 NULL 重複データ タイプミス
 フィールドの長さ

 ※Nullとゼロの違い
Null は、値が存在しないことを示し、ゼロは数値を意味します。

▼データクリーニングのツールとテクニック
 データクリーニングの前に必ずバックアップを取る。
 重複したデータを削除する
 余分なスペースを削除する
 スペルミス、ピリオドなどの間違い
 テキストを大文字、小文字を直す
 書式をクリアする。
 

▼複数のソースからのデータクリーニング
 データ統合

▼データクリーニングに潜む落とし穴
 よくあるミス
  ・スペルミスをチェックしない
  ・エラーを文書化するのを忘れる
  ・誤ったフィールドの値をチェックしない
  ・欠落している値を見落とす
  ・全体像ではなくデータのサブセットを見る
  ・ビジネス上の目標を見失う
  ・エラーの原因を修正していない
  ・データ クリーニングの前にシステムを分析しない
  ・データ クリーニングの前にデータをバックアップしない
  ・納期・工程にデータクリーニング期間を考慮していない

  データをクリーンアップするための Google Workspace 活用法トップ 10:
  Google スプレッドシートでデータクリーニングを行うためのベストプラクティス

▼表計算ソフトのデータクリーニング機能
 条件付き書式の削除
 重複の削除
 1つのセルに複数の文字列がある場合
 
▼データクリーニングプロセスの最適化
 関数 =COUNTIF(範囲,”>500″)
     指定された値と一致するセルの数を返す関数です

   =LEN(範囲)

     LENは、文字列の文字数を数えることで、その文字列の長さを教えてくれる関数です。

    =LEFT(範囲,数値)
     テキスト文字列の左側から設定された文字数を返す関数です。

    =RIGHT(範囲,数値)
     RIGHTは、テキスト文字列の右側から設定された文字数を返す関数です

    =MID(範囲,)
     文字列の中間のセグメントを得るための関数
 
=CONCATENATE(範囲,数値)
     2つ以上のテキスト文字列を結合する関数です

    =TRIM(範囲)
     データの先頭、末尾、繰り返しといった不要なスペースを 削除する関数です

▼さまざまな視点からデータを見る
 並び替え
 フィルタリング
 ピボットテーブル
 VLOOKUP
 プロット

▼さらなるデータクリーニングの手法
 データマッピング
 スキーマ
 主キー
 外部キー
 データマッピングのテスト
(データ検証、条件付き書式、COUNTIF、並べ替え、 フィルタリング)

▼実践編:表計算ソフトの関数を活用したデータクリーニング
 ・データをクリーンアップで重複を削除
 ・並び替えで不正な数値を先頭にして変更
 ・SPLIT 関数は、指定した文字の周囲でテキストを分割し、
  区切られた文字を別のセルに配置する表計算関数です。この関数により、
  1つにまとめられた緯度経度列が緯度と経度の2つの列に分割されます。
 
▼ウィークリーチャレンジ2
表計算かなり苦労しました、
 というか表計算の用語?
 
 2回目で87.5%で合格でした。

 表計算、トレーニングしないとなぁ。

コメント

タイトルとURLをコピーしました