▼データクリーニングをしましょう
質の悪いデータの1位 ヒューマンエラー
▼データクリーニングの重要性
▼ダーティデータとは?
不完全、不正確、または解決すべき課題とは無関係なデータ
▼ダーティデータの把握と修復
NULL 重複データ タイプミス
フィールドの長さ
※Nullとゼロの違い
Null は、値が存在しないことを示し、ゼロは数値を意味します。
▼データクリーニングのツールとテクニック
データクリーニングの前に必ずバックアップを取る。
重複したデータを削除する
余分なスペースを削除する
スペルミス、ピリオドなどの間違い
テキストを大文字、小文字を直す
書式をクリアする。
▼複数のソースからのデータクリーニング
データ統合
▼データクリーニングに潜む落とし穴
よくあるミス
・スペルミスをチェックしない
・エラーを文書化するのを忘れる
・誤ったフィールドの値をチェックしない
・欠落している値を見落とす
・全体像ではなくデータのサブセットを見る
・ビジネス上の目標を見失う
・エラーの原因を修正していない
・データ クリーニングの前にシステムを分析しない
・データ クリーニングの前にデータをバックアップしない
・納期・工程にデータクリーニング期間を考慮していない
データをクリーンアップするための Google Workspace 活用法トップ 10:
Google スプレッドシートでデータクリーニングを行うためのベストプラクティス
▼表計算ソフトのデータクリーニング機能
条件付き書式の削除
重複の削除
1つのセルに複数の文字列がある場合
▼データクリーニングプロセスの最適化
関数 =COUNTIF(範囲,”>500″)
指定された値と一致するセルの数を返す関数です
=LEN(範囲)
LENは、文字列の文字数を数えることで、その文字列の長さを教えてくれる関数です。
=LEFT(範囲,数値)
テキスト文字列の左側から設定された文字数を返す関数です。
=RIGHT(範囲,数値)
RIGHTは、テキスト文字列の右側から設定された文字数を返す関数です
=MID(範囲,)
文字列の中間のセグメントを得るための関数
=CONCATENATE(範囲,数値)
2つ以上のテキスト文字列を結合する関数です
=TRIM(範囲)
データの先頭、末尾、繰り返しといった不要なスペースを 削除する関数です
▼さまざまな視点からデータを見る
並び替え
フィルタリング
ピボットテーブル
VLOOKUP
プロット
▼さらなるデータクリーニングの手法
データマッピング
スキーマ
主キー
外部キー
データマッピングのテスト
(データ検証、条件付き書式、COUNTIF、並べ替え、 フィルタリング)
▼実践編:表計算ソフトの関数を活用したデータクリーニング
・データをクリーンアップで重複を削除
・並び替えで不正な数値を先頭にして変更
・SPLIT 関数は、指定した文字の周囲でテキストを分割し、
区切られた文字を別のセルに配置する表計算関数です。この関数により、
1つにまとめられた緯度経度列が緯度と経度の2つの列に分割されます。
▼ウィークリーチャレンジ2
表計算かなり苦労しました、
というか表計算の用語?
2回目で87.5%で合格でした。
表計算、トレーニングしないとなぁ。
コメント