■結果の検証とレポート
▼結果の検証とレポート
検証とは、データクリーニングが
適切に実施され、その結果得たデータが
正確で信頼できると 確認するためのプロセスです。
変更ログとは
プロジェクトに加えられた変更を
時系列に並べたファイルです。
▼クリーニングとデータの期待値
・クリーニング前とクリーニング後のデータを比較する
・プロジェクトの全体像を把握することです。
・データを使って解決したい ビジネス上の課題を考える
・プロジェクトの目標を 考慮すること
・そのデータが課題を解決し、
プロジェクトの目的を達成できるもので あるかどうかを検討することです。
つまり、データがどこから来たのか考え
データ収集とクリーニングの プロセスをテストするのです
(他人からフィードバックをもらう)
▼データクリーニングの最終ステップ
TRIMと重複の削除をしてくれるツールもある。
検索と置き換えも使う。
ピボットテーブルを使うと間違いが見つけやすい
▼CASE関数を使って顧客名を変更する
SELECT
custmer_id,
CASE
WHEN first_name =”Tnoy” THEN ‘Tony’
ELSE first_name
END AS cleaned_name
FROM
cutomer_data,customer_name
▼チェックリスト
よくある問題を解決する
よくある問題の特定と修正ができているか、確認しましょう。以下はその例です。
・エラーの発生源: データセットに含まれるエラーの原因を見つけるために、適切なツールや関数を使用しましたか?
・NULL: 条件付き書式やフィルターを使用してNULLを検索しましたか?
・単語のスペルミス: スペルミスはすべて特定しましたか?
・数字の入力間違い: 数字が正しく入力されているか、ダブルチェックしましたか?
・余分なスペースや文字: TRIM で余分なスペースや文字を削除しましたか?
・重複: Remove Duplicates 関数や SQL の DISTINCT を使って、重複を削除しましたか?
・データ型の不一致: 数値、日付、文字列のデータが正しく入力されているか確認しましたか?
・文字列の乱れ(矛盾): すべての文字列が一貫性を持ち、意味のあるものであると確認しましたか?
・日付のフォーマットの乱れ(矛盾): データセット全体で一貫した日付のフォーマットが保たれていますか?
・誤解を招く変数ラベル(列): 列の名前は適切なものですか?
・データの切り捨て: 修正すべきデータの切り捨てや、欠落がないか確認しましたか?
・ビジネスの論理性: ビジネスに関する知識に基づいて、データが意味をなしているか確認しましたか?
▼クリーニングの変遷を捉える
データセットがどのように変化したかを
記録しておくことには、非常に重要な3つのメリットがあります。
1つめは、データクリーニングでのミスを修復できるということです
2つめは文書化する
1)データ クリーニングのエラーを修復できる
2)変更内容を他の人に知らせることができる
3つめは、分析に使用するデータの品質を
確認するのに役立つということです。
変更ログ
変更履歴で確認できる。
▼SQL
SQL で変更履歴を作成・閲覧する方法は
使用しているソフトによって異なります。
会社によっては、変更履歴や
重要な SQL クエリを記録するソフトを 別に持っているところもあるくらいです。
これはかなり高度なものです。
基本的には、クエリを
新しく改良したクエリとして
リポジトリに書き込む際に、
何を、なぜ行ったのかを 正確に指定すればよいのです。
▼変更ログを導入する
エンジニアは、ECO(Engineering Change Order:変更の指示を関係者に共有する文書のこと)を使って、
新製品の設計に関する詳細や既存製品の変更案などを記録します。
ライターは、文書の変更履歴を使用して、文書の流れや編集の変更を記録します。
そしてデータアナリストは、データの変換とクリーニングを追跡するために変更ログを使用します
▼変更ログのベストプラクティス
変更ログは機械ではなく人のためのものです。読みやすく書きましょう。
すべてのバージョンにつき、それぞれの項目が必要です。
個々の変更につき、それぞれの行が必要です。
同じ種類の変更をグループ化しましょう。たとえば、修正 は 追加 と区別するなどして、グループ化しましょう。
バージョンは新しいものから順番に並べましょう。
各バージョンのリリース日を記載しましょう。
各カテゴリーのすべての変更は、グループ化する必要があります。変更の種類は通常、以下のいずれかに分類されます。
追加: 新機能の導入
変更: 既存の関数の変更
非推奨: 削除されようとしている機能
削除: 削除された機能
修正: バグの修正
セキュリティ: 脆弱性の改善
▼なぜ文書化が重要なのか
文書化は証拠のようなもの。
▼フィードバックとクリーニング
▼データクリーニングをスピーディーに行うための高度な関数
▼ウィークリーチャレンジ4
3回目で87.5%で合格。
かなり怪しい
コメント