Google Career Certificates
Google データアナリティクス プロフェッショナル 4コース 4週目

Google データアナリティクス Google データアナリティクス プロフェッショナル
Google データアナリティクス

■結果の検証とレポート

▼結果の検証とレポート
 検証とは、データクリーニングが
 適切に実施され、その結果得たデータが
 正確で信頼できると 確認するためのプロセスです。

 変更ログとは
 プロジェクトに加えられた変更を
 時系列に並べたファイルです。

▼クリーニングとデータの期待値

 ・クリーニング前とクリーニング後のデータを比較する
 ・プロジェクトの全体像を把握することです。
   ・データを使って解決したい ビジネス上の課題を考える
   ・プロジェクトの目標を 考慮すること
   ・そのデータが課題を解決し、
    プロジェクトの目的を達成できるもので あるかどうかを検討することです。
    つまり、データがどこから来たのか考え
    データ収集とクリーニングの プロセスをテストするのです
    (他人からフィードバックをもらう)

▼データクリーニングの最終ステップ
 TRIMと重複の削除をしてくれるツールもある。
 検索と置き換えも使う。
 
 ピボットテーブルを使うと間違いが見つけやすい

▼CASE関数を使って顧客名を変更する

SELECT
custmer_id,
CASE
WHEN first_name =”Tnoy” THEN ‘Tony’
ELSE first_name
END AS cleaned_name
FROM
cutomer_data,customer_name
 
▼チェックリスト
 よくある問題を解決する

よくある問題の特定と修正ができているか、確認しましょう。以下はその例です。

・エラーの発生源: データセットに含まれるエラーの原因を見つけるために、適切なツールや関数を使用しましたか?

・NULL: 条件付き書式やフィルターを使用してNULLを検索しましたか?

・単語のスペルミス: スペルミスはすべて特定しましたか?

・数字の入力間違い: 数字が正しく入力されているか、ダブルチェックしましたか?

・余分なスペースや文字: TRIM で余分なスペースや文字を削除しましたか?

・重複: Remove Duplicates 関数や SQL の DISTINCT を使って、重複を削除しましたか?

・データ型の不一致: 数値、日付、文字列のデータが正しく入力されているか確認しましたか?

・文字列の乱れ(矛盾): すべての文字列が一貫性を持ち、意味のあるものであると確認しましたか?

・日付のフォーマットの乱れ(矛盾): データセット全体で一貫した日付のフォーマットが保たれていますか?

・誤解を招く変数ラベル(列): 列の名前は適切なものですか?

・データの切り捨て: 修正すべきデータの切り捨てや、欠落がないか確認しましたか?

・ビジネスの論理性: ビジネスに関する知識に基づいて、データが意味をなしているか確認しましたか? 

▼クリーニングの変遷を捉える
  
  データセットがどのように変化したかを
  記録しておくことには、非常に重要な3つのメリットがあります。

  1つめは、データクリーニングでのミスを修復できるということです

  2つめは文書化する
   1)データ クリーニングのエラーを修復できる
   2)変更内容を他の人に知らせることができる

  3つめは、分析に使用するデータの品質を
  確認するのに役立つということです。

 変更ログ
  変更履歴で確認できる。

▼SQL
 SQL で変更履歴を作成・閲覧する方法は
 使用しているソフトによって異なります。
 会社によっては、変更履歴や
 重要な SQL クエリを記録するソフトを 別に持っているところもあるくらいです。
 これはかなり高度なものです。
 基本的には、クエリを
 新しく改良したクエリとして
 リポジトリに書き込む際に、
 何を、なぜ行ったのかを 正確に指定すればよいのです。

▼変更ログを導入する
 エンジニアは、ECO(Engineering Change Order:変更の指示を関係者に共有する文書のこと)を使って、
 新製品の設計に関する詳細や既存製品の変更案などを記録します。
 ライターは、文書の変更履歴を使用して、文書の流れや編集の変更を記録します。
 そしてデータアナリストは、データの変換とクリーニングを追跡するために変更ログを使用します

▼変更ログのベストプラクティス

  変更ログは機械ではなく人のためのものです。読みやすく書きましょう。

すべてのバージョンにつき、それぞれの項目が必要です。

個々の変更につき、それぞれの行が必要です。

同じ種類の変更をグループ化しましょう。たとえば、修正 は 追加 と区別するなどして、グループ化しましょう。 

バージョンは新しいものから順番に並べましょう。

各バージョンのリリース日を記載しましょう。

各カテゴリーのすべての変更は、グループ化する必要があります。変更の種類は通常、以下のいずれかに分類されます。

追加: 新機能の導入

変更: 既存の関数の変更

非推奨: 削除されようとしている機能

削除: 削除された機能

修正: バグの修正

セキュリティ: 脆弱性の改善

▼なぜ文書化が重要なのか
 文書化は証拠のようなもの。
 
 
▼フィードバックとクリーニング

▼データクリーニングをスピーディーに行うための高度な関数

関数
関数

▼ウィークリーチャレンジ4
3回目で87.5%で合格。
 かなり怪しい

コメント

タイトルとURLをコピーしました