少し間が空いてしまいましたが、
3コースの続きを進めます、
今度はデータベースです。
▼データベースの概要
▼データベースの特徴
主キーと外部キー
▼データアナリティクスにおける、データベースの役割
・リレーショナル データベース
・データベースの正規化
▼実践編:データセットの検証
分析を始める前に、データを検証し、ステークホルダーの疑問に答えるために必要な情報が含まれているかどうかを
判断することが重要です。
どのようなデータセットであっても、以下のようなことが起こり得ます。
・必要なデータがない(サンドイッチのデータはあるが、ピザのデータが必要 など)
・データが不十分(6月1日〜7日のピザに関するデータはあるが、6月全体のデータが必要)
・データが正しくない(ピザのデータに一切れの値段が250ドルと記載されており、 データセットの有効性を疑われる)
▼メタデータの探求
データアナリストがよく目にするメタデータには
3種類。
・記述メタデータ:記述メタデータは、データの一部を説明したり、いつでもデータを識別したりできるようにするものです。
・構造メタデータ:構造メタデータは、データの一部がどう整理されているか、また、それが 1 つのデータコレクションに属しているか、
あるいは複数のデータコレクションに属しているかなどの情報を提供するものです。
・管理メタデータ:管理メタデータは、 ファイルやコンテンツなど、資料の作成や管理に必要な詳細情報を示すものです。
▼データアナリストとしてのメタデータの活用
・メタデータリポジトリ
・データガバナンス
▼多様なデータソースを使う
・内部データ
・外部データ
▼外部ソースからスプレッドシート形式への変換
・GoogleスプレッドシートのIMPORTRANGE 関数
https://support.google.com/docs/answer/3093340?ref_topic=9199554
・Web ページから HTML のテーブル(表)を取り込む
Google スプレッドシートでは。IMPORTHTML関数を使う
▼スプレッドシート形式ファイルやデータベースからデータを取り込む
・CSVファイル(Comma-Separated Values)
▼一般公開データセットを探索する
・Google Cloud 一般公開データセット
医療に関する一般公開データセット
・WHO(世界保健機関)のデータ
社会・政治に関する一般公開データセット
・ユニセフ 世界子供白書
▼並べ替えとフィルタ
練習問題
■サンドボックス・課金オプションなど、BigQuery の設定について知る
・BigQuery サンドボックス
https://cloud.google.com/bigquery/docs/sandbox?hl=ja
トライアルで300ドルまで利用できる。
▼BigQueryの使用方法
BigQuery は、データアナリストが大規模なデータセットのクエリ、フィルタリング、
結果の集計など複雑な処理を行う際に使用できる
Google Cloud のデータ ウェアハウスです。
▼BigQuery のコンソールへのアクセス方法
ブラウザでhttps://console.cloud.google.com/bigqueryにアクセス
ここでだいぶ困った状況に陥りました。
チュートリアルが適当で、その通りにやっても進めず、
ほかのページなども見たけど画面自体が違くて・・・
試しにChromeでやったらできました。
Firefoxめ。
おかけでBigQueryの使いかたにはなれました。
あとこのサイトにはお世話になりました。
https://azkk.co.jp/bigquery_for_marketer_03_data_preparation
▼ウィークリーチャレンジ3
1回目のチャレンジで84.38%で合格。
コメント