■SQLを使ったデータクリーニング
▼SQLの機能を理解する
SQL(Structured Query Language)
リレーショナルデータベース
▼ジュニアデータアナリストとして SQL を活用する
▼表計算ソフトとSQLの違い
▼SQLの方言とその活用法
▼オプション:顧客データセットを BigQuery にアップロードする
▼よく使われるSQLクエリ
SELECTクエリ
FROM
WHERE
INSERT INTO 顧客情報を追加する。
UPDATE 変更する。
CREATE TABLE IF NOT EXISTS テーブルを作成する
DROP TABLE IF EXISTS データベースからテーブルを削除します
▼SQLを使った文字列変数のクリーニング
SELECT文にDISTINCT関数を含めると同じ事ができる。
※ディスティンクト=重複したテーブルを1つにまとめる。
SELECT
DISTINCT customer_id
FROM
customer_data.customer_adress
※Text strings 文字列
▼LENGTH関数
文字列変数の長さがわかっている場合
LENGTH を使って文字列変数が 一貫しているかどうかを再確認できます。
SELECT
LENGTH(country) AS letters_in_county
FROM
customer_data.customer_adress
SELECT
county
FROM
customer_data.customer_adress
WHERE
LENGTH(county) > 2
▼SUBSTR関数 文字列から部分的に文字列を取得する。
SELECT
customer_id
FROM
customer_data.customer_adress
WHERE
SUBSTRING(county,1,2) = ‘us’
▼TRIM関数
余分なスペースがある項目を見つけ一貫性を保つために余分なスペースを 削除する
※このあとの小テストで大ハマり、
全然前に進めなくなってしまい、
SQLのリファレンスサイトを参考に悪戦苦闘しました、
問題が解けたのは深夜2時。
▼高度なデータクリーニング関数 その1
CAST関数 データを変換する関数。
SELECT
CAST(purchase_price AS FLOAT64)
FROM
customer_data.customer_purchase
OREDER BY
CAST(purchase_price AS FLOAT64) DESC
▼高度なデータクリーニング関数 その2
購入日データを見る。
SELECT
date,
purchase_price
FROM
customer_data.customer_purchase
WHERE
date BETWEEN ‘2020-12-01’ AND ‘2020-12-31’
時刻がdataではなくdatatimeになっているため、
CAST関数を使って、日付を置き換える
SELECT
CAST(date AS data) AS date_only,
purchase_price
FROM
customer_data.customer_purchase
WHERE
date BETWEEN ‘2020-12-01’ AND ‘2020-12-31’
※CONCAT関数 文字列を足して新しい文字列を作る
SELECT
CONCAT(product_code,product_color) AS new_product_code
FROM
customer_table.customer_purchase
WHERE
product = ‘couch’
※COALESCE関数 リスト内の非NULL値を返す
SELECT
COALESCE(product, product_code) AS product_info
FROM
cutomer_data.customer_purchase
WHERE
▼これまで学んだ SQL について
SELECT 文を使った、テーブルからのデータ取得
DISTINCT, COUNT + WHERE などのコマンドを使用した、データ重複の削除
TRIM() と SUBSTR による文字列データの操作
CREATE TABLE と DROP TABLE を使ったテーブルの作成、および削除
CAST によるデータ型の変更
SELECT * FROM customer WHERE LENGTH(city) > 9
▼ウィークリーチャレンジ3
3回目で合格したけどギリギリの80.56%。
この週は復習します。
ほんとにダメダメだわ。
■テストの復習
・Integer 整数
・Boolean ブーリアン
・String 文字列
・FLOAT 浮動小数点数型
・COALESCE NULL 値を削除
・CAST データをあるデータ型から別のデータ型に変換
コメント