■データ完全性の確保
▼バイアス
サンプリングバイアス
サンプルが母集団を 表していないものである
観察者バイアス
人によって物事の観察が異なる傾向のこと を表します
認知バイアス
曖昧な状況を常に肯定的に、あるいは
否定的に解釈してしまう傾向のことを 表します
確証バイアス
「人は自分の見たいものを見る」
既存の信念を確認するような形で情報を探したり、
解釈したりする傾向のことを表します
▼良きデータソースを特定する
ROCCC
・信頼性
・独自性
・包括的
・最新
・引用元
▼不良データとは
信頼できない、独自性がなく、包括的でなく、
最新でない、引用元がない。
▼データ倫理入門
所有権
取引の透明性
同意
カレンシー
プライバシー
オープンネス
▼データの匿名化
データの匿名化には、個人情報の空白化、ハッシュ化、マスキングが用いられ、
データ列を特定するために固定長のコードを使用したり、
改変された値でデータを隠すことが多々あります。
データの匿名化は、ほぼすべての業界で行われており、
データアナリストがその基本を理解しておくことは非常に重要なことです。
ここでは、匿名化されることが多いデータの例をご紹介します。
・電話番号
・名前
・ナンバープレートと免許証番号
・社会保障番号
・IP アドレス
・医療機関の受診記録
・電子メールアドレス
・写真
・口座番号
▼オープンデータの特徴
データアナリティクスにおいて、オープンデータはデータ倫理の一部であり、
データを倫理的に使用することと関係しています。
オープンネスとは、データへの自由なアクセス、使用、共有を意味します。
データがオープンであるとみなされるためには、以下のことが必要です。
・完全なデータセットとして一般公開されており、アクセスできること
・再利用や再配布が可能な条件のもと、提供されていること
・あらゆる人がデータを利用し、再利用し、再配布できるといった、普遍性があること
これら 3 つの基準をすべて満たす場合にのみ、データはオープンデータであるとみなされます。
▼ウィークリーチャレンジ2
2回目で87.5%で合格。
コメント