社会人のためのデータサイエンス入門 WEEK2　2022年09月27日

昨日のテストの結果が散々だったので、
気合いれてメモとりました。

以下、2週目メモ

2-1. 代表値～平均・中央値・最頻値～
　・ヒストグラム
　・標準級間隔 100万円
　・1500万円を超える家庭は少ない

　・平均を求める（合計/10000家庭）
　・中央値（全体の半分5000世帯）
　・最頻値（階級幅によって変わってしまう）

2-2. 分散・標準偏差
　・平均を利用して考える　平均との差→偏差
　　合計額は0になってしまう。

　　そこですべての値を2倍にする→分散
　　しかし合計が2倍になってしまうため、
　　合計の平方根を値とする→標準偏差

　　標準偏差はヒストグラムの半分くらいをカバーする

　　個々の値ー平均
　　————– =標準化した値
　標準偏差

　　標準化することで、変数の平均は０、標準偏差は１となる。

　　偏差値は、平均５０・標準偏差１０となるよう変換した値

2-3. 四分位・パーセンタイル・箱ひげ図
　・中央値をさらに4分の1にしたもの→第１四分位（Q1）第３四分位（Q3）
　・第１四分位と第３四分位の差を四分位範囲と呼ぶ
　・四分位範囲を２で割った数→四分位偏差
　・箱ひけ図では狭いスペースに複数の分布を並べて表現することが可能
　・四分位をさらに拡張→10パーセントタイル、50パーセンタイル

2-4. 関係の見方・相関係数
　・散布図
　・散布図をなんらかの指標にしてみる（平均で分割）
　・偏差の積を平均したもの→共分散
　　共分散を横軸の標準偏差×縦軸の標準偏差で割ったもの→相関係数
　・相関係数の最小値は-1,最大値は＋1
　　相関係数は直線的な関係の強さをあらわす指標
　　相関係数は因果関係をあらわす指標ではない

2-5. 回帰分析
　・散布図の真ん中を通る直線　→回帰直線　
　・縦軸の値＝切片＋傾き×横軸の値　→回帰係数
　　　
　・単回帰分析では線を引くことで、変数間の関係を表現する

　・この時、散布図の縦軸になる変数を基準変数、あるいは目的変数、被説明変数、従属変数などと言い
　　横軸になる変数を予測変数、説明変数、独立変数などと言います

　・回帰直線を使って未成年の割合から未婚の割合を予想・予測するということを考えてみます
　　→実際との差を残差という
　　　残差分散はプラスもマイナスもあるので二乗して平均する　→残差分散

　・基準変数の分散は、説明変数を使わず、平均で予測するときの予測の外れ度合い

　・説明変数がある場合には予測値は回帰直線によって求められ
　　残差はこの回帰直線と実際の未婚の割合との差になります
　　そのため、予測の外れ度合いをあらわす残差の二乗の平均は
　　説明変数があると小さくなり予測の精度が向上していることが分かります
　　精度の向上はこの二つの数値の差である34.8という数値ですが
　　これが元の外れ度合いである65.6に対して
　　どのくらいの割合なのかということを見た値を
　　「決定係数」と言います（０と１の間）

　・決定係数は、説明変数による予測力をあらわす指標（＝相関係数の二乗）

　・回帰分析の拡張
　　→曲線の当てはめ

　・説明変数が複数のとき　→重回帰分析

2-6. 標本分布
　　　例：世帯あたりの保険医療費
　　　　　全国には5000万世帯あるといわれている（母集団）
　　　　　①これを全部調査することを全数調査という。

　　　　　②標本だけ調べて推定をする（標本調査）
　　　　　　標本調査の調査結果を推定値と呼ぶ
　　　　　　ただし母集団分布との差異が気になる。
　　
　　　標準誤差率
　　　　③標本の抽出を繰り返し標本平均を計算する（標本分布）
　　　　上２つの分析とはだいぶ違う。
　　　　標本分布の平均値＝期待値
　　　　標本分布の標準偏差＝標準誤差

　　　　標準誤差/推定値＝標準誤差率

2-7. 信頼区間
　　　2-6の目的は母集団の分布の平均を知ること。
　　　標本平均の標本分布の性質
　　　①期待値は母集団平均に一致する
　　　②標準誤差は標本サイズの平方根に半比例する
　　　③母集団分布によらず標本サイズが大きいとき正規分布に近づく

　　　正規分布
　　　　一山の左右対称の形
　　　　平均を中心として左右に1標準偏差の範囲に全体の68%が含まれます
　　　　また、標準偏差を左右に1.96倍した範囲に全体の95%が含まれます（95%信頼区間）
　　　　さらに標準偏差の2.58倍に全体の99%が含まれています

テスト受けましたがまた40%の正解率
なんで講義ででてこないことをテストにだすかなー