社会人のためのデータサイエンス入門 WEEK3 2022年09月28日

社会人のためのデータサイエンス入門 セミナー
社会人のためのデータサイエンス入門

27日のテストの結果が散々だったので、
もうどうすればいいのかわかりません。

3-1. 統計表の見方
  ・クロスセクションデータ
  ・時系列データ
  ・パネルデータ

 ・統計表の見方

  縦横軸にどんな特性の分類を置いているか注目
  ・クロスセクションデータの場合
   縦、横軸に地域や産業分類などを置く。様々な組み合わせがある。
   地域別データの場合、縦軸に地域を置き、横軸に様々なデータを置くことが多いです。

  分類→質的分類
   標準統計分類を設定
  
   ※しかしデータによっては期間などが違う場合があるので注意

  時系列データの場合
   縦に時間軸をとり、横軸に様々な特性の分類をとることが多い
   データは並び順は通常、上から古いー>新しいとなることが多いが、
   たまに金融市場データなどでは逆の場あいがあるので要注意

3-2. 比率の見方(1)-クロスセクションデータ
   比率を求めるときはどのような数を分母に置くかがポイントです。

   構成比
    ここでの構成比は各産業の就業者数/地域の総就業業者数
    構成比と総数とその内訳の比率
    例:15歳未満人口割合=15歳未満の人数/総人口

   相対比
    異なるデータを分子、分母に取った比率
    例:人口密度=人口/面積

3-3. 比率の見方(2)-使い方と注意点

   相関係数
    同じ変数を分母とする構成比同士の相関係数では、
    変数が1つ減っていることに注意。

3-4. 時系列データの見方(1)-基礎編

   よく用いられるのは以下の通り
   例えば年次データ→政府の財政データなんかはそうなんですけども
   あるいは半期、半年に一回観測されるようなデータ
   あるいは四半期に一回観測されるデータ
   あるいは月次データ
   週次データ、日次データ
   あるいは1時間当たりのデータ
   こういうふうな感じで各例はあります

   ※注意点
    暦年と年度
     暦年データ、1年間データ。
     年度はいつ始まるかは国によって違う

    ストックデータとフローデータ

3-5. 時系列データの見方(2)-発展編
   GDPデータ→物価の水準を考慮する必要がある

   実質値と名目値

   これは金額を扱う統計で使われるものでして
   この物価の変動をいかに除去するか
   除去したものを実質値
   その除去する前のものを名目値というふうに呼びます

   なぜこういうことをするかと言いますと
   50年前の1万円と例えば今の1万円では価値が違ってくるわけですね
   同じ1万円でも昔の1万円と今の1万円では価値が違ってくる
   だから金額で集計されているような統計では
   そのまま、その当時の金額で表されています
   そうすると名目で、その当時表せるようなデータを
   現在の価値の金額と比べると不都合が起きてしまいます
   
   実質値= 名目値
        ——-
価格指数

   季節性
    クーラー代、ビール代。教育費、ボーナス

    前年同月比=当月の値
         ———— -1
前年の同月の値

   前年同月比がプラスなんだけど
   季節調整値の前月比はマイナスになってしまうという
   両者の符号が一致しないという場合が出てきます

   こういった場合には傾向に変化が生じている場合があるので
   非常に注意が必要になります
   一般には前年同月比は前月比よりも
   変化が表れるのが遅れる場合があります
   なので注意をしたいと思います
   一方、前月比はより細かいノイズでも
   変化することがあるのでこれも注意が必要になってきます

3-6. 時系列データの見方(3)-分析編

 同時相関(同時点で相関)

   相互相関(時間差で相関)

   見せかけの相関
    例:消費者物価と東京都の気温

   時系列予測
    
    多項式回帰による予測 𝑥𝑡 = 𝑎 + 𝑏𝑡 + 𝜺 𝑡
    自己回帰モデルによる予測 𝑥𝑡 = 𝑎 + 𝑏𝑥𝑡−1 + 𝜺𝑡(t=1,2,3・・・,N)

多項式回帰による予測
・はっきりしたトレンドがある場合、時間の多項式を当てはめて予測することができる
・ 直線的なトレンドの場合は1次関数が良く用いられる。
・ あまり、高次の多項式を当てはめることは望ましくない。
・ 大きな構造変化が起こるときにはうまく予測できない。

多項式回帰による予測
・はっきりしたトレンドがある場合、時間の多項式を当てはめて予測することができる
・ 直線的なトレンドの場合は1次関数が良く用いられる。
・ あまり、高次の多項式を当てはめることは望ましくない。
・ 大きな構造変化が起こるときにはうまく予測できない。

▼確認テスト
 やっと75%で合格点とれました。

コメント

タイトルとURLをコピーしました