2006年度経済情報処理

第8回 グラフを使ってデータを見る(2)

↑経済情報処理(2006)ホームページに戻る


8.1 散布図をつかって 2つの変量間の関係をチェックする

例題0. 散布図を手で描いてみる

散布図になじみがない人は、まずとても簡単な散布図を手で描いてみよう。Excelを使うと簡単に「それっぽいもの」は作れるが、自分が何をやっているか分からないでグラフを作っているのでは猿と同じである。サンプルデータは以下の通り

名前 国語 算数
太郎 10 90
次郎 50 70
三郎 85 40

Step1. 横軸に国語の点数、縦軸に算数の点数を取って散布図を描くことにする

Step2. 国語、算数それぞれの最高点を出しておいて、グラフの軸の目盛を決める

国語は85点が最高点、算数は90点が最高点なので、目盛は 0〜100の範囲で設定しておけばほぼ問題ない

Step 3. 太郎の得点をグラフに書き込む

太郎は国語が10点、算数が90点であったから、国語の軸(横軸)が10、算数の軸(縦軸)が90となる点を書き込めばよい。

Step 4. 同様に次郎と三郎の得点も書き込むと以下の通り

散布図の各点が何を意味しているかちゃんと把握できたら次へ進もう。

例題1. 簡単な散布図

以下の表は 身長、体重という 2つの変量の組み合わせを示している。この表を用いて、身長と体重の間の関係を考察しよう。

名前 身長(cm) 体重(kg)
A 165 65
B 168 67
C 169 53
D 171 73
E 174 75
F 177 68
G 180 80
H 183 83
I 185 70
J 187 89

この表はたった10件のデータであるが、このデータをぱっと見せられて「身長と体重の関係は…」と説明するのは難しい。人間の脳みそは10件のデータを同時に扱えるところまでまだ進化していないので、それは致し方ないことである。そこで出てくるのが散布図。

Step 1. データを入力する

面倒な人は、BMI.xls をダウンロードすればデータ入力済みのファイルが入手できる

Step 2. データ範囲を選択する

下図のように、変数名(身長、体重)を含めてデータ範囲を選択する

Step 3. ツールバーから を押してグラフウィザードを起動する

Step 4. グラフの種類を選ぶ

各データの間を線で結ぶ根拠がないので、線なしの散布図を選ぶ

Step 5. あとは他のグラフと同じ。タイトル類は

グラフタイトル(T)
「身長と体重の関係」
X/数値軸(A)
身長(cm)
Y/数値軸(V)
体重(kg)

と入力しておこう。できあがりのグラフは下のような感じになる。グラフ上のそれぞれの点は、A〜Jの各サンプルでの身長と体重の組み合わせを表している。

Step 6. グラフの評価

作成したグラフをじっと眺めると、身長と体重の組み合わせを表す点は全体に右上がりに散らばっているように見える。データの散らばっている範囲を赤い線で囲ってみると下のような感じ。このような場合は身長と体重の間には正の相関がある可能性が高い。確かに常識的に考えても身長が高い人は低い人よりも体重が重めなのは当然な気がするので、おそらくそんな関係があるのだろう。

このように、データをグラフ化することで、単に数値の表をみてもよく分からなかった2変量の関係を人間が得意なパターン認識に持ち込むことができ、ぱっと見ただけで関係が読み取れるようになる。

練習問題1. 以下のデータについて散布図を作成し、2つの変量間にどのような関係がありそうか説明しなさい

  1. 名目賃金の対前年変化率と失業率(データファイル: Phillips.xls
  2. 民間最終消費支出と国内総支出(データファイル: C-Y.xls
  3. 東京築地市場でのイワシ上場数量と価格(iwashi.xls)。上場数量とは、獲れたイワシのうち、実際に市場で販売にかけられた数量を意味する。

練習問題2. 太陽の活動の強さと地球人の経済活動の間に関係があるという説について考察しなさい

かつてジェボンズ(Jevons)という経済学者が 「太陽黒点の数が景気変動に影響する」と主張した。彼の主張の骨子は、

  1. 太陽黒点は太陽の活動の活発さを表す
  2. 太陽の活動の活発さは天候に影響を与える
  3. 天候が変わると農産物の生産性に影響を与える
  4. 農産物の生産性が変わると景気変動が発生する

というものであった。データファイル sunspot.xls には、1886年から2004年までの我が国経済成長率(名目・実質)と太陽黒点数の年平均が入っている。このデータを使って、ジェボンズの主張が妥当かどうか検討しなさい。ただし、ジェボンズの主張は経済において農業の与える影響が大きいことが前提であるから、1886年から2004年の全期間のデータを使うことが適切かどうかは分からない。どの期間のデータを使うかも自分で判断すること。

練習問題3. 練習問題1から得られた2つの変量間の関係について、経済理論からどのような説明がつけられるか考察しなさい


↑経済情報処理(2006)ホームページに戻る