Week2 確認テスト

Excel なら AVERAGE，VAR，STDEV関数で求めます。分析ツールでもいいですが，これぐらいは関数を使って求めましょう。

ヒストグラムは hist 関数を使って求めます。hist(食費) で作成できるのですが，これではわかりにくいので，もう少し手を入れて20001円から30000円以下の度数がわかるようにします。

なお，histのオプションについて，上限値を「以下」にするには，right = TRUE に設定します（逆に「未満」の場合は right = FALSE）

ヒストグラムから最小は200〜250万円未満の階級，最大は1100〜1150万円未満の階級であることがわかります。よって，データの分布は200〜1150万円未満になります。

最もサンプルが集中しているのは，350万円〜400万円未満の階級であることもわかります。

問題文のヒストグラムはデータが無いこともあり再現できなかったので，ここでは省略しています。

もし，dummydata_Aを使って，ヒストグラムを作るのであれば，こんな感じです。

par(family="HiraKakuProN-W3") #mac
par(mar=c(5,4,4,2)+0.1)
par(las=1)
par(cex=0.9)
income = dummydata_A$年間収入.円./10000
hist(income, breaks=seq(150,1250,50),
     right = FALSE, 
     col = "#66ccff", 
     main = "Histgram of 年間収入（万円）", 
     xlab = "年間収入（万円）", ylab = "")
axis(side=2, labels="頻度", at=1400,
     hadj=0.6, padj=-1.5)

事前に summary で最小値，最大値を求めています。また，わかりやすくするために，グラフの色を空色（#66ccff）に設定しています。また，万円単位にするために，年間収入を10000で割り，その結果を income に入れています。他，各階級の上限値を「未満」にしたいため，right = FALSE にしています。

もし，データラベルに頻度の値を入れたければ，labels = TRUE も入れておきます。

sd関数で標準偏差を求め，一番大きな項目が最もばらつきの大きい項目とすればいいです。