Week2 確認テスト

問題2-1

事前準備として,データを読み込みます。

dummydata_A <- read.csv("~/Dropbox/R/dummydata_A.csv")
attach(dummydata_A)

【問題1】

平均値は mean,分散は var,標準偏差は sd 関数で求めます。

mean(食費)
var(食費)
sd(食費)

Excel なら AVERAGE,VAR,STDEV関数で求めます。分析ツールでもいいですが,これぐらいは関数を使って求めましょう。

【問題2】

ヒストグラムは hist 関数を使って求めます。hist(食費) で作成できるのですが,これではわかりにくいので,もう少し手を入れて20001円から30000円以下の度数がわかるようにします。

par(family="HiraKakuProN-W3") #mac
par(mar=c(5,4,4,2)+0.1)
par(las=1)
par(cex=0.9)
hist(dummydata_A$食費, breaks=seq(0,230000,10000),
     right = TRUE, 
     col = "gray",  
     main = "Histgram of 食費", 
     ylim = c(0, 2000),
     xlab = "食費階級(円)(以下)", ylab = "")
axis(side=2, labels="人", at=2000,
     hadj=0.6, padj=-1.5)

すると,次のようなヒストグラムが描けます。

なお,histのオプションについて,上限値を「以下」にするには,right = TRUE に設定します(逆に「未満」の場合は right = FALSE

【問題3】

上に書いた【問題2】の解説でおしまい。

【問題4】

ヒストグラムの解釈の問題

ヒストグラムから最小は200〜250万円未満の階級,最大は1100〜1150万円未満の階級であることがわかります。よって,データの分布は200〜1150万円未満になります。

最もサンプルが集中しているのは,350万円〜400万円未満の階級であることもわかります。

問題文のヒストグラムはデータが無いこともあり再現できなかったので,ここでは省略しています。

もし,dummydata_Aを使って,ヒストグラムを作るのであれば,こんな感じです。

par(family="HiraKakuProN-W3") #mac
par(mar=c(5,4,4,2)+0.1)
par(las=1)
par(cex=0.9)
income = dummydata_A$年間収入.円./10000
hist(income, breaks=seq(150,1250,50),
     right = FALSE, 
     col = "#66ccff", 
     main = "Histgram of 年間収入(万円)", 
     xlab = "年間収入(万円)", ylab = "")
axis(side=2, labels="頻度", at=1400,
     hadj=0.6, padj=-1.5)

事前に summary で最小値,最大値を求めています。また,わかりやすくするために,グラフの色を空色(#66ccff)に設定しています。また,万円単位にするために,年間収入を10000で割り,その結果を income に入れています。他,各階級の上限値を「未満」にしたいため,right = FALSE にしています。

もし,データラベルに頻度の値を入れたければ,labels = TRUE も入れておきます。

【問題5】

sd関数で標準偏差を求め,一番大きな項目が最もばらつきの大きい項目とすればいいです。