問題2-1
事前準備として,データを読み込みます。
dummydata_A <- read.csv("~/Dropbox/R/dummydata_A.csv") attach(dummydata_A)
【問題1】
平均値は mean,分散は var,標準偏差は sd 関数で求めます。
mean(食費) var(食費) sd(食費)
Excel なら AVERAGE,VAR,STDEV関数で求めます。分析ツールでもいいですが,これぐらいは関数を使って求めましょう。
【問題2】
ヒストグラムは hist 関数を使って求めます。hist(食費)
で作成できるのですが,これではわかりにくいので,もう少し手を入れて20001円から30000円以下の度数がわかるようにします。
par(family="HiraKakuProN-W3") #mac par(mar=c(5,4,4,2)+0.1) par(las=1) par(cex=0.9) hist(dummydata_A$食費, breaks=seq(0,230000,10000), right = TRUE, col = "gray", main = "Histgram of 食費", ylim = c(0, 2000), xlab = "食費階級(円)(以下)", ylab = "") axis(side=2, labels="人", at=2000, hadj=0.6, padj=-1.5)
すると,次のようなヒストグラムが描けます。
なお,histのオプションについて,上限値を「以下」にするには,right = TRUE
に設定します(逆に「未満」の場合は right = FALSE
)
【問題3】
上に書いた【問題2】の解説でおしまい。
【問題4】
ヒストグラムの解釈の問題
ヒストグラムから最小は200〜250万円未満の階級,最大は1100〜1150万円未満の階級であることがわかります。よって,データの分布は200〜1150万円未満になります。
最もサンプルが集中しているのは,350万円〜400万円未満の階級であることもわかります。
問題文のヒストグラムはデータが無いこともあり再現できなかったので,ここでは省略しています。
もし,dummydata_Aを使って,ヒストグラムを作るのであれば,こんな感じです。
par(family="HiraKakuProN-W3") #mac par(mar=c(5,4,4,2)+0.1) par(las=1) par(cex=0.9) income = dummydata_A$年間収入.円./10000 hist(income, breaks=seq(150,1250,50), right = FALSE, col = "#66ccff", main = "Histgram of 年間収入(万円)", xlab = "年間収入(万円)", ylab = "") axis(side=2, labels="頻度", at=1400, hadj=0.6, padj=-1.5)
事前に summary で最小値,最大値を求めています。また,わかりやすくするために,グラフの色を空色(#66ccff)に設定しています。また,万円単位にするために,年間収入を10000で割り,その結果を income に入れています。他,各階級の上限値を「未満」にしたいため,right = FALSE
にしています。
もし,データラベルに頻度の値を入れたければ,labels = TRUE も入れておきます。
【問題5】
sd関数で標準偏差を求め,一番大きな項目が最もばらつきの大きい項目とすればいいです。