mecab をインストールしておきます。コマンドプロンプトあるいはターミナル画面で mecab -v
と入れてバージョン番号が入っていればインストールされています。(which mecab でもいいかも)
施政方針演説であれば,首相官邸サイトに出ています。エディタにコピペします。
節番号や、節の表題、冒頭の空白文字を削除して,txtファイルで保存します。
(1)データフォルダをセットします。setwd
コマンドを使います。具体的には,
setwd("/Users/ユーザー名/desktop/R")
setwd("c:\Users\ユーザー名\desktop\R")
セットしたフォルダにどういったファイルが入っているのか,あるいはこれから分析したいデータがちゃんと入っているか,確認したい場合は,list.files()
と入力します。
関数 head は先頭からn行抽出するもの。ちなみに逆のしっぽの方を抽出するのは tail
head(Abe.cabinet.statement.mecab, 10)
で,先頭から10行分抽出している。
(2)library("RMeCab")
と打ち込んでライブラリーをメモリに読み込みます。
もし,RMeCabがインストールされていなければ,以下のおまじないを実行して,インストールしましょう。
install.packages("RMeCab", repos="http://rmecab.jp/R", type="source")
(3)次に,単語(形態素)の頻度を集計し,それを変数 word.count に格納します。
word.count = RMeCabFreq("siseihousin.AbeCabinet.txt")
出力結果で例えば length =1634 であれば,頻度の合計は 1634 ということがわかります。
(注)結果の上位をちらりと確認したければ,head(word.count) とでも打ってみるとよい。
助詞や助動詞,記号は不要なので,名詞,形容詞,動詞に絞る。
動詞を取り除いて,名詞と形容詞だけにしてみる。 word.count.2 = word.count.2[word.count.2$Info1 != "動詞",]