Rで施政方針演説の分析

下準備

mecab をインストールしておきます。コマンドプロンプトあるいはターミナル画面で mecab -v と入れてバージョン番号が入っていればインストールされています。（which mecab でもいいかも）

施政方針演説であれば，首相官邸サイトに出ています。エディタにコピペします。

節番号や、節の表題、冒頭の空白文字を削除して，txtファイルで保存します。

（1）データフォルダをセットします。setwd コマンドを使います。具体的には，

セットしたフォルダにどういったファイルが入っているのか，あるいはこれから分析したいデータがちゃんと入っているか，確認したい場合は，list.files() と入力します。

関数 head は先頭からn行抽出するもの。ちなみに逆のしっぽの方を抽出するのは tail

head(Abe.cabinet.statement.mecab, 10)

で，先頭から10行分抽出している。

（2）library("RMeCab") と打ち込んでライブラリーをメモリに読み込みます。

もし，RMeCabがインストールされていなければ，以下のおまじないを実行して，インストールしましょう。

install.packages("RMeCab", repos="http://rmecab.jp/R", type="source")

（3）次に，単語（形態素）の頻度を集計し，それを変数 word.count に格納します。

word.count = RMeCabFreq("siseihousin.AbeCabinet.txt")

出力結果で例えば length =1634 であれば，頻度の合計は 1634 ということがわかります。

（注）結果の上位をちらりと確認したければ，head(word.count) とでも打ってみるとよい。

助詞や助動詞，記号は不要なので，名詞，形容詞，動詞に絞る。

動詞を取り除いて，名詞と形容詞だけにしてみる。 word.count.2 = word.count.2[word.count.2$Info1 != "動詞",]