Rで施政方針演説の分析

下準備

mecab のインストール

mecab をインストールしておきます。コマンドプロンプトあるいはターミナル画面で mecab -v と入れてバージョン番号が入っていればインストールされています。(which mecab でもいいかも)

データの準備

施政方針演説であれば,首相官邸サイトに出ています。エディタにコピペします。

節番号や、節の表題、冒頭の空白文字を削除して,txtファイルで保存します。

Rでの作業

(1)データフォルダをセットします。setwd コマンドを使います。具体的には,

セットしたフォルダにどういったファイルが入っているのか,あるいはこれから分析したいデータがちゃんと入っているか,確認したい場合は,list.files() と入力します。

関数 head は先頭からn行抽出するもの。ちなみに逆のしっぽの方を抽出するのは tail

head(Abe.cabinet.statement.mecab, 10) 

で,先頭から10行分抽出している。

(2)library("RMeCab") と打ち込んでライブラリーをメモリに読み込みます。

もし,RMeCabがインストールされていなければ,以下のおまじないを実行して,インストールしましょう。

install.packages("RMeCab", repos="http://rmecab.jp/R", type="source")

(3)次に,単語(形態素)の頻度を集計し,それを変数 word.count に格納します。

word.count = RMeCabFreq("siseihousin.AbeCabinet.txt")

出力結果で例えば length =1634 であれば,頻度の合計は 1634 ということがわかります。

(注)結果の上位をちらりと確認したければ,head(word.count) とでも打ってみるとよい。

助詞や助動詞,記号は不要なので,名詞,形容詞,動詞に絞る。

動詞を取り除いて,名詞と形容詞だけにしてみる。 word.count.2 = word.count.2[word.count.2$Info1 != "動詞",]

参考