石田修二研究室  >  三重大学授業メモ  >  データサイエンスII  >  2022年度  (サイト内検索

ワードクラウドを使ってデータを可視化する

公開日:2022年10月18日

ワードクラウドは、キーワードの頻度を可視化するツールです。頻度が多いものほど、大きく表示されます。

ワードクラウドを使うには以下の URL にアクセスしてみてください。

演習1(実際に同じ動作になるか確認してみよう)

(1)ワードクラウドの http://wordcloudjp.com/ にアクセスしてください。

(2)次に著作権が消滅した作品を扱う青空文庫の芥川龍之介著の蜘蛛の糸にアクセスしてください。

(3)蜘蛛の糸の本文をコピーし、テキストエディタ(Microsoft Word でも構わない)を開いて貼り付けてください。(「ある日の事でございます。」から「極楽ももう午ひるに近くなったのでございましょう。」までコピーしてください)

(4)テキストエディタに貼り付けた内容(URL から直接でない。URL から直接コピーしたものだとエラーになる可能性あり)を図1のようにワードクラウドのテキストのボックスに貼り付けてください。

図1 ワードクラウドの使い方
図1 ワードクラウドの使い方

(5)ワーククラウドの下の「作るボタン」を押してみてください。

下の図の右側にあるような文字が確認できたら、成功です。文字が大きいものが注目れるワードになります。ここでは、「ます、ざい、から」となります。

図2 ワードクラウドの動作
図2 ワードクラウドの動作

演習2(実際に同じ動作になるか確認してみよう)

演習1の「ます、ざい、から」が蜘蛛の系の文章を可視化したときにもっとも注目される言葉となりますが、違和感を覚えませんでしょうか。「ます」や「から」は一般的な話でもたくさん出てくる用語で、この蜘蛛の糸の特徴的な言葉ではない可能性が考えられます。

そのようなときに用いられるのが前処理(図3)です。

図3 前処理の手順とその内容
図3 前処理の手順とその内容

今回は日本語以外のノイズが少ないためクリーニング処理を考慮しなくても問題はありません。また、既存のツールを使っているため、単語の分割、正規化を考慮しなくてもよいです。さらに単語のベクトル表現もツールを使っているため、考慮する必要もありません。

しかし、図2ワードクラウドの動作の結果から、どのような文章にでも出てくる単語をストップワードとして削除し、前処理を行う必要があります。

前処理のやり方

(1)以下のリストになっている単語をストップワードとして削除する前処理を実行してください。

前処理の単語リスト:

(2)Word でストップワードを削除するために Ctrlキーを押しながら「H」キーを押します。図4の検索する文字列の空欄に削除したいストップワードを記載し、置換後の文字列は空欄のままで「すべて置換のボタン」を押してください。

図4 検索と置換
図4 検索と置換

(3)テキストエディタに貼り付けた内容(URL から直接でない。URL から直接コピーしたものだとエラーになる可能性あり)を課題1の図1のようにワードクラウドのテキストのボックスに貼り付けてください。

(4)ワーククラウドの下の「作るボタン」を押してみてください。

下の図の右側にあるような文字が確認できたら、成功です。

演習1と異なり、蜘蛛、陀多(主人公:犍陀多)、地獄、極楽など関係ある用語が多く出てきています。データを前処理(ストップワード削除)することで、データを分析する上でわかりやすくなりました。

課題1

好きな文章を Web 上から収集して、ワードクラウドを使って可視化してみてください。そして、その特徴的なキーワードの3つを講師が指定した媒体(例えば、Moodle)に書いてください。また、分析前の文章の参照先の URL も書いてください。

  分析対象の文献のURL:https://hogehoge.com/.........
  1(                  )
  2(                  )
  3(                  )

リンクはご自由にどうぞ。

石田修二研究室