Exploratoryでワードクラウド

2019年3月25日2019年3月27日

Mecabでワードクラウドを作る

ワードクラウド、というものがある。こんな感じのものだ。

テキストマイニングを学びたくて本を買ってみたものの、Pythonの環境を整えるのが面倒くさくて放置していたものだ。

<br />

このページに書いてあることをまるっきりトレースしてみることにする。

検索ワードだけは、「受験」に設定してみました。

Twitterから、データをぶっこぬくためには、Twitterを連動する必要があるらしい。当たり前か。といわけで、Twitterのアカウントを作成した。

Mecabとかいうソフト？が必要らしいのでいれる。なんだよめかぶって海藻かよ、って思ってたら、実際日本人作成だった。

Mecabをインストールしたら、続いてRMecabを導入。意外となんという障害も無く進んだ。ちょっと前に、RStudioにPDF吸出し用のなんちゃらいうライブラリを導入しないといけなかったわけだが、Rの知識が皆無すぎてぶん投げた過去があるので心配していたが、安心した。

詳細は先のサイトを見るのがはやい。

ただ、詰みかけたところというか、注意点は集計作業の前にグループ化である。これをしないと、Nカウントによるtoken_freqが１種類しかできなかった。分かってしまえば簡単なことだが、気付くまで凄い時間かかった。

そして、まずできたのがこちら。悲喜コモゴモといったところか。

よく見ると、謎の動詞として、「なっ」とか「やっ」とかゴミがいろいろ散らばっている。もっと削らなきゃ。この辺をうまく削るのがデータ処理なのだろうけど、そのうち慣れるでしょう。

その後、名詞だけに絞って集計してみたら、以下になったわけだ。

受験と防災が全く結びつかない訳ですが、それは・・・？とりあえず、東大が多いのはなんか分かる。看護が多いのも、何か分かる。息子、教育ママさんのツイートかな？など、確かにな～という結果に。

この先は、さらにクラスタリングという手法を使って、どのような組み合わせがどのようなグループに属するかを見ることができるというのだが、それはまた次の課題としたい。

環境さえ整ってしまえば、素人でもものの数十分でワードクラウドが出来てしまった。どんどんいろいろ試してみよう。

てか、とっととサブＰＣに環境を整えたいぞ、っと。