2009年11月01日

Rによるテキストマイニング入門

『Rによるテキストマイニング入門』を読み終えました。目次は下記のとおりです。

第1章  テキストマイニングとは何か
第2章  テキストマイニングの準備
第3章  Rに慣れる
第4章  MeCabとRMeCab
第5章  RMeCabによるテキスト解析
第6章  インターネット上のクチコミ情報の分析
第7章  アンケートの自由記述文の分析
第8章  沖縄観光のアンケートの分析
第9章  テキストの自動分類
第10章 書き手の判別
付録(統計の基礎,コマンド一覧)

統計処理ソフトのRは以前、英語コーパス学会で講習を受けたことがありますが、今となっては知識も皆無です。あの頃、独学でもいいからRを使っていれば、今頃、R使いになっていたかも(苦笑)。

入門というところが、私でもできそうという期待を持たせてくれます。テキストマイニングって、「形態素解析統計処理テキストマイニング」というイメージしかない私にでも。十分、独学できるように丁寧に説明されていると思います。

筆者のオリジナルパッケージであるRMeCabが特筆すべきところですね。関数を用意してもらえると助かります。

先日、任天堂から新型携帯機「DSi LL」の発表があったので、その口コミ調査をしようと試みていましたが、本日は、Rのインストールと口コミテキスト(Yahoo記事にあるコメント)を収集して一文一行化に整形したところで止まっています(苦笑)。

読みながら一文一行化をしている過程で十分必要な情報は得ることはできたような気もしますが、ここはもうちょっと頑張ってみる予定。
# いまひとつの評判のようです

著者はまえがきで次のように述べています

場合によっては,丁寧に読んでも気づきにくい隠れた構造を探ることも可能である.

テキストマイニングの醍醐味はこちらかなと思います。別の角度からデータを見ることで気づくことはよくある話なので。

転職活動の現実逃避にテキストマイニングの課題をやろうと思います。これも全く関係のないことではないので。形態素解析の修正をどこまで手作業でやろうか……。


Rによるテキストマイニング入門

Rによるテキストマイニング入門

  • 作者: 石田 基広
  • 出版社/メーカー: 森北出版
  • 発売日: 2008/12/16
  • メディア: 単行本(ソフトカバー)



posted by unendedchaos at 22:23 | Comment(0) | TrackBack(0) | 言語処理 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

※ブログオーナーが承認したコメントのみ表示されます。
この記事へのトラックバックURL
http://blog.seesaa.jp/tb/131790809
※ブログオーナーが承認したトラックバックのみ表示されます。

この記事へのトラックバック
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。