2012年01月13日

形態素解析

日本語形態素解析システム JUMAN の最新版(ver. 7)が公開されました(詳細はこちら)。

非反復形オノマトペ,長音記号による非標準表記,長音記号・小書き文字を用いた長音化の自動認識

Wikipediaから抽出した辞書の追加

自動辞書(Webテキストから自動獲得した辞書)の改良

UTF-8化


先日見たときは準備中ってなっていたから、言語処理学会が終わったあたりに公開かなと思っていたら、予想以上に早くて嬉しい(笑)。個人的には辞書の改良に興味があります(特に意味カテゴリのあたり)。あとで、Wikipediaから抽出した辞書データを拝見しましょう。

ところで、形態素解析全般の話ですが、形態素区切りって結構難しい。形態素の区切りの単位や品詞体系も解析器によって異なるのはさておき、この形態素の解析器ならこれが正解で、これは不正解だからこのように修正しようとした場合、あとで見返してみると、修正の方針に揺れてることがある。大規模なコーパスを作るのは本当に骨が折れる作業と思います。

言語学的な分析をする場合であれば、正しく解析されたデータ(コーパス)を使いたいところですが、現実的には難しいんだろうな(分析内容にもよる)。限られた時間とコストの問題がありますよね。ある程度の誤りは仕方ないって考えのが妥当なんでしょうか。分かち書きされていないテキストの解析は難しいですね。

論文や発表等で、正解率何%というありますが、採点するのって大変なんじゃ……。本当に正解なの?と突っ込むのはやめておきます(笑)。解析器が間違えたデータってどっかにないだろうか(自分で作る?)。これは暇な時にでも……。

ちなみに日本語構文・格解析システム KNP も最新版(ver. 4)が公開されています(詳細はこちら)。
posted by unendedchaos at 22:35 | Comment(0) | TrackBack(0) | 言語処理 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

※ブログオーナーが承認したコメントのみ表示されます。

この記事へのトラックバック
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。