2010年04月29日

文章構造と自然言語処理

2010年04月25日のブログで、『エンジニアのための文章術再入門講座』という本に触れましたが、文章の構造化という点は、RSTRhetorical Structure Theory)を思い出しました。

言語学だと、社会言語学の授業で取り上げられることがありますね。院生の頃に少しだけ学びました。その授業のレポートをRSTをテーマにすればよかったなと今更ながら思います。意味論専攻だったので、専門外のことはなるべく触れたくなかったのかなと(当時はいろいろな事情で時間がとれなかった)。授業を受けるだけなら、負担はありませんが、レポートを書くとなるとこれはかなり負担になりますね。

やっておけばよかったな〜と思うことは次のとおり。
  • RSTの概要をまとめる

  • 適当なテキストに情報を付与する

  • Schemaの統計をとる

  • 分析を行う(Schemaの検討や文章構造の検討)

海外にあるRhetorical Structure Theoryというサイトを眺めて、ちょっとやってみようかなと思いましたが、とてもじゃないけど片手間ではできません(苦笑)。セグメント(segment)の基準もいろいろ考えたくなりそうだし……。やり始めたら節単位だけでなく、句単位でも付与できそうだし。例えば「雨で遠足が中止になった」なら、「雨」と「中止になった」は原因結果の関係とか。でもやっぱりこういうのは文レベルでタグを付与するのが妥当かな。単位が曖昧なのはよろしくないかも。

RSTを意識した意味(談話)情報に関しては、何人かの研究者がアノテーションの設計は試みてはいると思いますが、肝心の言語資源がほとんどありません。事例が少ないということもハードルをあげています(苦笑)。事例から学ぶのが一番わかりやすいと思いますので(私の場合)。機械で自動付与なんて夢のまた夢のような気もしますし、自分で意味情報を付与するのも、頭の中では理解していても、いざタグを付与しようと悩んでしまいます。

見本となる文章にRSTのアノテーションをしてあったら是非見せてください!という感じです。社内のメールでもお手本になるものにアノテーションが振ってあったら、こういう構造で書くのが好ましいんだと学べるかもしれない。そんなレベルな人はいらんと言われるかもしれませんが(苦笑)。とにかく自分の手を動かしてみるしかないかな……。

posted by unendedchaos at 13:50 | Comment(0) | TrackBack(0) | 言語処理 | このブログの読者になる | 更新情報をチェックする

2010年01月24日

KNP

ひょんなところからKNPが2.0からバージョンアップしていることを知りました。いろいろテキストを収集しているので試してみたいと思いましたが、今日はそこまで時間がありませんでした……。個人的には多義語の分析をしてみたいのですが……。

今日はとりあえず備忘録。
posted by unendedchaos at 23:00 | Comment(0) | TrackBack(0) | 言語処理 | このブログの読者になる | 更新情報をチェックする

2009年12月07日

第1回ウェブ学会シンポジウムの動画

例によって参加できませんでしたが、ホームページを確認してみると、Web中継をしていたとのこと。こちらのサイトに動画がアップロードされていますね(喜)。気がついたのがこの時間なので、観るのは明日以降かな……。

私が特に関心あるのは「セッション3:ウェブと科学」です。最先端の研究をされている方のプレゼンは勉強になりますからね。どんなディスカッションをされたのか楽しみです。

それにしてもこういう試みは素晴らしいですね。
posted by unendedchaos at 23:27 | Comment(0) | TrackBack(0) | 言語処理 | このブログの読者になる | 更新情報をチェックする
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。