2013年04月15日

言語処理学会の予稿集

言語処理学会の予稿集が公開されていたのですね。

論文のホームページ公開は,複製および公衆送信に相当しますので,著作権者からの許諾を必要とします.第16回年次大会以降は,著作権を譲渡していただいており,言語処理学会が著作権者となっているため,問題は生じません.しかしながら,第15回年次大会以前は,著作権は譲渡されておらず,著者の皆様が著作権をお持ちです.

職場で予稿集を見ることはできますが、職務中にみるといろいろと面倒なことになりそうなので、自宅で見られるのはありがたいことです(今年はCD-ROMのみ購入ができなかったので)。

発表者からすれば、執筆した予稿集を当日参加できなかった人にも見てもらうことで何かコメントをいただける可能性もあるので、良い方向に進んでいるのかなと勝手に思っています。私は微妙な立場なので、本人に直接コメントをすることはないかな……。

逆にデメリットは特許を取得する前に、技術情報が公開されてしまうってことかな?そのような心配をしているのであれば、発表は控えると思いますが……。

posted by unendedchaos at 20:54 | Comment(0) | TrackBack(0) | 言語処理 | このブログの読者になる | 更新情報をチェックする

2012年01月13日

形態素解析

日本語形態素解析システム JUMAN の最新版(ver. 7)が公開されました(詳細はこちら)。

非反復形オノマトペ,長音記号による非標準表記,長音記号・小書き文字を用いた長音化の自動認識

Wikipediaから抽出した辞書の追加

自動辞書(Webテキストから自動獲得した辞書)の改良

UTF-8化


先日見たときは準備中ってなっていたから、言語処理学会が終わったあたりに公開かなと思っていたら、予想以上に早くて嬉しい(笑)。個人的には辞書の改良に興味があります(特に意味カテゴリのあたり)。あとで、Wikipediaから抽出した辞書データを拝見しましょう。

ところで、形態素解析全般の話ですが、形態素区切りって結構難しい。形態素の区切りの単位や品詞体系も解析器によって異なるのはさておき、この形態素の解析器ならこれが正解で、これは不正解だからこのように修正しようとした場合、あとで見返してみると、修正の方針に揺れてることがある。大規模なコーパスを作るのは本当に骨が折れる作業と思います。

言語学的な分析をする場合であれば、正しく解析されたデータ(コーパス)を使いたいところですが、現実的には難しいんだろうな(分析内容にもよる)。限られた時間とコストの問題がありますよね。ある程度の誤りは仕方ないって考えのが妥当なんでしょうか。分かち書きされていないテキストの解析は難しいですね。

論文や発表等で、正解率何%というありますが、採点するのって大変なんじゃ……。本当に正解なの?と突っ込むのはやめておきます(笑)。解析器が間違えたデータってどっかにないだろうか(自分で作る?)。これは暇な時にでも……。

ちなみに日本語構文・格解析システム KNP も最新版(ver. 4)が公開されています(詳細はこちら)。
posted by unendedchaos at 22:35 | Comment(0) | TrackBack(0) | 言語処理 | このブログの読者になる | 更新情報をチェックする

2010年12月29日

Wikipedia日英京都関連文書対訳コーパス

怒濤の連日出勤でしたが、年末年始休暇を無事取れました。なんとか生きています(満身創痍)。今年は何かを達成したというのが何一つないような気もするので、休暇中に計画を立てようかと思います。結構、自己嫌悪に陥っていますが、このようなネガティブ思考はよろしくないですね。

さて、話は変わって、Wikipedia日英京都関連文書対訳コーパスですが、Ver. 2.0になったと聞いて早速ダウンロードしてみた。

1.人手翻訳による約50万文対を収録した精密かつ大規模なコーパスです。
◦高性能な多言語翻訳、情報抽出システムの研究・開発等にご活用いただけます。

2.翻訳の過程(一次翻訳→流暢さ改善のための二次翻訳→専門用語チェックの3段階)が記録されています。
◦訳文が精緻化されていく過程を観察できるため、翻訳支援ツールの開発、人手翻訳における誤り分析等にもご活用いただけます。

3.京都に関する内容を中心に、日本の伝統文化、宗教、歴史等の分野をカバーしています。
◦各種観光情報の英訳や通訳ガイドのための用語集作成、英語学習などにもご活用いただけます。

4.本コーパスに含まれる日英対訳用語約5万語対を収録した『日英京都関連対訳用語集』が付属しています(Version 2.0以降)。


個人的には3段階というのが嬉しいです。単語の修正や構文の修正を調査してみたいな……、と考えてはいますが、いったいいつになることやら。とりあえず対訳コーパスをデータベースに入れてみようかと。

この対訳コーパスは通訳案内士の試験にも役立ちそうですね。これだけじゃ合格は難しいとは思いますけど……。

学生の頃は通訳士になりたいって思った時期もあったけど、とてもとても……という感じですね(笑)。副業で通訳・翻訳をやりたいという夢は捨てたくはないのですが、現実には厳しそうです。ここ最近の忙しさを考えると、副業なんて無理無理でしたね。でも不可能を可能にしたい(そういう若さもなくなってきているような)。

本業だけというのは視野が狭くなるので、見聞を広めよう、というのは毎年の抱負。さてさてどうしたものか。
posted by unendedchaos at 08:11 | Comment(0) | TrackBack(0) | 言語処理 | このブログの読者になる | 更新情報をチェックする
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。