2013年07月14日

特許文書の機械翻訳を学ぶに当たって参考になるサイト

機械翻訳について調査しています。参考までにこれまでの調査ブログを挙げておきます。

1) 「機械翻訳を学ぶに当たって参考になる資料」(2013年06月30日
2) 「機械翻訳文献リスト」(2013年06月21日

今回は第3弾「特許文書の機械翻訳を学ぶに当たって参考になるサイト」(2013年7月14日)です。「特許文書における機械翻訳」について調べてみました。

特許文書における機械翻訳の資料については、特許庁日本特許情報機構Japio)、NTCIRに非常に有益なレポートや論文があります。それぞれ参考になるサイトを挙げていきます。

まずは、特許庁からです。「特許審査関連情報の機械翻訳による英語提供に対する精度評価に係る調査」には、株式会社クロスランゲージ機械翻訳ソフト評価についても記述があります(私もこの社の機械翻訳ソフトは所有していますが、特許用機械翻訳ソフトは所有していません……。優待で安く買えないかな(笑))。特許文書の課題には、用語や構文(文法構造)があり、言語学観点から分析したいと考えていますが、週末研究者レベルだと時間がなくて挫折気味です(苦笑)。

特許出願に係る書類等の機械翻訳に関する調査研究報告書について (2011.3.17)
http://www.jpo.go.jp/cgi/link.cgi?url=/shiryou/toushin/chousa/tokkyo_kikai_honyaku.htm

特許庁は、高度産業財産ネットワーク(AIPN)を通じて、海外特許庁に対し、サーチ及び審査結果に関する情報を機械翻訳により英語で提供しています。海外特許庁において、我が国のサーチ及び審査結果が参照されることにより、審査に係る負担軽減、国際的なワークシェアリングへの寄与、審査の質の向上、ひいては我が国出願人の海外における迅速かつ適切な権利取得につながることが期待されます。

一方、明細書等の特許出願に係る書類や審査関連書類等(以下、「特許関連文書」という)は、特許に特有な専門用語や技術用語が多用されるとともに、文法構造が複雑な文や長文が用いられることも多く、特に中国語については機械翻訳の難易度が比較的高いという課題があります。そのため、特許関連文書について、適切な機械翻訳を行うためには、これらの文書に用いられる用語や構文の特徴等の特性・傾向を調査・分析し、その特性・傾向を考慮したうえで、機械翻訳精度の向上策を講ずる必要があります。

以上の観点から、特許庁では、今般、「特許審査関連情報の機械翻訳による英語提供に対する精度評価に係る調査」および「日本語特許出願書類の中国語への機械翻訳に関する調査」について、報告書にまとめましたので、お知らせいたします。


続いて、日本特許情報機構Japio)です。「翻訳に関する研究・開発」と「日本語処理に関する研究・開発」に着目します。前者の「翻訳に関する研究・開発」には、「AAMT/Japio特許翻訳研究会」のことが、後者の「日本語処理に関する研究・開発」には、産業日本語のこことが記述されています。

研究・開発実績|特許申請・出願サービスのJapio
http://www.japio.or.jp/kenkyu/kenkyu01.html

特許文献翻訳の精度向上と効率化のため、専門用語辞書構築と機械翻訳支援システムに関する実用化へ向けての研究・開発を行っています。

また、特許翻訳のさらなる精度向上を目指して、アジア太平洋機械翻訳協会(AAMT)の中に 「AAMT/Japio特許翻訳研究会」 を立ち上げ、機械翻訳精度向上、多言語辞書構築および翻訳結果の評価などの観点で機械翻訳技術の研究を推進しています


AAMT/Japio特許翻訳研究会」には、報告書やシンポジウム資料が公開されています(ありがたや)。

AAMT-Japio特許翻訳研究会 Research Field
http://www.aamtjapio.com/research-field.html

産業日本語とは、「人とコンピュータの双方にとって理解しやすい標準的な日本語」とのことです。

特許版・産業日本語
http://japio-tjp.org/

産業日本語研究会
http://www.tech-jpn.jp/xoops/html/

日本語処理に関する研究・開発の一環として、機械翻訳等のコンピュータ処理の対象となる日本語文章の記載に着目し、特許文書等の産業界に流通する産業技術文書の記述に適した「人とコンピュータの双方にとって理解しやすい標準的な日本語(産業日本語)」の策定とその普及に関する調査・研究を行っています。


最後に、国立情報学研究所NII)が主催するNTCIRについてです。NTCIRは複数のタスクがありますが、この中で特許翻訳に関するタスクがあります。それがPatentMTです。

Patent Machine Translation Task at NTCIR
http://ntcir.nii.ac.jp/PatentMT/

カンファレンスが2度開かれましたが、資料も公開されています(ありがたや)。現時点(2013年7月14日に時点)で公開されている資料では最先端な研究ではないでしょうか。

NTCIR-9 Table of Contents
http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings9/NTCIR/toc_ntcir.html#PATENTMT

NTCIR-10 Table of Contents
http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings10/NTCIR/toc_ntcir.html#PATENTMT

以上、ネットで入手できる資料について備忘録を残しておきます。上記の資料を参考にしつつ、『特許情報処理:言語処理的アプローチ (自然言語処理シリーズ)』の「特許翻訳」を読みますか。ここに書いてある情報を自分の言葉でまとめることができたら、相当知識が身につくので、なんとかチャレンジしたいところですね。


特許情報処理:言語処理的アプローチ (自然言語処理シリーズ)
特許情報処理:言語処理的アプローチ (自然言語処理シリーズ) [単行本] / 奥村 学 (監修); コロナ社 (刊)

単行本: 226ページ
出版社: コロナ社 (2012/12)
ISBN-10: 4339027553
ISBN-13: 978-4339027556
発売日: 2012/12
タグ:翻訳
posted by unendedchaos at 10:34 | Comment(0) | TrackBack(0) | 言語処理 | このブログの読者になる | 更新情報をチェックする

2013年06月30日

機械翻訳を学ぶに当たって参考になる資料

先日書いた「機械翻訳文献リスト」では書籍情報を取り扱いましたが、本日はインターネット上で「機械翻訳を学ぶに当たって参考になる資料」を探しました。ここに挙げたもの以外でも有益な論文はたくさんありましたが、まずはここから知識を吸収したいと思います(参考文献の書き方がやや適当になってしまったが、参考になるサイトがわかれば良しとする)。



この中で「統計的機械翻訳の現場」に書かれている「Frederick Jelinek 先生の有名な言葉「言語学者を解雇する度に、音声認識器の性能が向上する」という話がとても興味深いと思います。

Frederick Jelinek 先生の有名な言葉「言語学者を解雇する度に、音声認識器の性能が向上する」∗1に代表されるように、音声認識の研究開発の歴史において言語学的な知見の貢献が極めて低かったことがわかる。
――「統計的機械翻訳の現場」


この話は私の耳にも入っていたのですが、出典がわかりませんでした。“Frederick Jelinek 1932 – 2010 : The Pioneer of Speech Recognition Technology”という論文らしいので、読んでみます。

言語学者排除といっても、研究目的が違うので、ガッカリする必要はないのかもしれませんが、言語学畑としては皮肉な話ですね(苦笑)。基本的に異なる研究分野の場合は郷に入っては郷に従えのような気がしますが、学際的な研究は難しいのかなと思いつつ、言語処理の方にももう少し首を突っ込んでみます。

多くの方が勧めているStatistical Machine TranslationのKindle版を購入しました。数学の素養はほとんどないといってもいいので、理解するのに時間がかかりそうです……。

Statistical Machine Translation(ハードカバー)
Statistical Machine Translation(Kindle)
Statistical Machine Translation [ハードカバー] / Philipp Koehn (著); Cambridge University Press (刊)

ハードカバー: 446ページ
出版社: Cambridge University Press; 1版 (2009/12/17)
言語 英語, 英語, 英語
ISBN-10: 0521874157
ISBN-13: 978-0521874151
発売日: 2009/12/17
タグ:翻訳
posted by unendedchaos at 11:45 | Comment(0) | TrackBack(0) | 言語処理 | このブログの読者になる | 更新情報をチェックする

2013年06月23日

ストップウォッチ

1分で大切なことを伝える技術 (PHP新書)』という本に次のように書かれていたので、ストップウォッチを購入しました。

ストップウォッチを使えば、仕事は確実に速くなる。目の前で時間の経過がわかると、事前と使い方の密度が濃くなる。問題を解くスピードも上がる。いわゆる「百ます計算」はその典型だ。時間を計るからこそモチベーションが上がり、時間を短縮する会館を核とした学習回路が仕上がるのである。


さらに齋藤先生はこんなことも話されています。

勉強やビジネスは、基本的には効率を追求するものである。だから逆に言えば,そういう場でストップウォッチを机の上に出していないこと自体、むしろ私には信じがたい。あらゆる企業の全社員が、ストップウォッチの常時活用を常識化させてほしいとさえ思っている。


私も長々と話してしまうことがあるので,ストップウォッチで時間感覚を磨きましょうか.

1分で大切なことを伝える技術 (PHP新書)1分で大切なことを伝える技術 (PHP新書) [新書] / 齋藤 孝 (著); PHP研究所 (刊)

新書: 209ページ
出版社: PHP研究所 (2009/1/16)
ISBN-10: 4569704328
ISBN-13: 978-4569704326
発売日: 2009/1/16
posted by unendedchaos at 22:38 | Comment(0) | TrackBack(0) | 日記 | このブログの読者になる | 更新情報をチェックする
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。