2013年07月14日

特許文書の機械翻訳を学ぶに当たって参考になるサイト

機械翻訳について調査しています。参考までにこれまでの調査ブログを挙げておきます。

1) 「機械翻訳を学ぶに当たって参考になる資料」(2013年06月30日
2) 「機械翻訳文献リスト」(2013年06月21日

今回は第3弾「特許文書の機械翻訳を学ぶに当たって参考になるサイト」(2013年7月14日)です。「特許文書における機械翻訳」について調べてみました。

特許文書における機械翻訳の資料については、特許庁日本特許情報機構Japio)、NTCIRに非常に有益なレポートや論文があります。それぞれ参考になるサイトを挙げていきます。

まずは、特許庁からです。「特許審査関連情報の機械翻訳による英語提供に対する精度評価に係る調査」には、株式会社クロスランゲージ機械翻訳ソフト評価についても記述があります(私もこの社の機械翻訳ソフトは所有していますが、特許用機械翻訳ソフトは所有していません……。優待で安く買えないかな(笑))。特許文書の課題には、用語や構文(文法構造)があり、言語学観点から分析したいと考えていますが、週末研究者レベルだと時間がなくて挫折気味です(苦笑)。

特許出願に係る書類等の機械翻訳に関する調査研究報告書について (2011.3.17)
http://www.jpo.go.jp/cgi/link.cgi?url=/shiryou/toushin/chousa/tokkyo_kikai_honyaku.htm

特許庁は、高度産業財産ネットワーク(AIPN)を通じて、海外特許庁に対し、サーチ及び審査結果に関する情報を機械翻訳により英語で提供しています。海外特許庁において、我が国のサーチ及び審査結果が参照されることにより、審査に係る負担軽減、国際的なワークシェアリングへの寄与、審査の質の向上、ひいては我が国出願人の海外における迅速かつ適切な権利取得につながることが期待されます。

一方、明細書等の特許出願に係る書類や審査関連書類等(以下、「特許関連文書」という)は、特許に特有な専門用語や技術用語が多用されるとともに、文法構造が複雑な文や長文が用いられることも多く、特に中国語については機械翻訳の難易度が比較的高いという課題があります。そのため、特許関連文書について、適切な機械翻訳を行うためには、これらの文書に用いられる用語や構文の特徴等の特性・傾向を調査・分析し、その特性・傾向を考慮したうえで、機械翻訳精度の向上策を講ずる必要があります。

以上の観点から、特許庁では、今般、「特許審査関連情報の機械翻訳による英語提供に対する精度評価に係る調査」および「日本語特許出願書類の中国語への機械翻訳に関する調査」について、報告書にまとめましたので、お知らせいたします。


続いて、日本特許情報機構Japio)です。「翻訳に関する研究・開発」と「日本語処理に関する研究・開発」に着目します。前者の「翻訳に関する研究・開発」には、「AAMT/Japio特許翻訳研究会」のことが、後者の「日本語処理に関する研究・開発」には、産業日本語のこことが記述されています。

研究・開発実績|特許申請・出願サービスのJapio
http://www.japio.or.jp/kenkyu/kenkyu01.html

特許文献翻訳の精度向上と効率化のため、専門用語辞書構築と機械翻訳支援システムに関する実用化へ向けての研究・開発を行っています。

また、特許翻訳のさらなる精度向上を目指して、アジア太平洋機械翻訳協会(AAMT)の中に 「AAMT/Japio特許翻訳研究会」 を立ち上げ、機械翻訳精度向上、多言語辞書構築および翻訳結果の評価などの観点で機械翻訳技術の研究を推進しています


AAMT/Japio特許翻訳研究会」には、報告書やシンポジウム資料が公開されています(ありがたや)。

AAMT-Japio特許翻訳研究会 Research Field
http://www.aamtjapio.com/research-field.html

産業日本語とは、「人とコンピュータの双方にとって理解しやすい標準的な日本語」とのことです。

特許版・産業日本語
http://japio-tjp.org/

産業日本語研究会
http://www.tech-jpn.jp/xoops/html/

日本語処理に関する研究・開発の一環として、機械翻訳等のコンピュータ処理の対象となる日本語文章の記載に着目し、特許文書等の産業界に流通する産業技術文書の記述に適した「人とコンピュータの双方にとって理解しやすい標準的な日本語(産業日本語)」の策定とその普及に関する調査・研究を行っています。


最後に、国立情報学研究所NII)が主催するNTCIRについてです。NTCIRは複数のタスクがありますが、この中で特許翻訳に関するタスクがあります。それがPatentMTです。

Patent Machine Translation Task at NTCIR
http://ntcir.nii.ac.jp/PatentMT/

カンファレンスが2度開かれましたが、資料も公開されています(ありがたや)。現時点(2013年7月14日に時点)で公開されている資料では最先端な研究ではないでしょうか。

NTCIR-9 Table of Contents
http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings9/NTCIR/toc_ntcir.html#PATENTMT

NTCIR-10 Table of Contents
http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings10/NTCIR/toc_ntcir.html#PATENTMT

以上、ネットで入手できる資料について備忘録を残しておきます。上記の資料を参考にしつつ、『特許情報処理:言語処理的アプローチ (自然言語処理シリーズ)』の「特許翻訳」を読みますか。ここに書いてある情報を自分の言葉でまとめることができたら、相当知識が身につくので、なんとかチャレンジしたいところですね。


特許情報処理:言語処理的アプローチ (自然言語処理シリーズ)
特許情報処理:言語処理的アプローチ (自然言語処理シリーズ) [単行本] / 奥村 学 (監修); コロナ社 (刊)

単行本: 226ページ
出版社: コロナ社 (2012/12)
ISBN-10: 4339027553
ISBN-13: 978-4339027556
発売日: 2012/12
タグ:翻訳
posted by unendedchaos at 10:34 | Comment(0) | TrackBack(0) | 言語処理 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

※ブログオーナーが承認したコメントのみ表示されます。
この記事へのトラックバックURL
http://blog.seesaa.jp/tb/369212622
※ブログオーナーが承認したトラックバックのみ表示されます。

この記事へのトラックバック
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。