2013年06月30日

機械翻訳を学ぶに当たって参考になる資料

先日書いた「機械翻訳文献リスト」では書籍情報を取り扱いましたが、本日はインターネット上で「機械翻訳を学ぶに当たって参考になる資料」を探しました。ここに挙げたもの以外でも有益な論文はたくさんありましたが、まずはここから知識を吸収したいと思います(参考文献の書き方がやや適当になってしまったが、参考になるサイトがわかれば良しとする)。



この中で「統計的機械翻訳の現場」に書かれている「Frederick Jelinek 先生の有名な言葉「言語学者を解雇する度に、音声認識器の性能が向上する」という話がとても興味深いと思います。

Frederick Jelinek 先生の有名な言葉「言語学者を解雇する度に、音声認識器の性能が向上する」∗1に代表されるように、音声認識の研究開発の歴史において言語学的な知見の貢献が極めて低かったことがわかる。
――「統計的機械翻訳の現場」


この話は私の耳にも入っていたのですが、出典がわかりませんでした。“Frederick Jelinek 1932 – 2010 : The Pioneer of Speech Recognition Technology”という論文らしいので、読んでみます。

言語学者排除といっても、研究目的が違うので、ガッカリする必要はないのかもしれませんが、言語学畑としては皮肉な話ですね(苦笑)。基本的に異なる研究分野の場合は郷に入っては郷に従えのような気がしますが、学際的な研究は難しいのかなと思いつつ、言語処理の方にももう少し首を突っ込んでみます。

多くの方が勧めているStatistical Machine TranslationのKindle版を購入しました。数学の素養はほとんどないといってもいいので、理解するのに時間がかかりそうです……。

Statistical Machine Translation(ハードカバー)
Statistical Machine Translation(Kindle)
Statistical Machine Translation [ハードカバー] / Philipp Koehn (著); Cambridge University Press (刊)

ハードカバー: 446ページ
出版社: Cambridge University Press; 1版 (2009/12/17)
言語 英語, 英語, 英語
ISBN-10: 0521874157
ISBN-13: 978-0521874151
発売日: 2009/12/17
タグ:翻訳
posted by unendedchaos at 11:45 | Comment(0) | TrackBack(0) | 言語処理 | このブログの読者になる | 更新情報をチェックする

2013年06月23日

ストップウォッチ

1分で大切なことを伝える技術 (PHP新書)』という本に次のように書かれていたので、ストップウォッチを購入しました。

ストップウォッチを使えば、仕事は確実に速くなる。目の前で時間の経過がわかると、事前と使い方の密度が濃くなる。問題を解くスピードも上がる。いわゆる「百ます計算」はその典型だ。時間を計るからこそモチベーションが上がり、時間を短縮する会館を核とした学習回路が仕上がるのである。


さらに齋藤先生はこんなことも話されています。

勉強やビジネスは、基本的には効率を追求するものである。だから逆に言えば,そういう場でストップウォッチを机の上に出していないこと自体、むしろ私には信じがたい。あらゆる企業の全社員が、ストップウォッチの常時活用を常識化させてほしいとさえ思っている。


私も長々と話してしまうことがあるので,ストップウォッチで時間感覚を磨きましょうか.

1分で大切なことを伝える技術 (PHP新書)1分で大切なことを伝える技術 (PHP新書) [新書] / 齋藤 孝 (著); PHP研究所 (刊)

新書: 209ページ
出版社: PHP研究所 (2009/1/16)
ISBN-10: 4569704328
ISBN-13: 978-4569704326
発売日: 2009/1/16
posted by unendedchaos at 22:38 | Comment(0) | TrackBack(0) | 日記 | このブログの読者になる | 更新情報をチェックする

2013年06月21日

機械翻訳文献リスト

機械翻訳についてざっくり知りたいと思い、手元にある文献を片っ端から読む予定です(正確には再読となるのですが、記憶に残っていないな……)。機械翻訳は応用研究なので、言語学畑の自分にとってはさっぱりな所もあるのですが、専門外の立場から熟読したい。



最近のトレンドは統計的機械翻訳とのことですね。上記のリストには入れていないが、『言語と情報科学 (シリーズ朝倉「言語の可能性」)』にはこんなことが書かれていました。

コーパスが大規模であれば言語モデルの性能も上がるのは自然な結論であり,実際,Google翻訳では,5-gramまでの言語モデルを用いて,統計的機械翻訳の精度を大きく改善させたという報告がある.


ここで言われている「Googleの報告」のソースは確認していないが、質のいい対訳コーパスがあれば、さらに精度は向上しそうですね。ですが、言語学畑の自分としてはルールベース機械翻訳も捨てがたい……。機械翻訳では扱いにくいものを対象を切り口にしてみようかな。

「翻訳学」をテーマとして、機械翻訳について何かしらアウトプットしたいところです。

言語と情報科学 (シリーズ朝倉「言語の可能性」)
言語と情報科学 (シリーズ朝倉「言語の可能性」) [単行本] / 中島平三 (監修); 松本裕治 (編集); 朝倉書店 (刊)

単行本: 216ページ
出版社: 朝倉書店 (2011/7/11)
言語 日本語
ISBN-10: 4254515669
ISBN-13: 978-4254515664
発売日: 2011/7/11
タグ:翻訳
posted by unendedchaos at 21:56 | Comment(0) | TrackBack(0) | 言語処理 | このブログの読者になる | 更新情報をチェックする
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。