2009年08月09日

Yahoo! キーワード入力補助機能

自然言語に関係するネタはこちらで書くことにしました。
どうぞよろしくお願いします。

さて、今日は偶然発見したことをメモしておきます。

Google SuggestとYahooのキーワード入力補助機能(Yahoo Suggestと呼んではダメ?)の比較調査を行うつもりでした。
調査内容はGoogle Suggestで一文字入れたら出てくる単語のリストと同様です。

情報収集している途中で、ある事実に気づきました。

Yahooのキーワード入力補助機能「う」と入力すると、次のような結果が出ます(2009/08/09現在)。

ウィキペディア
麗城あげは
占い
うたまっぷ
上地雄輔
ウェザーニュース
上戸彩
うみねこのなく頃に
ウィメンズパーク
腕時計

これはすべて「う」で始まる単語ですよね。
でもよく見たら、「上地雄輔」って「う」ではなく、「か」じゃないか!と。

Yahoo!デベロッパーネットワーク−テキスト解析−日本語形態素解析に従うと、次のような結果が出ます(2009/08/09現在)。

- <word_list>
- <word>
<surface>上地</surface>
<reading>うえち</reading>
<pos>名詞</pos>
</word>
- <word>
<surface>祐輔</surface>
<reading>ゆうすけ</reading>
<pos>名詞</pos>
</word>
</word_list>


形態素解析の読み情報から入力補助をしているのかなあと思っていました。
「上地雄輔」は「うえち」で変換しても、「うえじ」で変換しても、「上地」であることには変わりがないですからね。
# 「かみじ」では変換できなかった(ATOK 2008)

ちなみに「か」で検索しても「上地雄輔」は候補には現れませんでした(2009/08/09現在)。
「かみ」で検索しても出てきませんが、次のようにひらがなは出てきました(2009/08/09現在)。

髪型
上高地
神動画

神木隆之介
かみじゆうすけ
神谷浩史
雷情報



もうひとつ別の事例を見る。
「ひ」を入れてみると、次のような結果が出ます(2009/08/09現在)。

日立
広島
ひゃん
平野綾
平子理彩
ひまわり
日テレ
ヒョウビン
兵庫県
ひぐらしのなく頃に

「日テレ」が何故ここに?「ひてれ」で変換している人がいる(正確には「ひ/てれ」か)?
これも形態素解析をしてみました。するとこんな結果が……。

- <word_list>
- <word>
<surface>日テレ</surface>
<reading>にってれ</reading>
<pos>名詞</pos>
</word>
</word_list>

ちゃんと解析されている。どういうこと?

「に」だけでは「日テレ」の候補はできませんでしたが、「にって」では「日テレ」が出ました(2009/08/09現在)。

これはどういうこと?
仮説として読み(reading)の揺れがあるということかしら?古い形態素解析用の辞書の名残?

もしかして変換途中の情報も手に入れることができる?!
# の辺の技術的なことはわかりませんが。

こういう技術的な文書がないか探したのですが、見つかりませんでした。
今後の動向も気になるところです。

ちなみに比較調査の方は止めました(苦笑)。
# Yahooの方は毎日更新されている?ので比較はフェアではないかと
# Yahooが仕事熱心だということを褒めるべきですが

というような感じで備忘録を残していこうと思います。
どうぞよろしくお願いします。
タグ:検索
posted by unendedchaos at 15:31 | Comment(0) | TrackBack(0) | 言語処理 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

※ブログオーナーが承認したコメントのみ表示されます。
この記事へのトラックバックURL
http://blog.seesaa.jp/tb/125339827
※ブログオーナーが承認したトラックバックのみ表示されます。

この記事へのトラックバック
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。