どうぞよろしくお願いします。
さて、今日は偶然発見したことをメモしておきます。
Google SuggestとYahooのキーワード入力補助機能(Yahoo Suggestと呼んではダメ?)の比較調査を行うつもりでした。
調査内容はGoogle Suggestで一文字入れたら出てくる単語のリストと同様です。
情報収集している途中で、ある事実に気づきました。
Yahooのキーワード入力補助機能「う」と入力すると、次のような結果が出ます(2009/08/09現在)。
ウィキペディア
麗城あげは
占い
うたまっぷ
上地雄輔
ウェザーニュース
上戸彩
うみねこのなく頃に
ウィメンズパーク
腕時計
これはすべて「う」で始まる単語ですよね。
でもよく見たら、「上地雄輔」って「う」ではなく、「か」じゃないか!と。
Yahoo!デベロッパーネットワーク−テキスト解析−日本語形態素解析に従うと、次のような結果が出ます(2009/08/09現在)。
- <word_list>
- <word>
<surface>上地</surface>
<reading>うえち</reading>
<pos>名詞</pos>
</word>
- <word>
<surface>祐輔</surface>
<reading>ゆうすけ</reading>
<pos>名詞</pos>
</word>
</word_list>
形態素解析の読み情報から入力補助をしているのかなあと思っていました。
「上地雄輔」は「うえち」で変換しても、「うえじ」で変換しても、「上地」であることには変わりがないですからね。
# 「かみじ」では変換できなかった(ATOK 2008)
ちなみに「か」で検索しても「上地雄輔」は候補には現れませんでした(2009/08/09現在)。
「かみ」で検索しても出てきませんが、次のようにひらがなは出てきました(2009/08/09現在)。
髪型
上高地
神動画
雷
神木隆之介
かみじゆうすけ
神谷浩史
雷情報
神
髪
もうひとつ別の事例を見る。
「ひ」を入れてみると、次のような結果が出ます(2009/08/09現在)。
日立
広島
ひゃん
平野綾
平子理彩
ひまわり
日テレ
ヒョウビン
兵庫県
ひぐらしのなく頃に
「日テレ」が何故ここに?「ひてれ」で変換している人がいる(正確には「ひ/てれ」か)?
これも形態素解析をしてみました。するとこんな結果が……。
- <word_list>
- <word>
<surface>日テレ</surface>
<reading>にってれ</reading>
<pos>名詞</pos>
</word>
</word_list>
ちゃんと解析されている。どういうこと?
「に」だけでは「日テレ」の候補はできませんでしたが、「にって」では「日テレ」が出ました(2009/08/09現在)。
これはどういうこと?
仮説として読み(reading)の揺れがあるということかしら?古い形態素解析用の辞書の名残?
もしかして変換途中の情報も手に入れることができる?!
# の辺の技術的なことはわかりませんが。
こういう技術的な文書がないか探したのですが、見つかりませんでした。
今後の動向も気になるところです。
ちなみに比較調査の方は止めました(苦笑)。
# Yahooの方は毎日更新されている?ので比較はフェアではないかと
# Yahooが仕事熱心だということを褒めるべきですが
というような感じで備忘録を残していこうと思います。
どうぞよろしくお願いします。
タグ:検索