2009年08月10日

Baiduの採用情報

昨日の検索エンジン調査をしている途中、他の検索エンジンはどうかなっといろいろ眺めていたのですが、Baidu(百度)の人材募集に興味深い記述がありました。

以下、「プロダクトマーケティング【エディタ】」の採用情報から引用して、一言メモを残します。

「ネコ」「猫」「ねこ」…同じ「猫」ですが、この字は同じ意味でも使い分けられていると知っていましたか?

社会通念に依存しているところがありますね。確かに使い分けられていると思います。

私たちは、この違いに興味をもち追求してどのような特徴があるのかを分析して、検索結果のクオリティー向上を目指していきます。

ええ?!そんなことできるんですか?

たとえば、「ネコ」と検索する人は、学術的なページに興味がある、「ねこ」と検索する人は親しみある個人のページを探している…など、お客様が入力したキーワードとそのニーズを的確に捉えて「お客様は何が欲しいのか」を追求していく仕事です。

お客様情報というのはどこから仕入れるのでしょう?IPアドレス?大学などから検索した場合は、学術的なニーズと考える?ユーザー登録がしないと「お客様=ユーザ」情報ってわからないのでは?あとどんな情報が欲しいかなんてわかるのですか?

コトバに興味があり、日本語の感性を磨きたい人、日本人が無意識のうちに使い分けている言葉の深層心理に興味がある人は、とても興味深い仕事になると思います。

私にぴったりな職では?早速転職の準備を(笑)。

応募はさておき、Baiduは正直使ったことなかったのですが、このような試みがなされているのでしたら、ちょっと使ってみようかなと思いました。言語処理やってる方は言語学にべったりという姿勢を取らない方が多いので、このメッセージは意外な気がしました。
# ひょっとして他の企業もこのような考えを持っている?

すこし話題がずれますが、ユーザの視点からこんな検索ができたらいいなあと思います。

  1. 異表記をすべて代表表記に置き換えた検索結果を返してほしい

  2. 意味を考慮した検索結果を返してほしい


最初の要望ですが、異表記はどれか一つに統一してくれと心の中で呟くことも間々あります。別の形で検索したら望んだ検索結果が出たということがあったので(自分が無知だっただけですが)。代表表記が標準になるのはちょっと面倒なのでオプション機能としてあると嬉しいかもしれません。

もう一つの要望ですが、意味を考慮にいれた検索エンジンは次世代のエンジンです。ブログなり記事を書く人が意味情報をタグ付けしないと現実的には難しいとは思いますが。もっと現実的に言うと、いちいちタグ付けなんかやってられないですよね。ネット上のあらゆる記事に意味情報を付与するのは人手では不可能ですからね。

ここで意味情報お具体例を挙げます。「ネコ」を広辞苑(第五版)で調べると、次のような記述があります。

  1. 広くはネコ目(食肉類)ネコ科の哺乳類のうち小形のものの総称。体はしなやかで、鞘に引きこむことのできる爪、ざらざらした舌、鋭い感覚のひげ、足うらの肉球などが特徴。一般には家畜のネコをいう。エジプト時代から鼠害対策としてリビアネコ(ヨーロッパヤマネコ)を飼育、家畜化したとされ、当時神聖視された。現在では愛玩用。在来種の和ネコは、奈良時代に中国から渡来したとされる。古称、ねこま。枕草子9「―を御ふところに入れさせ給ひて」

  2. ア)(猫の皮を胴張りに用いるからいう) 三味線の異称。イ)(三味線を使うところから) 芸妓の異称。

  3. 猫火鉢(ねこひばち)の略。

  4. 猫車(ねこぐるま)の略。

  5. ふいごの内側についていて、空気の出る孔をふさぐ革。〈日葡〉

と、5つも意味がありますが、表層からは区別が付きません(たいていは1の意味でしょうけど)。

もしブログを書くに当たって、○○はこの意味で、××はこっちの意味でと、各自で意味情報タグが付与できたとしたら、共通の辞書が必要になりますね。この共通の辞書を作成するだけでもかなり大変なのですが(この意味は必要、必要じゃないと揉めると思います)。
# 多くの人はそんな面倒なことしなさそうですが(笑)

当面、複数キーワード検索で探し出すしかないかなと。意味情報付与はコーパスに任せるしかないかな(自動付与は完全には無理ですよね)。
10年後、20年後、検索エンジン業界がどのように発展しているかとても興味深いですね。
# あまり変わっていないかもしれませんが……

タグ:検索
posted by unendedchaos at 21:43 | Comment(0) | TrackBack(0) | 言語処理 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

※ブログオーナーが承認したコメントのみ表示されます。

この記事へのトラックバック
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。