Google創設者の来日に関する記事を読んでいたら、@ITの記事で「あれ?」と思う箇所を見つけた。
また、2バイト言語に対応した新商品の開発についても、「2バイト言語の検索には(言語、文化などに応じて検索結果を変更する)セグメンテーションに問題がある」と述べ、日本での開発成果を中国語、韓国語などほかの2バイトの言語 に拡大する考えを示した。検索ボックスに入力されたキーワードを認識し、誤っていると考えられる場合に正しいキーワードを示す機能についても「取り組んでいく」とした。
この「セグメンテーション」(Segmentation)は、たしか同時通訳の方もそのまま「セグメンテーション」と訳されていたので分かりにくかったのは確かだが、「文節化」という意味である。日本語、中国語、韓国語は、単語と単語の間にスペースが入らないので、検索エンジンがある程度意味を理解して、文節を区切ってやる必要がある。英語やフランス語などは、単語と単語の間にすでにスペースがあるので、検索エンジンに文節を区切る機能を持たせる必要はない。
また、「誤っていると考えられる場合に正しいキーワードを示す機能」とあるのは、「スペルチェック」機能のことだと思うが、会見では「取り組んで行く」ではなく、「日本語のスペルチェク機能をリリースしたばかり」と言っていた。現在、スペルチェック機能は「もしかして」という形で日本語版の検索ページにも表示されている。たとえば、「フイルム」と検索すると「もしかして:フィルム」と表示される。この機能に関しては、まだまだ手を加えている段階だそうだ。
Posted by hiroko at October 27, 2004 02:24 PM | TrackBack追加事項:
「Google Print」や「Google Catalog」の日本語版リリースは、日本語のOCR機能がネックになり遅れているそうだ。日本語OCRは、自社開発ではなく既存の技術を含めて探しているが、Googleが求めるレベルの技術が現段階では存在しないのが実情。
独自開発をする可能性もないとは言えないが、もし自社開発をする場合、開発場所は東京R&Dに限らず、マウンテンビューの本社かもしれないし、NY、スイス、インドかもしれないとのこと。
わたしも「セグメンテーション」と聞いて、「あぁ」と思いました。日本だと「形態素解析」という言い方が一般的かと思いますが、その昔G社に日本語の形態素解析における問題について説明したところ、「えーとつまりSegmentationの問題だね」と理解されたと記憶しています。ちょっと違うけど。当時のG社は日本語だけじゃなく多くの2バイト言語を扱えるとある形態素解析エンジンを使っていたと記憶していますが現在はどうなんでしょう....ちなみにhirokoさん、大活躍のあの薄型デジカメは望遠付き?
Posted by: あかざわ at October 28, 2004 05:15 PMその とある 形態素解析エンジン とは NT○の技術ですか?
みたいに書けば、日本語も分かりやすくなるのかなと、ふと思いました。
先日、容子さんとお茶したのですが、あかざわさんが私のデジカメのことを話していたと聞きました。もちろん、あれで撮った写真は記事用ではないですよー。記事用にはちゃんとサイバーショットを使ってます。(それもダメ?)
Posted by: hiroko at October 28, 2004 09:58 PM