体験を伝える―『ガジェット通信』の考え方

面白いものを探しにいこう 本物を体験し体感しよう 会いたい人に会いに行こう 見たことのないものを見に行こう そしてそれをやわらかくみんなに伝えよう [→ガジェ通についてもっと詳しく] [→ガジェット通信フロアについて]

検索エンジンは妖怪“覚(さとり)”の夢を見るか【後編】

「情報の科学と技術」(情報科学技術協会)

※この原稿は「情報の科学と技術」Vol. 63 (2013) より許諾を得て転載させていただいております。執筆者はガジェット通信の関連企業「未来検索ブラジル」社で検索エンジン開発を行なっている森大二郎です。

「情報の科学と技術」(情報科学技術協会)
http://www.infosta.or.jp/journal/journal.html

検索エンジンの未来 -検索エンジンは妖怪“覚(さとり)”の夢を見るか-【後編】(森大二郎)

この記事は二回連載の後編です。前編はこちらです。
検索エンジンは妖怪“覚”の夢を見るか【前編】
http://getnews.jp/archives/287318 [リンク]

3.検索エンジンの可能性と限界

前章にも述べたように、検索エンジンが目標としているのは、ユーザの情報要求を最も良く満たす情報を、可能な限り高速に提供することであるが、これを実現する上で最も難しいのは、ユーザーの情報要求を正確に把握し、これに最も良く一致する情報を見つけ出すこと、すなわち高精度な検索を実現することである。本章では、検索エンジンがこれまでいかにして高精度化を実現してきたかを概観し、次にこれらの手法の問題点や限界について考察する。

1) 検索対象文書データの解析
高精度な検索を実現するためには、ユーザが入力したクエリが意図する情報要求と、全ての検索対象文書の内容の両方を、人間のような深いレベルで理解した上で、最適な情報を選び出せれば理想的なように思われるが、人間と同じレベルでの言語理解は、人工知能のテーマの中でも最も困難(AI完全)なものの一つとされており、限定的な用途でしか成果を上げていない。

そこで、初期のWWW検索エンジンにおいては、本来文書が持っている統語構造を陽に扱うことは一旦あきらめ、文書および検索クエリを、単語やN-gram などの単位に分解し、これを要素とするベクトルとして扱うモデルを用いた。文書に対応するベクトルは、元の文書を実体とするなら、それに光を当てた時にできる影のようなものであり、元の文書の情報の一部しか表していない。しかし本来複雑な構造を持つ文書を単純な数理モデルで表すことにより、ベクトル間の余弦や内積を求めることで容易に類似度を計算できる。また、索引語の局所的・大域的な出現頻度など、自然言語の性質をよく反映した統計量を用いて,文書の主題によく適合する語を抜き出すこともできる*7。

*7:北研二・津田和彦・獅々堀正幹著「情報検索アルゴリズム」共立出版、2002

さらに、索引語・文書行列を、特異値分解や、潜在変数を確率・統計的に解くなどして、低次元の行列の積に分解すれば、類義語や多義語などの概念や類型的なトピックを抽出し、これに基づく検索が行えるようになる。潜在意味解析と呼ばれるこの技術を使えば、「ファゴット」と「バスーン」に強い関連があることや、「クッキー」「チョコレート」「砂糖」「蜂蜜」「プリン」などの言葉が何らかの概念を共有していることを、何の予備知識も教師データも与えずに、文書集合だけを材料として処理するだけで浮かび上がらせることができる。

こうした手法を用いて検索エンジンは、実用的な検索精度を実現することができた。

2) 文書間のリンクデータの解析
ところが、WWW が広く普及し、検索エンジン経由で自サイトにトラフィックを呼び込もうとするコンテンツ提供者が増えると状況は急速に変化した。これらの文書提供者は、文書内における索引語の出現頻度を調整することによって、検索エンジンの表示順を恣意的に操作できることに気づいた。元来、索引語の局所的な出現頻度が文書の主題を反映するという経験則は、その文書が主題の伝達を純粋な目的として書かれることを前提としていたので、作為的な適合スコアの操作に対しては脆弱であった。文書ベクトルは、元の文書の情報の一部分のみを表す影のようなものでしかないと述べたが、ひとたびそのアルゴリズムが知られるようになれば、コンテンツ提供者は自サイトの文書の内容を操作することによって、たやすくその裏をかくことができるようになった。

1 2 3 4 5次のページ
森大二郎の記事一覧をみる

記者:

プログラマ。有限会社未来検索ブラジル所属。オープンソースソフトウエアの開発に従事。参加作品「全文検索エンジンSenna  http://qwik.jp/senna/」「全文検索エンジンgroonga  http://groonga.org/」

ウェブサイト: http://groonga.org/

  • 誤字を発見した方はこちらからご連絡ください。
  • ガジェット通信編集部への情報提供はこちらから
  • 記事内の筆者見解は明示のない限りガジェット通信を代表するものではありません。