ガジェット通信 GetNews

見たことのないものを見に行こう

体験を伝える―『ガジェット通信』の考え方

面白いものを探しにいこう 本物を体験し体感しよう 会いたい人に会いに行こう 見たことのないものを見に行こう そしてそれをやわらかくみんなに伝えよう [→ガジェ通についてもっと詳しく] [→ガジェット通信フロアについて]

検索エンジンは妖怪“覚(さとり)”の夢を見るか【後編】

「情報の科学と技術」(情報科学技術協会)

※この原稿は「情報の科学と技術」Vol. 63 (2013) より許諾を得て転載させていただいております。執筆者はガジェット通信の関連企業「未来検索ブラジル」社で検索エンジン開発を行なっている森大二郎です。

「情報の科学と技術」(情報科学技術協会)
http://www.infosta.or.jp/journal/journal.html

検索エンジンの未来 -検索エンジンは妖怪“覚(さとり)”の夢を見るか-【後編】(森大二郎)

この記事は二回連載の後編です。前編はこちらです。
検索エンジンは妖怪“覚”の夢を見るか【前編】
https://getnews.jp/archives/287318 [リンク]

3.検索エンジンの可能性と限界

前章にも述べたように、検索エンジンが目標としているのは、ユーザの情報要求を最も良く満たす情報を、可能な限り高速に提供することであるが、これを実現する上で最も難しいのは、ユーザーの情報要求を正確に把握し、これに最も良く一致する情報を見つけ出すこと、すなわち高精度な検索を実現することである。本章では、検索エンジンがこれまでいかにして高精度化を実現してきたかを概観し、次にこれらの手法の問題点や限界について考察する。

1) 検索対象文書データの解析
高精度な検索を実現するためには、ユーザが入力したクエリが意図する情報要求と、全ての検索対象文書の内容の両方を、人間のような深いレベルで理解した上で、最適な情報を選び出せれば理想的なように思われるが、人間と同じレベルでの言語理解は、人工知能のテーマの中でも最も困難(AI完全)なものの一つとされており、限定的な用途でしか成果を上げていない。

そこで、初期のWWW検索エンジンにおいては、本来文書が持っている統語構造を陽に扱うことは一旦あきらめ、文書および検索クエリを、単語やN-gram などの単位に分解し、これを要素とするベクトルとして扱うモデルを用いた。文書に対応するベクトルは、元の文書を実体とするなら、それに光を当てた時にできる影のようなものであり、元の文書の情報の一部しか表していない。しかし本来複雑な構造を持つ文書を単純な数理モデルで表すことにより、ベクトル間の余弦や内積を求めることで容易に類似度を計算できる。また、索引語の局所的・大域的な出現頻度など、自然言語の性質をよく反映した統計量を用いて,文書の主題によく適合する語を抜き出すこともできる*7。

*7:北研二・津田和彦・獅々堀正幹著「情報検索アルゴリズム」共立出版、2002

さらに、索引語・文書行列を、特異値分解や、潜在変数を確率・統計的に解くなどして、低次元の行列の積に分解すれば、類義語や多義語などの概念や類型的なトピックを抽出し、これに基づく検索が行えるようになる。潜在意味解析と呼ばれるこの技術を使えば、「ファゴット」と「バスーン」に強い関連があることや、「クッキー」「チョコレート」「砂糖」「蜂蜜」「プリン」などの言葉が何らかの概念を共有していることを、何の予備知識も教師データも与えずに、文書集合だけを材料として処理するだけで浮かび上がらせることができる。

こうした手法を用いて検索エンジンは、実用的な検索精度を実現することができた。

2) 文書間のリンクデータの解析
ところが、WWW が広く普及し、検索エンジン経由で自サイトにトラフィックを呼び込もうとするコンテンツ提供者が増えると状況は急速に変化した。これらの文書提供者は、文書内における索引語の出現頻度を調整することによって、検索エンジンの表示順を恣意的に操作できることに気づいた。元来、索引語の局所的な出現頻度が文書の主題を反映するという経験則は、その文書が主題の伝達を純粋な目的として書かれることを前提としていたので、作為的な適合スコアの操作に対しては脆弱であった。文書ベクトルは、元の文書の情報の一部分のみを表す影のようなものでしかないと述べたが、ひとたびそのアルゴリズムが知られるようになれば、コンテンツ提供者は自サイトの文書の内容を操作することによって、たやすくその裏をかくことができるようになった。

多くのトラフィックを集めればコンテンツ提供者は利益を得られるが、歪められたスコアに導かれてサイトを訪れた検索エンジンユーザは損失を被ることになり、検索エンジンサービス全体の価値も低下してしまう。これは「コモンズの悲劇」で有名な、進化ゲーム理論における社会的ジレンマ状況であり、WWWのように不特定のプレイヤーが関わる状況では、コンテンツ提供者が自発的にこの均衡を抜け出すのは難しい*8。検索エンジンは、恣意的なスコアの操作に要するコストを高くして、強いナッシュ均衡を崩さなければならない。

*8:大浦宏邦著「社会科学者のための進化ゲーム理論基礎から応用まで」勁草書房、2008

この問題を最初に解決したのは、WWWページ間のリンク情報を解析することによってページの格付けを行うPageRank*9アルゴリズムを実装したGoogleであった。 PageRankは、WWWページ間のリンクをランダムに伝ってページ遷移を無限に繰り返した時の、各ページへの遷移確率と等価である。コンテンツ提供者が自サイトのPageRank値を操作するのは、自サイトの文書の内容を操作するのに比べて遙かに高いコストを必要とする。こうして均衡は崩され、検索エンジンの検索精度は向上した。ただし、これによって恣意的なスコア操作と検索エンジンとの闘争が終結したわけではない。スコア操作によって得られる経済的な利益の変動、新たなスコア操作方法の出現などによって状況は常に変化しており、今なお両者は絶えることなく水面下で戦い続けている。

*9:Page L.「Method for node ranking in a linked database」US Patent: 6285999, 2001

3) ユーザ属性および行動履歴データの解析
検索精度を高める上でもう一つの課題は、ユーザの情報要求を把握することの難しさである。検索対象となる文書の規模や種類が拡大の一途を辿っているのに対して、ユーザから与えられる情報は、入力フォームを通して与えられる、1つから2つ程度の語句に過ぎない。その語句を通して何をユーザが求めているのか一意には特定できない場合にどう対処したらよいのだろうか。クエリを入力する段階で、もっと詳細な条件を指定可能にしたらどうだろうか。あるいは、複数の解釈が可能なクエリに対しては、それぞれの正解の候補を表示するようにしては? 残念だがどちらも得策ではない。ユーザは検索サービスの利用に際して、作業コストが増えるのを徹底的に嫌う傾向が強い。ユーザは最小の手間で最適な結果を得ることを要求し、それ以外の手段が用意されていても、敢えて面倒な方法を選択することはまずない。

1 2 3次のページ
森大二郎の記事一覧をみる

記者:

プログラマ。有限会社未来検索ブラジル所属。オープンソースソフトウエアの開発に従事。参加作品「全文検索エンジンSenna  http://qwik.jp/senna/」「全文検索エンジンgroonga  http://groonga.org/」

ウェブサイト: http://groonga.org/

  • 誤字を発見した方はこちらからご連絡ください。
  • ガジェット通信編集部への情報提供はこちらから
  • 記事内の筆者見解は明示のない限りガジェット通信を代表するものではありません。