ガジェット通信

見たことのないものを見に行こう

検索エンジンは妖怪“覚(さとり)”の夢を見るか【後編】

DATE: BY:
  • ガジェット通信を≫

※この原稿は「情報の科学と技術」Vol. 63 (2013) より許諾を得て転載させていただいております。執筆者はガジェット通信の関連企業「未来検索ブラジル」社で検索エンジン開発を行なっている森大二郎です。

「情報の科学と技術」(情報科学技術協会)
http://www.infosta.or.jp/journal/journal.html

検索エンジンの未来 -検索エンジンは妖怪“覚(さとり)”の夢を見るか-【後編】(森大二郎)

この記事は二回連載の後編です。前編はこちらです。
検索エンジンは妖怪“覚”の夢を見るか【前編】
http://getnews.jp/archives/287318 [リンク]

3.検索エンジンの可能性と限界

前章にも述べたように、検索エンジンが目標としているのは、ユーザの情報要求を最も良く満たす情報を、可能な限り高速に提供することであるが、これを実現する上で最も難しいのは、ユーザーの情報要求を正確に把握し、これに最も良く一致する情報を見つけ出すこと、すなわち高精度な検索を実現することである。本章では、検索エンジンがこれまでいかにして高精度化を実現してきたかを概観し、次にこれらの手法の問題点や限界について考察する。

1) 検索対象文書データの解析
高精度な検索を実現するためには、ユーザが入力したクエリが意図する情報要求と、全ての検索対象文書の内容の両方を、人間のような深いレベルで理解した上で、最適な情報を選び出せれば理想的なように思われるが、人間と同じレベルでの言語理解は、人工知能のテーマの中でも最も困難(AI完全)なものの一つとされており、限定的な用途でしか成果を上げていない。

そこで、初期のWWW検索エンジンにおいては、本来文書が持っている統語構造を陽に扱うことは一旦あきらめ、文書および検索クエリを、単語やN-gram などの単位に分解し、これを要素とするベクトルとして扱うモデルを用いた。文書に対応するベクトルは、元の文書を実体とするなら、それに光を当てた時にできる影のようなものであり、元の文書の情報の一部しか表していない。しかし本来複雑な構造を持つ文書を単純な数理モデルで表すことにより、ベクトル間の余弦や内積を求めることで容易に類似度を計算できる。また、索引語の局所的・大域的な出現頻度など、自然言語の性質をよく反映した統計量を用いて,文書の主題によく適合する語を抜き出すこともできる*7。

*7:北研二・津田和彦・獅々堀正幹著「情報検索アルゴリズム」共立出版、2002

さらに、索引語・文書行列を、特異値分解や、潜在変数を確率・統計的に解くなどして、低次元の行列の積に分解すれば、類義語や多義語などの概念や類型的なトピックを抽出し、これに基づく検索が行えるようになる。潜在意味解析と呼ばれるこの技術を使えば、「ファゴット」と「バスーン」に強い関連があることや、「クッキー」「チョコレート」「砂糖」「蜂蜜」「プリン」などの言葉が何らかの概念を共有していることを、何の予備知識も教師データも与えずに、文書集合だけを材料として処理するだけで浮かび上がらせることができる。

こうした手法を用いて検索エンジンは、実用的な検索精度を実現することができた。

2) 文書間のリンクデータの解析
ところが、WWW が広く普及し、検索エンジン経由で自サイトにトラフィックを呼び込もうとするコンテンツ提供者が増えると状況は急速に変化した。これらの文書提供者は、文書内における索引語の出現頻度を調整することによって、検索エンジンの表示順を恣意的に操作できることに気づいた。元来、索引語の局所的な出現頻度が文書の主題を反映するという経験則は、その文書が主題の伝達を純粋な目的として書かれることを前提としていたので、作為的な適合スコアの操作に対しては脆弱であった。文書ベクトルは、元の文書の情報の一部分のみを表す影のようなものでしかないと述べたが、ひとたびそのアルゴリズムが知られるようになれば、コンテンツ提供者は自サイトの文書の内容を操作することによって、たやすくその裏をかくことができるようになった。

多くのトラフィックを集めればコンテンツ提供者は利益を得られるが、歪められたスコアに導かれてサイトを訪れた検索エンジンユーザは損失を被ることになり、検索エンジンサービス全体の価値も低下してしまう。これは「コモンズの悲劇」で有名な、進化ゲーム理論における社会的ジレンマ状況であり、WWWのように不特定のプレイヤーが関わる状況では、コンテンツ提供者が自発的にこの均衡を抜け出すのは難しい*8。検索エンジンは、恣意的なスコアの操作に要するコストを高くして、強いナッシュ均衡を崩さなければならない。

*8:大浦宏邦著「社会科学者のための進化ゲーム理論基礎から応用まで」勁草書房、2008

この問題を最初に解決したのは、WWWページ間のリンク情報を解析することによってページの格付けを行うPageRank*9アルゴリズムを実装したGoogleであった。 PageRankは、WWWページ間のリンクをランダムに伝ってページ遷移を無限に繰り返した時の、各ページへの遷移確率と等価である。コンテンツ提供者が自サイトのPageRank値を操作するのは、自サイトの文書の内容を操作するのに比べて遙かに高いコストを必要とする。こうして均衡は崩され、検索エンジンの検索精度は向上した。ただし、これによって恣意的なスコア操作と検索エンジンとの闘争が終結したわけではない。スコア操作によって得られる経済的な利益の変動、新たなスコア操作方法の出現などによって状況は常に変化しており、今なお両者は絶えることなく水面下で戦い続けている。

*9:Page L.「Method for node ranking in a linked database」US Patent: 6285999, 2001

3) ユーザ属性および行動履歴データの解析
検索精度を高める上でもう一つの課題は、ユーザの情報要求を把握することの難しさである。検索対象となる文書の規模や種類が拡大の一途を辿っているのに対して、ユーザから与えられる情報は、入力フォームを通して与えられる、1つから2つ程度の語句に過ぎない。その語句を通して何をユーザが求めているのか一意には特定できない場合にどう対処したらよいのだろうか。クエリを入力する段階で、もっと詳細な条件を指定可能にしたらどうだろうか。あるいは、複数の解釈が可能なクエリに対しては、それぞれの正解の候補を表示するようにしては? 残念だがどちらも得策ではない。ユーザは検索サービスの利用に際して、作業コストが増えるのを徹底的に嫌う傾向が強い。ユーザは最小の手間で最適な結果を得ることを要求し、それ以外の手段が用意されていても、敢えて面倒な方法を選択することはまずない。

残された手段は、ユーザが明示的に渡すクエリ以外の、様々な付帯情報を最大限活用するという方法である。ユーザは、検索フォームに入力する文字列以外にも、様々な手がかりを知らず知らずのうちに与えている。使用しているOS、ブラウザ、言語、アクセスしている場所と時間、さらにCookieを有効にしていれば、過去にどんなキーワードで検索し、どの検索結果をクリックし、そのページにどれだけの時間滞留したかなどの行動履歴も取得できる。こうした情報は、ユーザの情報要求を推定するきわめて有力な手がかりを与える。大量のユーザの行動履歴データが利用できるならば、前述の潜在意味解析の原理によって、ユーザの行動や嗜好を類型化することが可能になる。協調フィルタリング*10と呼ばれるこの手法を用いれば、ユーザが検索エンジンに入力するクエリが僅かな文字列であっても、ユーザの情報要求の傾向に合わせて検索結果にフィルタリングを施し、高い精度でユーザを満足させる結果を提供できるようになる。

*10:神嶌敏弘「推薦システムのアルゴリズム」人工知能学会誌、2007-2008,vol.22,no.6~vol.23,no.2

4) 統計的手法の可能性と限界
以上のように、これまで検索精度に関わる様々な課題に対しては、いずれも大量のデータを確率・統計的に解析する手法が有効に機能してきた。解析するデータの種類を、文書の内容、文書間のリンク関係、ユーザの行動履歴と広げることによって、より高精度な検索が行えるようになっている。では、この方法を推し進めていけば、どこまでも検索精度を高められるのだろうか?

1 章で予想したように、多くのユーザが情報端末を常に身につけ、いつでも検索エンジンを利用するようになれば、実生活で用いられる言語情報を、そのコンテクストとなる映像や音声などの環境データと合わせて解析できるようになるかも知れない。そうなれば、これまで記号として扱うしかなかった個々の言葉を、現実世界のパターンと対応づけて扱うことが可能になり *11、検索精度の向上にも大きく寄与すると考えられる。統計的手法が検索エンジンの精度向上を推し進める余地はまだまだ広く残されていると見て良いだろう。

*11:持橋大地「統計的自然言語処理と機械学習・統計学の未来」人工知能学会誌、2012,vol.27,no.3,284-287

しかし、これまでに得られた成果を注意深く見てみると、頻度が高い平凡なクエリについては著しい精度向上が見られる一方で、僅かなサンプルしか得られない低頻度のクエリについては、最初期の検索エンジンと比べて必ずしも大きな進歩が見られない傾向がある。

実際に検索エンジンによせられるクエリの大部分は、高頻度の平凡なクエリであるから、平均値としての検索精度は確かに向上しているのだが、ロングテールの裾野を占めている、非常に種類の多い雑多な低頻度のクエリをどう扱えばよいだろうか。多様なクエリは、自然言語の生成性の産物であるとも言える。頻度は少なくとも,新たな発想や発見につながる貴重な問いかけを含んでいるかも知れないのだ。この点は、統計的手法だけでは解決が困難な問題として長く残るであろう*12。

*12:辻井潤一「合理主義と経験主義のはざまで:内的な処理の計算モデル」人工知能学会誌、2012,vol.27,no.3,273-283

5) 検索結果の偏向
前述の協調フィルタリング技術は、最小の入力コストで最適な検索結果を得たいというユーザの要求を満たす上で重要な役割を果たしている。しかし一方で、ユーザの嗜好に適応した結果として、そのユーザが得ることのできる情報に偏りが生じ、多様な情報に出会う機会を阻害してしまうという問題が起こりうる。しかも、情報フィルターは、ユーザがあずかり知らないうちに、自動的に作られ,暗黙のうちに適用されてしまうため、ユーザは自分が検索エンジンを通して目にする情報がどれだけ偏向しているのか気づきにくい。

TwitterやFacebookのように、ユーザ自身が能動的に構築した人的ネットワークをフィルターとして活用すればこの問題は解消されるだろうか? 検索エンジンがデータ解析によって自動的に算出するフィルターとは異なり、これならばユーザーが自身の裁量によって偏りのない情報を得ることが可能になりそうに思われる。

しかし、人的ネットワークを通じた情報流通にも懸念がないわけではない。Everett M. Rogers は、新たな情報が人的ネットワークを介して広がっていくメカニズムについて詳細に検証している*13。その知見によれば、人間は、自分と同じような考えや嗜好を持つ人を好み、こうした人々と積極的にネットワークを築こうとする性質 homophily(同類性)を持っているが、一人一人の人間は多様な側面を持っているため、ネットワークの中には自分とは異なる要素heterophily(異類性)が自然に含まれるのが普通であるという。heterophilyは、ユーザの作るネットワークを相互に接続する役割を担っており、新しい革新的な情報は主にheterophiyを通して伝達するという。

*13:エベレット・ロジャーズ著、三藤利雄訳「イノベーションの普及」翔泳社、2007

ところが、ソーシャルネットワークサービス上では、完全に自分の好みによって自由に人的ネットワークを構築できるため、現実世界の人的ネットワークよりも均質な、heterophilyの少ないネットワークを築く傾向がある。また、ThomasSchellingは、人的ネットワークを構築する際に、自分の好みを優先する閾値をわずかに変えるだけで、ネットワーク全体の構造が劇的に変化することを示した*14。 これは、ごくささいな動機による行動の差異がネットワークの極端な分裂をもたらす結果に繋がることを意味している。

*14:Thomas C. Schelling 著「Micromotives and Macrobehavior」Norton, W. W. & Company, Inc. 1978

このように、ユーザ自身が能動的に人的ネットワークと情報フィルターを構築できたとしても、なお、得られる情報には偏りが生じる可能性がある。検索エンジンが算出するフィルターに現れる偏向も、ある意味でhomophilyを求めるユーザの心理を、素直に反映した結果に過ぎない。

以上、これまで検索エンジンが辿ってきた高精度化の手法と、その課題について概観してきた。検索エンジンの精度はこれからも向上する余地があると思われるが、その精度向上は類型化によって得られているものであることに注意する必要がある。検索エンジンを便利に利用しつつも、無批判に検索結果を受け入れるのではなく、能動的な姿勢を失わないことが重要だと考えられる。

4.おわりに

2010年9月、現Google会長のEric Schmidtは、Googleが目指す自律検索技術について「いつかGoogleは、検索クエリを何も投入しなくても人々が知りたいことを知らせるようになるだろう」と語っている*15。

*15:「Google CEO Envisions a ‘Serendipity Engine’」2010年9月29日『THE WALL STREET JOURNAL』
http://online.wsj.com/article/SB10001424052748703882404575520390567286252.html

Googleの目指す未来社会では、ユーザはもはや情報要求を検索エンジンに投入する必要すらなくなるという。これは、前章で述べたフィルタリング技術の延長線上にあり、ユーザ満足度の高い情報を検索エンジンが自律的に提供し続けることは不可能ではないだろう。ところで、このビジョンは、日本人にはなじみの深い、各地の民話に登場する覚(さとり)の妖怪を連想させないだろうか。

覚は、人間が心に思うことを見通す力を持つ妖怪で、漁師や樵が山小屋で火を焚いている時などにあらわれる。人間が何か言おうとすると、それを口にする前に次々に言い当ててしまう。考えようとする端から心を読まれていると、やがて人間は何も考えることができなくなってしまう。こうして人間の心が空虚になると、覚はこれを取って食うという。

心を読まれ、次々に欲しい情報を差し出されたら、ユーザの精神はどのような影響を受けるのだろうか。

Schmidtはこの新しいエンジンをSerendipity Engineと呼んでいる。serendipity(セレンディピティ)は、翻訳するのが難しい単語として知られているが、1)思いがけない幸運、2)想定外の事象から思わぬ発見をする能力、のいずれかを指す場合が多いようだ。些細な違いのようだが、幸運を得る者の態度が「受動的」か「能動的」かという点で実は両者は対照的である。Googleの考えるserendipityは、どちらかと言えばユーザを受動的にするだろう。「幸運な事象」を探し出すのは検索エンジンの強大な計算パワーであり、ユーザはただ受動的に差し出される情報を消費すればよいのだから。

serendipityの元々の語義がどちらであるかはこの際重要ではないが、偉大な発見を成し遂げた科学者の心的状態を表す時に、この語がよく引き合いに出されるのは確かである。我々は、Louis Pasteurの言葉から、より多くのことを学べるのではないだろうか。

“Dans les champs de l’observation le hasard ne favorise que les esprits préparés.”(観察の分野では、幸運は準備のできた精神にのみ訪れる。)

少なくとも、ただ受動的に幸運を待ち続ける者は、偉大な発見を成し遂げたりはしないのだ。

ところで、ソクラテスが書物の普及に強く反対していたのは既に述べたが、書物のどんな点に対して危機感を抱いていたのだろうか。書物に頼るようにことによって記憶力が衰えるというのもその一つだが、もう一つ危惧していたのは、知識を伝えるための理想的な形態が阻害されてしまうということだった。ソクラテスは、情報を伝える時に、ただ一方的に自説を述べるのではなく、相手に問いかけて思考を促し、何を知り、何を知らないのか自覚させるという過程を踏まえるのが、相手を深い理解に導く最善の方法だと考えていたのだ。

ソクラテスの手法は意外な場所で受け継がれている。19世紀後半にアメリカを中心に起こった近代図書館運動を契機に、図書館において人的レファレンスサービスが広く提供されるようになり、ユーザの情報要求に対して最善の情報を返すための技術が研究されはじめた。百年に及ぶ経験の蓄積を経て確立された技法は、ユーザとの対話に主眼を置くものであり、「ユーザは必ずしも自身の情報要求を正確に理解していない」との認識が出発点となっている*16。そのため、ユーザから質問を受けると、即座に回答を提示するのではなく、まずは動機や背景を問いかけて思考を促し、情報要求を少しずつ明確化することによって、真に求めていた情報との出会いを手助けする。思考を促し、能動的な態度を引き出すことで、初めて最善な情報との出会いをもたらせるという思想はソクラテスの手法と通じている。

*16:長沢 雅男著「レファレンスサービス-図書館における情報サービス」丸善、1995

ソクラテスがその普及に強く反発していた書物をまさに司る図書館という施設で、彼が最善と考えていた対話技法が受け継がれることになったのは、「皮肉」と言う以上の示唆を含んでいるように思われる。画期的なテクノロジーが人々のコミュニケーションのあり方を変えたとしても、人が最善の情報を得るための理想的なプロセスは、そう簡単には変わらないのかも知れない。

近い将来、検索エンジンはユーザがその情報要求を言葉にするかしないかのうちに、ユーザを「満足」させる情報を常に一瞬で提供する世界を作り出すだろう。非常に多くの局面でユーザに利益をもたらし、支持を得るだろう。だが、検索エンジンも、それを利用するユーザ自身も、その情報要求を常に深く理解しているわけではないことを忘れるべきではない。

図書館司書出身の情報学者で、「情報要求」という用語を生み出したRobert S. Taylorの言葉は、先のEric Schmidtの言葉と比べてきわめて対照的だが、ユーザの情報要求の奥深さに対する真摯な姿勢を伺わせる。こうした姿勢は、新たな時代にどのように受け継がれるのだろうか。

“We are dealing here of course with a very subtle problem –how one person tries to find out what another person wants to know, when the latter cannot describe his need precisely.”(我々はきわめて微妙な問題を相手にしている。――ある人が知りたがっていることを、他人である我々がどうやって見つけ出せるのか。その人が欲しいものをきちんと言い表すことができない段階で*17)。

*17:Taylor R. S.「Question-Negotiation and Information Seeking in Libraries」 College & Research Libraries, 1968,pp. 178-194

関連リンク

「情報の科学と技術」(情報科学技術協会)
http://www.infosta.or.jp/journal/journal.html

未来検索ブラジル
http://razil.jp/

全文検索エンジン「groonga」
http://groonga.org/

全文検索エンジン「Senna」
http://qwik.jp/senna/

森大二郎の記事一覧をみる ▶

記者:

プログラマ。有限会社未来検索ブラジル所属。オープンソースソフトウエアの開発に従事。参加作品「全文検索エンジンSenna  http://qwik.jp/senna/」「全文検索エンジンgroonga  http://groonga.org/」

ウェブサイト: http://groonga.org/

  • 誤字を発見した方はこちらからご連絡ください。
  • ガジェット通信編集部への情報提供はこちらから
  • 記事内の筆者見解は明示のない限りガジェット通信を代表するものではありません。

TOP