MITの研究グループがAIの推論プロセスを可視化！画像認識の精度が向上へ

2018/09/18 22:00 Techable

複数のレイヤーから構成されるニューラルネットワーク。その推論プロセスを追うことは不可能で、入力から出力までの間のブラックボックスをいかに可視化するかが課題となっている。

こうしたなか、MIT Lincoln Laboratoryの研究チームは、人間のような推論プロセスを経るニューラルネットワークを開発。「TbD-net」と名づけられたこのモデルは、推論プロセスを視覚化し、人間による解釈を可能にする。

問題あるプロセスを見つけて人間によりチューニングすることも可能な、この画期的な技術について見ていこう。

・人間と同じようなプロセスで推論する

子供がさまざまな図のなかから大きな赤い円を見つけるよう求められたときには、まず大きなものを探し、次に赤い大きなものを見つけ、最終的に大きな赤い円を選択…といった推論プロセスを経ている。MITによるTbD-netもまさにこれと同じことをする。

画像解釈に関する質問を受けると、AIが質問を解釈してサブタスクに分割。イメージの解釈には複数のコンピュータビジョンAIを使用する。

それぞれの解決に最適なモジュールを割り当て、工場の組立ラインのようにモジュールが構成して最終的な答えを出力する。

例えば、画像の中にある大きな金属のキューブはの色をたずねると、最初に大きなものを探すモジュール、次に金属を見分けるモジュール、色を識別するモジュール…の順に処理され最終的に答えとなる色を導き出すことがわかる。

タスク処理されているときには、「アテンションマスク」により画像内の処理部分にヒートマップを表示する。これにより、AIがどのように画像を解釈しているかを知ることができる。

もし、自動運転技術で用いられるAIが人と標識を誤認識していたら、推論プロセスのどこに問題があるのかを知り修正することが重要だろう。

ただ、推論プロセスが説明できるAIではどうしてもパフォーマンスが犠牲になっていた。対してTbD-netでは、パフォーマンスを落とさずして推論プロセスの可視化を達成している。

実験では、7万のトレーニング画像と70万の質問からなる質問応答データセットからモデルを作成。1万5000の画像と15万の質問のデータセットでテストした結果、認識精度98.7%と、他のニューラルネットワークと比較しても優れていた。

さらには、問題点の可視化を利用してモデルを洗練することにより、99.1%という認識精度をたたきだしたとのこと。

複雑な現実のタスクに取り組むにあたっては、人間がアルゴリズムを調整しながらシステムを構築していく必要がある。モデルが間違っているかが理解できる手法は必須となるだろう。

2018/09/18 22:00 Techable