MITとIBM、AIが検出困難なシチュエーションの写真5万点をObjectNetに公開!

access_time create folderデジタル・IT

すでに、ヒトの識別能力を超えているコンピュータビジョンだが、特定条件下ではパフォーマンスが著しく低下するようだ。

こうしたコンピュータビジョンの盲点を指摘すべく、MITとIBMによる研究チームは、一風変わったシチュエーションばかりを集めた写真のデータベース「ObjectNet」を公開した。

ObjectNetでは、一般的にコンピュータビジョンのトレーニングに用いられるImageNetがカバーしきれていないデータ5万点を扱っている。

・主要モデルの認識精度が40~45%低下

ImageNetに挙がっているのが、FlickrなどのSNS投稿写真。つまり、共有しようとの気が起きない写真についてはトレーニングデータに使われていない可能性が高いわけだ。具体的には、あらぬ方向を向いていたり、雑多に紛れていたり、見切れていたりするオブジェクトの写真がこれにあたる。

実際、主要なオブジェクト検出モデルをObjectNetの写真でテストしたところ、40~45%の精度低下が見られたようだ。

現実世界ではオブジェクトはあらゆる角度で配置されている可能性があり、検出器がこうしたものを見逃すことで、自動運転などでは致命的な事態につながり得るだろう。

・トレーニングデータを増やしても精度向上はほとんどなし

ObjectNetのデータセットは、ImageNetのものと違いトレーニングデータとテストデータに分割されていない。通常、同じデータセットを用いてトレーニングとテストを行うとパフォーマンスは高く表れるが、ObjectNetのものではその影響はわずかだったという。

オブジェクトがあらゆる向きや視野角で存在することを検出器が理解するのはまだ困難で、たとえObjectNetのデータセットが膨大なものになっても認識精度向上につながるとは限らないとのこと。

つまりObjectNet公開の目的は、直接的なコンピュータビジョンの認識精度向上というより、さらなる技術開発を……ということになるかと思う。

参照元:This object-recognition dataset stumped the world’s best computer vision models/ MIT News

access_time create folderデジタル・IT
local_offer
Techable

Techable

ウェブサイト: https://techable.jp/

  • 誤字を発見した方はこちらからご連絡ください。
  • ガジェット通信編集部への情報提供はこちら
  • 記事内の筆者見解は明示のない限りガジェット通信を代表するものではありません。

スマホゲーム タラコたたき
ガジェ通制作ライブ
→ガジェ通制作生放送一覧