Googleが数枚の画像から3Dモデルを作る新技術！見えない角度からの視点はAIが創造

2018/06/18 18:00 Techable

Googleの親会社、Alphabet傘下のDeepMindが数枚の画像をもとに、3Dモデルを作成する技術を開発した。

Generative Query Network（GQN）と呼ばれるこの技術のどこがすごいかというと、これまで膨大なラベル付けされた画像が必要だった学習プロセスを、たった数枚の画像でやってのけてしまうことだ。

ラベル付けすら必要ないため、人間の介入最小限で3Dモデルが作成できるという。

・オブジェクトの見えてない角度の画像も

GQNでは、別々の角度から撮影した数枚の画像から、オブジェクトの実際には見えていない角度からの視点を創造する。

たとえば、バーチャル空間の5つの角度から撮られた画像をもとに、空間全体の3Dモデルを再現。AIカメラは空間内を自由に動き回り、あらゆる位置から撮影できるようになる。

膨大なデータセットを必要としないディープラーニングのアプローチとしては、2つのネットワークの競合により学習を進めるGenerative Adversarial Network（GAN）が有名で、オブジェクトの判別や画像編集に革命をもたらした。

GQNの登場は、汎用的な3Dモデルの制作手法として、ディープラーニングの進化をさらに進めるものだろう。

もちろん、GQNはまだ生まれたばかりの技術で、実用には程遠い。

現在生成できるのは、円柱や立方体などを組み合わせた単純なオブジェクトのみで、現実世界の複雑な形のオブジェクトについては、3Dモデルは生成できない。

たとえば、後頭部の写真から顔の画像を生成するのは難しいだろう。

将来的には、深度センサーなしでの周囲の状況把握や、工場などで活用され部品製造の精度向上に役立てられる可能性がある。

また、専門家や人手を削減したこの新しい手法が、他の分野に応用されることも考えられ、ディープラーニングの簡易化による活用促進に期待したい。

2018/06/18 18:00 Techable