文章入力で3Dモデルが生成される!?『Stable-Dreamfusion』とは。
こんにちは!
システムズナカシマのインターン生、中嶋です。
ただ今、テクノロジーについて勉強中。こちらのブログでは、学んだことをシェアしています。
今回は『Stable-Dreamfusion』について。
一言で言えば、「テキストをもとに、3Dオブジェクトが生成されるA I(人工知能)システム」らしいのですが…。
まず、その背景には、2022年頃から盛り上がりを見せている、「テキストをもとに、2D画像が生成されるA I(人工知能)システム」があります。
2022年5月にGoogle Brainは、テキストから2D画像を生成するText-To-Imageモデル『Imagen(イマジェン)』をリリースしました(現時点で「Imagen」は非公開で、一般利用はできません)。
また、同年8月にミュンヘン大学のCompVisグループが公開した『Stable Diffusion(ステーブル・ディフュージョン)』も、テキスト入力に基づく2D画像生成のA Iです。
『Stable Diffusion』の実力を見てみましょう。
こちらは、「a photo of a british shorthair cat wearing a sunglasses and black leather jacket playing a guitar on top of a mountain」と入力して作成された画像です。
ちゃんと、要求通りのファンキーな猫に仕上がっています。
このように、画像生成AIにより、誰もが簡単に高品質な画像を生み出せるようになったわけですが、その流れが、すごい勢いで3Dへと広がっているのです!
2022年9月末には、Google Researchとカリフォルニア大学バークレー校の研究者たちによって、テキストから3Dモデルの作成(Text-To-3Dモデル)を実現する『DreamFusion』についての論文が発表されました。
翌月10月初旬には、この『DreamFusion』の論文をベースに、ashawkey氏によってText-To-3Dモデル技術が公開されました。これが、『Stable Dreamfusion』です。
たとえば、こちらは「a gummy jellyfish」とテキスト入力して作成された3D画像です。
3D生成されたオブジェクトは、違う角度から見たり、動かしたりすることも可能。
「DreamFusion」を使えば、私のようにクリエイティブなセンスがなくても、360度どこから見ても理想通りのオブジェクトを生み出すことができるということですね。
形が少し“いびつ”になってしまうなど、改善の余地はありますが、これまでの進展の速さを考えると、今後の進化に期待できそうです。