• バナー

OpenAI ポイント E: 単一の GPU で複雑な波形から 3D 点群を数分で作成

OpenAI 研究チームは、新しい記事「Point-E: 複雑な信号から 3D 点群を生成するシステム」で、拡散モデルを使用して複雑なテキストによって駆動される多様で複雑な 3D 形状を作成する 3D 点群テキスト条件付き合成システムである Point E を紹介しています。合図。単一の GPU で数分で完了します。
今日の最先端の画像生成モデルの驚くべきパフォーマンスは、3D テキスト オブジェクトの生成の研究を刺激しています。ただし、数分、場合によっては数秒で出力を生成できる 2D モデルとは異なり、オブジェクト生成モデルは通常、単一のサンプルを生成するのに数時間の GPU 作業を必要とします。
OpenAI 研究チームは、新しい記事「Point-E: 複雑な信号から 3D 点群を生成するシステム」の中で、3D 点群用のテキスト条件付き合成システムである Point・E を紹介しています。この新しいアプローチでは、伝播モデルを使用して、単一の GPU でわずか 1 ~ 2 分で複雑なテキスト信号から多様で複雑な 3D 形状を作成します。
チームはテキストを 3D に変換するという課題に焦点を当てています。これは、仮想現実やゲームから工業デザインに至るまで、現実世界のアプリケーションの 3D コンテンツ作成を民主化するために重要です。テキストを 3D に変換する既存の方法は 2 つのカテゴリに分類され、それぞれに欠点があります。1) 生成モデルを使用してサンプルを効率的に生成できますが、多様で複雑なテキスト信号に効率的に拡張することはできません。2) 複雑で多様なテキスト キューを処理するための事前トレーニング済みテキスト画像モデル。ただし、このアプローチは計算量が多く、モデルは意味のある、または一貫した 3D オブジェクトに対応しない極小値に簡単に陥る可能性があります。
したがって、チームは、大規模なテキストと画像のペアでトレーニングされたテキストから画像への拡散モデル (多様で複雑な信号を処理できるようにする) を使用して、上記 2 つのアプローチの長所を結合することを目的とした代替アプローチを検討しました。より小規模なテキストと画像のペアでトレーニングされた 3D 画像拡散モデル。画像と 3D のペア データセット。テキストから画像へのモデルはまず入力画像をサンプリングして単一の合成表現を作成し、画像から 3D モデルは選択された画像に基づいて 3D 点群を作成します。
このコマンドの生成スタックは、テキストから条件付きで画像を生成するための最近提案された生成フレームワークに基づいています (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020)。彼らは、レンダリングされた 3D モデルで微調整された 30 億の GLIDE パラメータを備えた GLIDE モデル (Nichol et al., 2021) をテキストから画像への変換モデルとして使用し、RGB 点群を生成する一連の拡散モデルを使用しています。変形モデル。イメージからイメージへ。3D モデル。
これまでの研究では 3D アーキテクチャを使用して点群を処理していましたが、研究者らは効率を向上させるために単純なトランスデューサーベースのモデル (Vaswani et al., 2017) を使用しました。拡散モデル アーキテクチャでは、まず点群画像が事前トレーニングされた ViT-L/14 CLIP モデルに入力され、次に出力メッシュがマーカーとしてコンバーターに入力されます。
実証研究では、チームは、COCO オブジェクト検出、セグメンテーション、および署名データセットからの信号のスコアリングに関して、提案された Point・E 手法を他の生成 3D モデルと比較しました。その結果、Point・E が複雑なテキスト信号から多様で複雑な 3D 形状を生成し、推論時間を 1 ~ 2 桁高速化できることが確認されました。チームは、彼らの研究が 3D テキスト合成のさらなる研究に刺激を与えることを期待しています。
事前トレーニングされた点群伝播モデルと評価コードは、プロジェクトの GitHub で入手できます。ドキュメント ポイント E: 複雑な手がかりから 3D 点群を作成するシステムが arXiv にあります。
私たちは、ニュースや科学的発見を見逃したくないことを理解しています。人気の Synced Global AI Weekly ニュースレターを購読して、AI の最新情報を毎週受け取ります。


投稿日時: 2022 年 12 月 28 日