发布日期:2026-01-18 05:17 点击次数:189


制作 VR、电影和工程想象等所需的传神 3D 模子时常是一个繁琐的经过开云(中国)kaiyun网页版登录入口,需要大宗的手动尝试与调遣。
尽管生成式 AI 图像模子不错通过文本教导生成传神的 2D 图像,从而简化艺术创作经过,但这些模子并不适用于生成 3D 局势。为了惩处这一问题,商议东谈主员最近诞生出名为“Score Distillation”的时间,欺诈 2D 图像生成模子来创建 3D 局势,但生成的死心相通隐晦或带有过度的卡通作风。
MIT 的商议东谈主员深刻探索了生成 2D 图像与 3D 局势的算法之间的关系与相反,找出了 3D 模子质料较低的根蒂原因。基于此,他们对 Score Distillation 进行了浮浅的修订,使其无意生成愈加明晰、高质料的 3D 局势,这些局势的质料更接近于面前最好的模子生成 2D 图像水平。

(开始:MIT News)
如上图,这些示例展示了两个不同的 3D 旋转物体:一个机器蜜蜂和一颗草莓。商议东谈主员通过基于文本的生成式东谈主工智能和他们的新时间生成了这些 3D 物体。
一些其他行径试图通过再行磨练或微调生成式东谈主工智能模子来惩处这个问题,但这些行径时常代价高亢且耗时。
比拟之下,MIT 诞生的时间无需稀奇磨练或复杂的后处理,就能生成质料尽头或优于这些行径的 3D 模子。
此外,通过找到问题的根蒂原因,商议东谈主员栽种了对 Score Distillation 及关系时间的数学默契,为将来进一步栽种性能打下了基础。
“面前咱们知谈了恼恨的标的,这使咱们无意找到更高效、更快速且质料更高的惩处决策。”该时间关系论文的第一作家、电子工程与辩论机科学商议生 Artem Lukoianov 说谈,“从长期来看,咱们的商议不错匡助将这如故过窜改为想象师的扶植用具,让创建愈加的确的 3D 局势变得更浮浅。”
Lukoianov 的结合者包括牛津大学商议生 Haitz Sáez de Ocáriz Borde、MIT-IBM Watson AI Lab 商议科学家 Kristjan Greenewald、丰田商议院科学家 Vitor Campagnolo Guizilini、Meta 商议科学家 Timur Bagautdinov,以及两位资深作家:MIT 电子工程与辩论机科学助理教导、辩论机科学与东谈主工智能试验室(CSAIL)场景暗示小组讲求东谈主 Vincent Sitzmann,以及 CSAIL 几何数据处理小组讲求东谈主、电子工程与辩论机科学副教导 Justin Solomon。该商议将在NeurIPS上发表。

从 2D 图像到 3D 局势
扩散模子(如 DALL-E)是一种生成式 AI 模子,不错从就地噪声中生成传神的图像。为了磨练这些模子,商议东谈主员向图像中添加噪声,然后教模子逆向处理以去除噪声。模子欺诈这一学习到的“去噪”经过,笔据用户的文本教导生成图像。
然则,扩散模子在径直生成的确的 3D 局势时阐扬欠安,因为可用于磨练的 3D 数据不及。为了惩处这一问题,商议东谈主员在 2022 年诞生了一种名为 Score Distillation Sampling (SDS) 的时间,欺诈预磨练的扩散模子将多个 2D 图像结合成 3D 暗示。
该时间从一个就地的 3D 暗示脱手,先从就地相机角度渲染出所需物体的 2D 视图,再向该图像添加噪声,然后使用扩散模子去噪,并优化开动的 3D 暗示,使其更接近去噪后的图像。商议东谈主员类似这如故过,直到生成主张 3D 物体。
然则,通过这种形状生成的 3D 局势相通显得隐晦或样貌过迷漫。
“这一瓶颈问题已经存在了一段时辰。咱们知谈底层模子自己无意阐扬得更好,但东谈主们一直不解白为什么在处理 3D 局势时会出现这种问题。”MIT 商议生 Artem Lukoianov 剖析注解谈。
MIT 商议东谈主员深刻商议了 SDS 的每一模式,并发现了一个要道公式与 2D 扩散模子的对应部分存在不匹配。这个公式决定了模子奈何通过一步步添加和去除噪声,更新就地暗示,使其更接近主张图像。
由于公式的一部分触及一个复杂的方程,难以高效求解,SDS 用每一步就地采样的噪声代替了该方程。但 MIT 商议东谈主员发现,恰是这种就地噪声导致了隐晦或卡通化的 3D 局势。

玄机的近似解法
商议东谈主员莫得尝试精准求解这一复杂公式,而是测试了多种近似时间,最终找到了最好决策。他们的行径并非就地采样噪声项,而是通过刻下 3D 局势的渲染死心算计出缺失的噪声项。
“通过这么作念,正如论文中的分析所展望的那样,咱们无意生成明晰、传神的 3D 局势。”Lukoianov 剖析注解谈。
此外,商议东谈主员还提高了图像渲染的离别率,并调遣了一些模子参数,进一步栽种了 3D 局势的质料。
最终,他们欺诈现成的预磨练图像扩散模子,无需崇高的再行磨练,就能创建平滑且传神的 3D 局势。生成的 3D 物体在明晰度上与依赖特定惩处决策的其他行径尽头。
“若是仅仅盲目地调遣不同参数,有时灵验,有时无效,但你不知谈原因地点。而面前,咱们明确了需要惩处的方程,这让咱们不错想考更高效的求解形状。”Lukoianov 说谈。
由于他们的行径依赖于预磨练的扩散模子,这一模子的偏差和不及也被继承了下来,因此可能会出现幻觉表象或其他失误。修订底层扩散模子将进一步栽种这如故过的恶果。
除了商议奈何更高效地惩处这一公式,商议东谈主员还但愿探索这些倡导奈何修订图像裁剪时间。
Artem Lukoianov 的商议得到了丰田–CSAIL 有计划商议中心的资助。Vincent Sitzmann 的商议赢得了好意思国国度科学基金会、新加坡国防科学与时间局、好意思国内务部以及 IBM 的守旧。Justin Solomon 的商议部分由好意思国陆军商议办公室、国度科学基金会、CSAIL 将来数据名堂、MIT–IBM Watson AI 试验室、纬创集团以及丰田–CSAIL 有计划商议中心资助。
https://news.mit.edu/2024/creating-realistic-3d-shapes-using-generative-ai-1204