Nvidia的AI 研究人员开发了一种方法,通过使用超快速神经网络训练和快速渲染,几乎可以立即将少量 2D 图像转换为 3D 场景。
该过程被称为逆向渲染,利用AI来近似光线在现实世界中的表现,从而将以不同角度拍摄的 2D 图像转换为 3D 场景。
Nvidia 的研究人员将他们的新方法应用于一种流行的新技术,称为神经辐射场或简称 NeRF。该公司称之为 Instant NeRF 的结果是迄今为止最快的 NeRF 技术,在某些情况下它的速度超过 1,000 倍。所使用的神经模型只需要几秒钟就可以对几十张静态照片进行训练,尽管它还需要有关拍摄它们的相机角度的数据。
Nvidia 图形研究副总裁 David Luebke 在一篇博文中提供了 NeRF 和 Instant NeRF 之间差异的进一步见解,他说:
“如果像多边形网格这样的传统 3D 表示类似于矢量图像,那么 NeRF 就像位图图像:它们密集地捕捉光从物体或场景中辐射的方式。从这个意义上说,Instant NeRF 对 3D 的重要性可能不亚于数码相机和 JPEG 压缩对 2D 摄影的重要性——极大地提高了 3D 捕获和共享的速度、易用性和范围。”
潜在用例
通过使用神经网络,NeRFs 能够基于 2D 图像的输入集合来渲染逼真的 3D 场景。然而,最有趣的部分是用于创建它们的神经网络如何能够填充 2D 图像之间的空白,即使其中的物体或人被障碍物阻挡。
通常,使用传统方法创建 3D 场景可能需要几个小时到几个小时,具体取决于可视化的复杂性和分辨率。不过,通过将 AI 引入图片,即使是早期的 NeRF 模型也能够在经过几个小时的训练后,在几分钟内渲染出没有伪影的清晰场景。
Nvidia 的 Instant NeRF 能够使用该公司开发的一种称为多分辨率哈希网格编码的技术将所需的渲染时间减少几个数量级,该技术已经过优化,可在Nvidia GPU上高效运行。该公司在GTC 2022上展示的模型使用 Nvidia CUDA 工具包和 Tiny CUDA 神经网络库,可以在单个 Nvidia GPU 上进行训练和运行,尽管具有Nvidia Tensor Cores的显卡可以更快地处理工作。
展望未来,Instant NeRF 技术可用于快速创建虚拟世界的化身或场景,以 3D 形式捕捉视频会议参与者及其环境,或为 3D 数字地图重建场景。或者,该技术还可以用于训练机器人和自动驾驶汽车,以便它们通过捕获它们的 2D 图像或视频片段来更好地了解现实世界物体的大小和形状。同时,建筑和娱乐行业可以使用 Instant NeRF 快速生成真实环境的数字表示,创作者可以在此基础上进行修改和构建。
Nvidia 的研究人员还在探索如何使用他们的新输入编码技术来加速各种 AI 挑战,例如强化学习、语言翻译和通用深度学习算法。