🎯 情报来源:Microsoft Research Blog – Microsoft Research
微软研究院在SIGGRAPH 2025发布的RenderFormer成为全球首个完全基于神经网络的3D渲染管线,该模型通过2.05亿参数实现了无需传统光线追踪或光栅化的全场景渲染。研究团队利用Objaverse数据集中80万+标注3D对象进行训练,在512×512分辨率下可处理高达4,096个三角面片,首次证明神经网络可独立完成包含全局光照的复杂3D场景渲染。
RenderFormer采用创新的三角Token表示法,将空间位置、法线向量及材质属性编码为统一表征,通过双分支Transformer架构分别处理视角无关特征(如漫反射)与视角相关特征(如镜面反射)。测试数据显示,模型能准确模拟阴影、间接光照等复杂光学现象,并支持连续视频帧生成。
💡 核心要点
- 首创全神经网络渲染管线,完全规避传统图形计算(光线追踪/光栅化)
- 支持任意3D场景输入,模型参数量达2.05亿,最高处理4,096三角面片
- 基于80万+Objaverse数据集训练,采用双阶段优化(256×256→512×512分辨率)
- 双分支Transformer设计:视角无关分支处理阴影/漫反射,视角相关分支处理镜面反射
- 开源模型已登陆GitHub,获SIGGRAPH 2025收录
📌 情报分析
技术价值:极高 – 首次实现端到端神经网络渲染,突破传统图形学方法依赖物理建模的限制,支持全局光照等高级效果(实验数据验证阴影/反射精度)
商业价值:高 – 可显著降低影视/游戏行业渲染成本(无需专用GPU硬件加速),但当前4,096面片上限限制工业级应用
趋势预测:高 – Transformer架构易于扩展,未来3-5年可能实现与传统渲染管线性能持平;与AIGC结合将催生实时动态场景生成新范式(已展示视频连续帧生成能力)