3D 生成又补齐了一块重要拼图——物理属性!专业个人配资门户
南洋理工大学 - 商汤联合研究中心 S-Lab,及上海人工智能实验室合作提出了PhysXNet,号称首个系统性标注的物理基础 3D 数据集。
团队表示,3D 生成正从纯虚拟走向物理真实,但现有的 3D 生成方法主要侧重于几何结构与纹理信息,忽略了基于物理属性的建模。
为了填补当前包含物理属性 3D 数据集的关键空白,PhysXNet 应运而生。
该数据集包含超过26K带有丰富注释的 3D 物体,涵盖五个核心维度:物理尺度、材料、可供性、运动学信息、以及文本描述信息。
此外,团队还提出了 PhysXGen,一个面向真实物理世界的 3D 生成框架,以实现从图像到真实 3D 资产的生成。
下面具体来看。
当前研究大多忽视了物理属性
近年来,随着 3D 资产在游戏、机器人技术和具身模拟等领域的广泛应用,其多样性与高质量生成受到了越来越多的关注。
大量研究工作集中在外观与几何结构上:包括高质量的 3D 数据集(Objaverse、ShapeNet)、高效的 3D 表示方法以及生成模型等方面。
然而,这些研究大多仅关注结构特征,忽视了现实世界物体所固有的物理属性。
鉴于 3D 空间中对物理建模、理解与推理的需求不断增长,团队认为,从上游的数据标注流程到下游的生成建模,构建一个完整的基于物理的 3D 对象建模体系变得尤为重要。
考虑到除了几何和外观等纯粹的结构属性之外,现实世界中的物体还内在地具有丰富的物理和语义特性,包括:物理尺度、材料 (密度、杨氏模量、泊松比)、可供性、运动学(运动模式、运动方向、运动范围),以及文本描述(整体、功能、可供性信息)。
通过将这些基础属性与经典物理原理相结合,便可以推导出关键的动态指标,如重力效应、摩擦力、接触区域、运动轨迹与交互关系等。
基于以上分析,团队提出了首个全面的物理属性 3D 数据集PhysXNet ,包含超过 26K 带有丰富注释的 3D 物体。
除了在物体层级上的注释外,还对每个零部件进行了物理属性的标注。包括为所有部件提供了可供性排名以及运动学约束的详细参数,包括运动范围、运动方向、子部件和父部件等信息。
除此之外,团队还引入了扩展版本PhysXNet-XL,其中包含超过600 万个通过程序化生成并带有物理注释的 3D 对象。
进一步,团队提出了PhysXGen ——一个用于物理 3D 生成的前馈模型。
鉴于物理属性在空间上与几何结构和外观密切相关,团队利用预训练的 3D 先验,以生成具备物理属性的 3D 资产,从而实现高效训练并具备良好的泛化能力。
数据介绍
由于物理属性难以测量且标注极其耗时,导致现存相关数据集数据量难以扩展。
为解决此挑战,团队通过设计一个人在回路的标注流程以实现高效的物理信息采集标注。
通过与相关数据对比,团队提出的数据集是首个包含多种丰富物理属性的 3D 数据集,并且包括物体整体信息及各部分的物理信息。
标注流程
正如前文所述,在确定标注信息后,团队提出了人在回路的标注框架,分为两个明确的操作阶段:
初步数据采集
运动学参数确定
具体而言,团队利用 GPT-4o 获取基础信息,为了保证原始数据质量,将由人工审核员对视觉 - 语言模型(VLM)的输出结果进行检查。
而第二阶段细分为四个子任务:(2.a)接触区域计算、(2.b)平面拟合、(2.c)候选项生成与筛选、(2.d)运动学参数确定。
数据分布
PhysXNet 数据集包含超过 26K 个带物理属性的 3D 对象,图中展示了对象中部件数量的长尾分布,其中每个对象平均包含约 5 个组成部件。
此外,图(b)记录了对象的长、宽、高分布情况。
由于 PhysXNet 涵盖了从相对小型的室内物体到大型室外结构,物理尺寸在对象之间表现出显著差异。
关于 PhysXNet 中的运动学类型和材料,团队展示了详细的比例组成。
最后,团队还统计了 PhysXNet-XL 中程序化生成的 600 万个 3D 数据的类别,涵盖:a)类内组合及 b)跨类别组合。
生成方法介绍
为实现高效的包含物理属性的 3D 资产生成,团队基于预训练的 3D 表示空间,提出了 PhysXGen,一个新颖且简洁的框架,将物理属性与几何结构和外观相结合。
其方法通过在生成过程中同步融合基础物理属性,同时通过有针对性的微调优化结构分支,达到这一双重目标。
这种联合优化使得生成的 3D 资产在保持出色几何和外观逼真度的同时,实现了物理上的自洽性。
实验定性及定量分析
如表所示,团队从两个维度对模型进行了定量评估:1)几何结构与外观质量评估;2)物理属性评估。
需要说明的是,TRELLIS+PhysPre 是 Baseline,其采用独立结构来预测物理属性。
相比于这种分离式的物理属性预测器,PhysXGen 利用了物理属性与预定义 3D 结构空间之间的相关性,不仅在物理属性生成方面取得了显著提升,同时也增强了外观质量如图所示。
与现有方法对比
为了评估 PhysXGen 在生成具物理基础的 3D 资产方面的能力,团队与一个基于 GPT 的基线流程进行了全面的定性与定量比较。
该基线流程由 Trellis、PartField 和 GPT-4o 组成。
在该评估框架下,给定一张图像提示,Trellis 首先生成具备完整几何结构和外观纹理的 3D 网格。
随后,这些资产经由 PartField 进行细粒度的部件分割。
最后,GPT 模型对每个部件赋予材料参数和动态属性等物理属性。
在四个评估维度上:物理尺度、材料、运动学和可供性,PhysXGen 分别取得了24%、64%、28% 和 72%的相对性能提升,表现出显著优势。
一种端到端物理基础 3D 资产生成范式
本文旨在填补现有 3D 资产与真实世界之间的差距,提出了一种端到端的物理基础 3D 资产生成范式,包括首个具物理属性注释的 3D 数据集(PhysXNet、PhysXNet-XL)以及新颖的物理属性生成器(PhysXGen)。
具体而言,团队构建了一个人机协同的数据标注流程,可将现有 3D 资源库转化为具备物理信息的数据集。
与此同时,其提出的新型端到端生成框架 PhysXGen,能够将物理先验融入以结构为中心的架构中,从而实现稳健的 3D 生成效果。
通过在 PhysXNet 上的实验,团队揭示了物理 3D 生成任务中的关键挑战与未来方向。
完整视频介绍如下:
团队表示,该数据集将吸引来自嵌入式人工智能、机器人学以及 3D 视觉等多个研究领域的广泛关注。
本论文第一作者曹子昂,南洋理工大学博士二年级,研究方向是计算机视觉、3D AIGC 和具身智能。主要合作者为来自南洋理工大学的陈昭熹和来自上海人工智能实验室的潘亮,通讯作者为南洋理工大学刘子纬教授。
论文链接:
https://arxiv.org/abs/2507.12465
项目主页:
hthttps://physx-3d.github.io/
GitHub 代码:
https://github.com/ziangcao0312/PhysX-3D
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展每日见专业个人配资门户
升宏网提示:文章来自网络,不代表本站观点。