 Deeper Scene Graph For Robots/Pasted_image_20250328103811.png)
(Roadmap) Deeper Scene Graph For Robots
针对的问题(任务场景)
Robotic planning and execution in open-world environments is a complex problem due to the vast state spaces and high variability of task embodiment.
例如针对家用场景:
- OVMM Challenge: https://aihabitat.org/challenge/2023_homerobot_ovmm/
想要在这样复杂场景中执行 general, long-horizon, embodied tasks 需要生成一系列离散的动作,这些动作在都拥有累计和传播错误的可能。因此需要创建一个可行的计划并在该计划出现问题时恢复,需要对物理环境进行有效的抽象以及能够完全利用该抽象的planner。应对这些挑战需要整合自然语言理解,多粒度的场景抽象和理解以及有弹性的推理。
目前粗粒度(object-level)的场景抽象(场景图构建)已经有许多工作了,详见[[Reconstruct-Anything Literature Review]],在这些工作中,重点都在于object detection和 object-level visual relationship detection
需要聚焦的部分是多粒度的场景抽象
需要多粒度的原因:
- Scalability: 如果只有一个粒度,那么输入LLM的场景图token不可控,影响扩展性
- 想要和物体进行更复杂的交互(相较于抓取),需要明确物体各个part的位置,语义性质,和父物体的parent-child relationship。这就要求场景图的生成需要考虑更细粒度。
- 针对不同复杂度的物体,需要的物体粒度层级不同
- 对于不同任务,需要的物体粒度也不同。
具体案例(任务需要的颗粒度层次): - <Task>给水壶加水:
- <object-level>水壶
- <part-level>壶盖
- <part-level>把手
- <object-level>饮水机
- <part-level>操作面板
- <part-level>绿色按钮(常温水)
- <part-level>红色按钮(开水)
- <part-level>童锁
- <part-level>水槽
- <part-level>操作面板
- <object-level>桌子
- <part-level>桌面
- <object-level>水壶
- <Task>离开房间
- <object-level>门
- <part-level>把手
- <part-level>纸条:“离开房间前把玩偶放回红筐”
- <object-level>黄鸭玩偶
- <object-level>红框
- <object-level>门
在更细粒度(part-level)的场景抽象中,重点在于子物体和父物体关系的识别
除此,和object-level scene graph中的object detection相对的,是part-level scene graph的子物体语义的多粒度分割和语义信息提取,可以由现有的Semantic-SAM和类似CLIP或者其他多模态模型的语义特征提取器实现。
主要的研究流程
明确研究对象Parent-child Relationship
What aspects does parent-child relationship include?
- 语义构成关系,即这个子物体的存在与否给父物体的语义带来了什么改变 Translation in embedding space.
kinematic relations,也就是需要把一个物体以一个运动学树的形式构建出来
项目流程的流程
自监督的特征提取方法
(Roadmap) Deeper Scene Graph For Robots
http://chen-yulin.github.io/2025/03/25/[OBS]科研-(Roadmap) Deeper Scene Graph For Robots/