针对的问题(任务场景)
Robotic planning and execution in open-world environments is a complex problem due to the vast state spaces and high variability of task embodiment.
例如针对家用场景:
目前粗粒度(object-level)的场景抽象(场景图构建)已经有许多工作了,详见Reconstruct-Anything Literature Review,在这些工作中,重点都在于object detection和 object-level visual relationship detection
需要聚焦的部分是多粒度的场景抽象
需要多粒度的原因:
- Scalability: 如果只有一个粒度,那么输入LLM的场景图token不可控,影响扩展性
- 想要和物体进行更复杂的交互(相较于抓取),需要明确物体各个part的位置,语义性质,和父物体的parent-child relationship。这就要求场景图的生成需要考虑更细粒度。
- 针对不同复杂度的物体,需要的物体粒度层级不同
- 对于不同任务,需要的物体粒度也不同。
具体案例(任务需要的颗粒度层次):
- <Task>给水壶加水:
- <object-level>水壶
- <part-level>壶盖
- <part-level>把手
- <object-level>饮水机
- <part-level>操作面板
- <part-level>绿色按钮(常温水)
- <part-level>红色按钮(开水)
- <part-level>童锁
- <part-level>水槽
- <object-level>桌子
- <Task>离开房间
- <object-level>门
- <part-level>把手
- <part-level>纸条:“离开房间前把玩偶放回红筐”
- <object-level>黄鸭玩偶
- <object-level>红框
在更细粒度(part-level)的场景抽象中,重点在于子物体和父物体关系的识别
除此,和object-level scene graph中的object detection相对的,是part-level scene graph的子物体语义的多粒度分割和语义信息提取,可以由现有的Semantic-SAM和类似CLIP或者其他多模态模型的语义特征提取器实现。
主要的研究流程
明确研究对象Parent-child Relationship
What aspects does parent-child relationship include?
- 语义构成关系,即这个子物体的存在与否给父物体的语义带来了什么改变 Translation in embedding space.
- kinematic relations,也就是需要把一个物体以一个运动学树的形式构建出来
项目流程的流程
自监督的特征提取方法