NSFC
Related Works
Scene-LLM
一系列(数量没有限制)深度图片整合为一整个可以输入大语言模型的token,
可以实现动态更新场景
可以基于场景进行推理,输出物体之间的关系
ConceptFusion
用于从图像生成像素级clip embeding,由Scene-LLM使用
CLIP
通过对齐text encoder 和image encoder, 用于图像分类。单独使用image encoder可以生成图像整体的feature(clip embeding)
Pipeline
- 建立有关工人装配所涉及工件的知识图谱(列表),知识图谱中注明各个工件的外形描述,和别的工件的关系,装配顺序关系
- 持续获取人机协作场景的深度图像(可以多视角),通过ConceptFusion生成每个视角图像的feature point cloud
- 使用Scene-LLM中提到的voxel的均匀下采样的方法,将场景tokenize,使其可以和prompt一起输入Scene-LLM
- 通过prompt让Scene-LLM输出工件/工具的方位。
- 根据Scene-LLM的输出对工件的图像区域进行crop,便于将其与知识图谱中对于工件外形的描述进行CLIP的图文比对
- 根据比对结果获取工件的具体序号,并根据知识图谱生成场景中各工件之间的关系(文字的形式)
一、研究背景与意义
在人机协作的工作环境中,准确地理解与推理工作场景至关重要。传统方法往往依赖静态感知技术,难以处理动态变化的场景信息。随着深度学习和大语言模型的进步,结合场景大模型与知识图谱的多模态推理技术,将为环境理解提供更强的动态感知和智能推理能力。
- 场景大模型(Scene-LLM):通过输入深度图像或点云数据,将场景信息转化为可用于推理的tokens,从而动态更新并理解场景中物体的关系。
- ConceptFusion:从图像中生成像素级特征,通过与Scene-LLM结合,帮助生成精确的物体描述和物体关系。
- CLIP:通过文本和图像的对齐,生成图像的语义特征,可用来进行图像分类、物体比对及外形描述验证。
二、研究目标
本研究的目标是提出一种结合场景大模型(Scene-LLM)与知识图谱的动态工作环境理解方法,利用深度学习的图像处理、物体检测和推理能力,优化人机协作的效率和安全性。具体目标包括:
- 动态环境感知与更新:通过Scene-LLM和ConceptFusion,对多视角的工人装配场景进行实时处理,准确识别物体和工具的位置信息。
- 任务与物体关系理解:构建基于知识图谱的任务理解模型,结合图文比对技术,优化任务分配与物体关系推理。
- 智能协作与优化:通过知识图谱和场景推理,实现任务分配与协作策略的自动调整,提升人机协作的灵活性与效率。
三、研究内容与方法
1. 知识图谱的构建与任务推理
- 工件与任务的知识图谱:首先,构建关于工人装配任务的知识图谱,包括每个工件的外形描述、与其他工件的关系(如连接、依赖关系)、装配顺序等信息。
- 推理与任务分配:通过知识图谱中的任务和物体关系数据,结合实时场景感知数据,推理任务分配、物体排列顺序等决策,支持高效的协作流程。
2. 基于深度图像的场景理解与推理
- ConceptFusion与深度图像:从多视角获取工人作业场景的深度图像数据,使用ConceptFusion生成每个视角的像素级特征点云,以获取精确的物体位置与形状信息。
- 场景Token化:使用Scene-LLM中的体素均匀下采样方法,将图像数据转化为统一的tokens格式,确保数据可以与prompt一起输入Scene-LLM模型进行推理。
- 场景推理:通过Scene-LLM的推理能力,输出工件和工具的方位信息,并更新场景中的物体关系。
3. 物体比对与场景优化
- 图文比对:根据Scene-LLM的输出,选择工件的图像区域并进行裁剪,将其与知识图谱中关于工件外形的文字描述进行CLIP图文比对。
- 物体识别与编号:通过CLIP的图文比对,获取工件的具体编号,并根据比对结果更新知识图谱中工件的状态、位置等信息。
- 关系推理与更新:根据比对结果与任务推理,动态生成工作场景中各工件之间的关系(例如,哪两个工件应该连接、哪些工件在前一步和后一步需要做什么),并根据环境变化实时更新。