
使用的backbone是BERT(通过MLM训练)
该研究认为,image encoder的模型大小应该大于text encoder,所以在text encoder这里,只使用六层self attention来提取特征,剩余六层cross attention用于multi-modal encoder。
参考Moco [[Moco- Momentum Contrast for Unsupervised Visual Representation Learning]]
见[[BLIP]],是沿用的工作
GLIP是一个学习了object-level, languageaware, and semantic-rich visual representations 的模型。
统一对象检测和短语接地进行预训练。
什么是 phrase grounding:
Phrase Grounding refers to the task of associating or “grounding” a natural language phrase (like a sentence or a word) to a specific region or object in an image. In other words, it’s about finding which part of the image corresponds to the object or concept described by a given text phrase.
## Grounded Language Image Pre-training 将经典对象检测任务投入到grounding问题中,并提出**Unified Formulation**For instance, if you have the phrase “the red ball on the table” and an image of a room with a red ball placed on a table, the goal of phrase grounding is to identify the exact region in the image that corresponds to the “red ball on the table”, distinguishing it from other objects in the image.
传统的物体检测方法会把每个region分类进c个classes,而本文使用的Object detection as phrase grounding.
我们通过将每个区域与文本提示中的c(class)短语进行接地/对齐,将检测重新制定为基础任务
the classification prompt “person. bicycle. car. … . toothbrush”
在人机协作的工作环境中,准确地理解与推理工作场景至关重要。传统方法往往依赖静态感知技术,难以处理动态变化的场景信息。随着深度学习和大语言模型的进步,结合场景大模型与知识图谱的多模态推理技术,将为环境理解提供更强的动态感知和智能推理能力。
本研究的目标是提出一种结合场景大模型(Scene-LLM)与知识图谱的动态工作环境理解方法,利用深度学习的图像处理、物体检测和推理能力,优化人机协作的效率和安全性。具体目标包括:
知识图谱是机器人了解工人与工件之间关系的重要凭依,所以第一步需要构建工人任务的知识图谱。(融合持续学习和推理的思想)
知识图谱的结构(表格的形式表示关系和实体的类型****)通常是由实体(Nodes)和关系(Edges)组成的图。在人机协作工作环境,本方案构建的知识图谱的结构包括以下几个主要组件:
Nodes
工件:每个工件都作为一个节点,节点包含工件的属性(如形状、尺寸、材质等,也可以包括多角度的图片),注:工件不一定是单独的零件,可以是装配体,也因此,整个装配任务可以被组织为一个树状的装配流程
工具:每种工具作为一个节点,节点包含工件的属性(如形状、尺寸、材质等,也可以包括多角度的图片)。
人员:描述工人或操作人员的节点,包含技能、工作任务等信息。
Edges
包含(Part-of):表示某个工件是另一个工件的组成部分。
依赖(Depends-on):描述任务或工具之间的依赖关系。例如,某个装配任务依赖于特定工具或工件。
执行(Performs):表示人员与任务之间的执行关系,指示某个人员执行特定的任务。
有选择地更新(亮点)
场景语义化的核心目标是从原始场景数据中提取出有意义的实体(如工件、工具等)和它们之间的关系,并为这些实体和关系赋予语义标签,并输出给下游的推理模块生成任务。
主要分为以下几个步骤:
场景数据采集
全局的像素级特帧点云 M
由一系列点构成,每个点都由顶点位置,法向向量,置信度数量,颜色和概念向量(concept vector)组成
想要生成这样的像素级特征点云M
,首先需要进行帧(单张输入图片)预处理:通过一系列输入的深度图片获取顶点法相maps和相机方位,再通过计算获得每张图片中每个像素的语义上下文嵌入。其中,语义上下文的嵌入是通过结合局部和全局的CLIP features获得的。
然后再进行特征融合:通过相机的方位将每个帧的顶点和法相图映射到全局坐标系。对于帧$X_{t}$中的每个像素$(u,v)_t$,都在全局的点云图中具有相应的点$P_k$
以下是将不同帧$X_t$中的特征集合在M
中特征点的公式:
通过ConceptFusion的预处理和语义上下文嵌入,就获得了精确的场景语义点云信息。
场景Token化:由于场景语义点云的信息过于密集,导致信息长度不可控,不利于输入大模型,所以使用Scene-LLM中的体素均匀下采样方法,将图像数据转化为统一的tokens格式,确保数据可以与prompt一起输入Scene-LLM模型进行推理,同时也便于将场景进行动态更新。
具体来说,这里首先将空间分为具有尺寸x×y×z的固定分辨率体素网格,其中x,y,z代表沿着各个轴的素数。由于这种固定的分辨率,在不同场景中的体素数量有所不同。其次,对于每个体素,使用K近邻(KNN)方法将所有包含的点聚类。每个点的特征包括语义属性和空间坐标。由此可以获得特征的体素网格:
其中D是语义特征的维度,而3是空间坐标的维度。
最后,计算可见性映射V∈{0,1} x×y×z,表明每个体素中的点存在(1)或不存在(0)。仅使用可见体素的特征用作视觉tokens。这种 hybrid-representation 通过均匀地采样点云信息设置来保留密集的空间信息,同时促进了语义特征空间的动态更新。
语义体素网络的动态更新可以通过如下方式实现:为了更新场景以状态t的 $f^{vox}_t$ 到状态t + 1,我们首先从当前的摄像头视图渲染3D 帧。该帧的语义特征F被投影到3D点的特征映射Fˆ,并将其体素化为F^^{Vox}并且生成 visibility map Vˆ。然后使用以下方式更新语义体素网络
如此便可以确保3D场景的语义表示与任何场景状态变化保持同步。
Scene-LLM生成语义空间信息
CLIP(Contrastive Language-Image Pre-training)是一种基于对比学习的模型,旨在同时处理图像和文本数据,并将它们映射到一个共享的特征嵌入空间中。其训练过程包括对图像和文本对的学习,其中每一对图像和文本(如图像的描述)都会被处理成特征向量,图像由视觉编码器(通常是卷积神经网络或视觉Transformer)处理,文本则通过一个Transformer模型编码。模型的核心思想是通过对比学习的方式优化图像和文本之间的关系,使得正确配对的图像和文本在共享的嵌入空间中距离较近,而不相关的图像和文本则距离较远。这一过程通过对比损失函数(如InfoNCE)进行优化,模型逐渐学习到图像和文本之间的语义对应关系。CLIP在大规模图像-文本数据集上进行训练,通常涉及数百万对图像-文本配对,从而使其能够进行跨模态推理。训练完成后的CLIP能够在零-shot的情况下执行任务,即在没有专门训练的情况下处理新的计算机视觉和自然语言处理任务,如通过文本描述检索相关图像,或者根据图像检索相关文本。
想要比对裁剪图和物品的文字描述,可以通过使用预先使用CLIP预训练好的ViT图编码器和Transformer 文字编码器,分别用于编码物体的裁剪图和知识图谱中对于每一个工件的描述(并不需要每次识别都进行编码,可以预编码之后保存用于后续每次对比)。再使用裁剪图和文字的特征向量进行似然性评估,找到最贴合裁剪图的文字特征向量并由此获得裁剪图对应的具体工件或者工具序号。
语义空间最终输出:场景中所有关键的工具、零件的标签(ID和专业名称)+精确位置坐标(场景中有啥,在哪)
基于知识图谱的推理和任务生成方法在智能系统中扮演着关键角色,特别是在需要理解复杂场景和动态调整任务的应用中。
在获取了语义空间的信息后,知识图谱的应用主要分为以下几个步骤:
通过工人的手部位置+语义空间的信息->判断当前正在装配的工件(检索/搜索过程)+工人在用的工具
正在装配的工件+工人在用的工具+知识图谱->判断下一步需要装配的零件以及需要的工具,并据此生成机器人需要执行的具体任务(比如抓取某区域的关键物体并放置到特定位置,更具体一些?)
具体任务可能包括以下几种:
GRASP
任务描述:机器人需要抓取某一特定区域(
生成任务:结合语义空间的信息,系统会确定物体的精确位置(例如,某个工件的位置),并且会根据工件的形状、尺寸、重量等属性选择适当的抓取策略和工具。系统会向机器人发送抓取任务,指示其准确抓取目标物体。
PLACE
任务描述:机器人将物体放置到指定位置(
生成任务:根据知识图谱和工人正在装配物体的位置,推理出工件的目标位置,例如,物体需要放置在某个工作台上的特定位置。
示例:将抓取的零件放置到工人需要的位置上,确保其放置的位置正确。
GOTO
任务描述:机器人末端移动到指定位置(
生成任务:一般用于机器人执行完PLACE