Chen Yulin's Blog

Posted 2025-03-31Updated 2025-08-15Note2 minutes read (About 236 words)

Repository:

Installation

official:

1	conda env create -f conda.yaml

不建议使用official的conda.yaml, 使用更改后的conda_cyl.yaml。

pip install torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1

conda install nvidia/label/cuda-11.7.0::cuda-toolkit -c nvidia/label/cuda-11.7.0
conda install cudatoolkit
conda install -c conda-forge gcc=11.2.0
conda install -c conda-forge gxx=11.2.0

conda env config vars set LD_LIBRARY_PATH="/home/cyl/miniconda3/envs/dinov2/lib/"
conda env config vars set CPATH="/home/cyl/miniconda3/envs/dinov2/include/"
conda env config vars set CUDA_HOME="/home/cyl/miniconda3/envs/dinov2/"

export CC=$CONDA_PREFIX/bin/gcc
export CXX=$CONDA_PREFIX/bin/g++

# check with `which g++`

conda env update -f conda_cyl.yaml

pip3 install -U xformers==0.0.18

conda env config vars set PYTHONPATH="/home/cyl/Reconst/dinov2/"

Demo 🐱

官方提供了 depth estimation 和 segmentation 的 notebook，可以找时间理解一下

Train

使用的数据集为Imagenet-mini

imagenet-mini
├── labels.txt
├── train
└── val

Note: 需要额外添加一个label.txt

使用脚本生产数据集的meta data:

Posted 2025-03-24Updated 2025-08-15Note4 minutes read (About 539 words)

Semantic-SAM Repository Application

My repository: https://github.com/Chen-Yulin/Semantic-SAM
My venv: ssam

Installation

测试过的python版本：3.8,3.10
官方步骤：

pip3 install torch==1.13.1 torchvision==0.14.1 --extra-index-url https://download.pytorch.org/whl/cu113
python -m pip install 'git+https://github.com/MaureenZOU/detectron2-xyz.git'
pip install git+https://github.com/cocodataset/panopticapi.git
git clone https://github.com/UX-Decoder/Semantic-SAM
cd Semantic-SAM
python -m pip install -r requirements.txt

export DATASET=/pth/to/dataset  # path to your coco data

一些绊脚石 ^ ^

1

根据[[Cuda+Torch]]，需要先安装cudatoolkit和cuda-toolkit

conda install nvidia/label/cuda-11.7.0::cuda-toolkit -c nvidia/label/cuda-11.7.0 
conda install cudatoolkit # no need to specify version
conda env config vars set LD_LIBRARY_PATH="/home/cyl/miniconda3/envs/<name>/lib/"
conda env config vars set CPATH="/home/cyl/miniconda3/envs/<name>/include/" # `/usr/include`for missing `crypt.h`
conda env config vars set CUDA_HOME="/home/cyl/miniconda3/envs/<name>/"

然后按照torch官网的安装指令：

1	conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia

2

第二行直接运行可能会报错，提示系统gcc版本过高，安装gcc=11.2.0

conda install -c conda-forge gcc=11.2.0
conda install -c conda-forge gxx=11.2.0

# 指定编译器路径
export CC=$CONDA_PREFIX/bin/gcc
export CXX=$CONDA_PREFIX/bin/g++

# 找不到crypt.h的情况
sudo pacman -S libxcrypt-compat

export CXXFLAGS="${CXXFLAGS} -fuse-ld=/usr/bin/ld"

如果编译时出现ld: cannot find -lcudart: No such file or directory collect2: error: ld returned 1 exit status 报错，只是因为没有安装cudatoolkit ^ ^

3

安装完成后直接import semantic_sam会报错ModuleNotFoundError: No module named 'MultiScaleDeformableAttention' ^ ^
提示：

1
2
3

Please compile MultiScaleDeformableAttention CUDA op with the following commands:
	`cd mask2former[/modeling/pixel_decoder/ops](http://127.0.0.1:8888/modeling/pixel_decoder/ops)`
	`sh make.sh`

需要手动make一下 Mask2Former:

1 2	cd Mask2Former/mask2former/modeling/pixel_decoder/ops/ sh make.sh

4

一些版本问题

1 2	pip install gradio==3.37.0 pip install matplotlib==3.7.0

Demo 🐱

Generate multi-granularity Mask on CLICK

1	python demo.py --ckpt ./weights/swinl_only_sam_many2many.pth

Comment: 效果相较于SAM更多体现了语义的一致性，而不是基于texture进行分割。

Automatically Generate Mask on Different Granularity

1	python demo_auto_generation.py --ckpt ./weights/swinl_only_sam_many2many.pth

需要解决的问题

同level下mask重合

Solved by `utils.psg_utils.mask.discard_submask` in `psg_data.segment_pipeline`

Part-seg-dataset Generation

效果

原图：

.png)

Instance identification:

Part segmentation

Posted 2025-03-14Updated 2025-08-15Reviewa few seconds read (About 93 words)

Fully Convolutional Scene Graph Generation

One stage relation detection (detects objects and relations simultaneously).

这个模型受启发于 [[CenterNet]] 和 [[OpenPose Using Part Affinity Fields]]，通过添加一个新的用于生成RAF的卷积头来获取物体之间的关系。

具体RAF是如何定义的，以及如何训练(Loss)：

Results

Posted 2025-03-13Updated 2025-08-15Reviewa few seconds read (About 3 words)

GPS-Net= Graph Property Sensing Network for Scene Graph Generation

Posted 2025-03-13Updated 2025-08-15Reviewa few seconds read (About 6 words)

Large-scale visual relationship understanding

Posted 2025-03-13Updated 2025-08-15Reviewa few seconds read (About 0 words)

Panoptic Segmentation

Posted 2025-03-03Updated 2025-08-15Reviewa few seconds read (About 108 words)

BLIP

A vision-language model that unifies vision-language understanding and generation tasks.

主要分为两块工作：

去除图文检索所使用的数据集中的噪声
vision language understanding and generation

Model

Noise Filtering

Caption 模型生成图像文本对，然后Filt将caption和真实互联网数据（可能存在噪声）进行对比，如果差异过大则使用Caption模型生成的结果

Understanding & Generation

Posted 2025-02-18Updated 2025-08-15Note25 minutes read (About 3683 words)

NSFC

## Related Works ### Scene-LLM 一系列（数量没有限制）深度图片整合为一整个可以输入大语言模型的token, 可以实现动态更新场景可以基于场景进行推理，输出物体之间的关系 ### ConceptFusion 用于从图像生成像素级clip embeding，由Scene-LLM使用 ### CLIP 通过对齐text encoder 和image encoder, 用于图像分类。单独使用image encoder可以生成图像整体的feature(clip embeding)

一、研究背景与意义

在人机协作的工作环境中，准确地理解与推理工作场景至关重要。传统方法往往依赖静态感知技术，难以处理动态变化的场景信息。随着深度学习和大语言模型的进步，结合场景大模型与知识图谱的多模态推理技术，将为环境理解提供更强的动态感知和智能推理能力。

场景大模型（Scene-LLM）：通过输入深度图像或点云数据，将场景信息转化为可用于推理的tokens，从而动态更新并理解场景中物体的关系。
ConceptFusion：从图像中生成像素级特征，通过与Scene-LLM结合，帮助生成精确的物体描述和物体关系。
CLIP：通过文本和图像的对齐，生成图像的语义特征，可用来进行图像分类、物体比对及外形描述验证。
知识图谱：用图形表示的知识结构，其中的节点表示实体（如物体、事件、任务等），边表示实体之间的关系。它通过对现实世界的知识进行结构化、语义化的表示，能够支持推理、查询、推荐等应用。在本研究中，知识图谱用于表示人机协作环境中的工件、工具、任务和环境之间的关系

二、研究目标

本研究的目标是提出一种结合场景大模型（Scene-LLM）与知识图谱的动态工作环境理解方法，利用深度学习的图像处理、物体检测和推理能力，优化人机协作的效率和安全性。具体目标包括：

动态环境感知与更新：通过Scene-LLM和ConceptFusion，对多视角的工人装配场景进行实时处理，准确识别物体和工具的位置信息。
任务与物体关系理解：构建基于知识图谱的任务理解模型，结合图文比对技术，优化任务分配与物体关系推理。
智能协作与优化：通过知识图谱和场景推理，实现任务分配与协作策略的自动调整，提升人机协作的灵活性与效率。

三、研究Pipeline

0. 知识图谱的构建

知识图谱是机器人了解工人与工件之间关系的重要凭依，所以第一步需要构建工人任务的知识图谱。（融合持续学习和推理的思想）

知识图谱的结构（表格的形式表示关系和实体的类型****）通常是由实体（Nodes）和关系（Edges）组成的图。在人机协作工作环境，本方案构建的知识图谱的结构包括以下几个主要组件：

Nodes
工件：每个工件都作为一个节点，节点包含工件的属性（如形状、尺寸、材质等，也可以包括多角度的图片），注：工件不一定是单独的零件，可以是装配体，也因此，整个装配任务可以被组织为一个树状的装配流程
工具：每种工具作为一个节点，节点包含工件的属性（如形状、尺寸、材质等，也可以包括多角度的图片）。
人员：描述工人或操作人员的节点，包含技能、工作任务等信息。
Edges
包含（Part-of）：表示某个工件是另一个工件的组成部分。
依赖（Depends-on）：描述任务或工具之间的依赖关系。例如，某个装配任务依赖于特定工具或工件。
执行（Performs）：表示人员与任务之间的执行关系，指示某个人员执行特定的任务。

1. 动态语义空间重构（通用场景大模型适配专业化的工作领域，不需要微调fine-tuning free）

有选择地更新（亮点）

场景语义化的核心目标是从原始场景数据中提取出有意义的实体（如工件、工具等）和它们之间的关系，并为这些实体和关系赋予语义标签，并输出给下游的推理模块生成任务。

主要分为以下几个步骤：

场景数据采集
1. 深度图像与点云数据：使用多视角深度相机采集工作环境中的深度图像和点云数据
1. 使用ConceptFusion生成每个视角的像素级特征点云，以获取精确的场景语义点云信息。
  全局的像素级特帧点云 M 由一系列点构成，每个点都由顶点位置，法向向量，置信度数量，颜色和概念向量（concept vector）组成

  想要生成这样的像素级特征点云M，首先需要进行帧（单张输入图片）预处理：通过一系列输入的深度图片获取顶点法相maps和相机方位，再通过计算获得每张图片中每个像素的语义上下文嵌入。其中，语义上下文的嵌入是通过结合局部和全局的CLIP features获得的。

  然后再进行特征融合：通过相机的方位将每个帧的顶点和法相图映射到全局坐标系。对于帧$X_{t}$中的每个像素$(u，v)_t$，都在全局的点云图中具有相应的点$P_k$

  以下是将不同帧$X_t$中的特征集合在M中特征点的公式：

  通过ConceptFusion的预处理和语义上下文嵌入，就获得了精确的场景语义点云信息。
场景Token化：由于场景语义点云的信息过于密集，导致信息长度不可控，不利于输入大模型，所以使用Scene-LLM中的体素均匀下采样方法，将图像数据转化为统一的tokens格式，确保数据可以与prompt一起输入Scene-LLM模型进行推理，同时也便于将场景进行动态更新。

  具体来说，这里首先将空间分为具有尺寸x×y×z的固定分辨率体素网格，其中x，y，z代表沿着各个轴的素数。由于这种固定的分辨率，在不同场景中的体素数量有所不同。其次，对于每个体素，使用K近邻（KNN）方法将所有包含的点聚类。每个点的特征包括语义属性和空间坐标。由此可以获得特征的体素网格：

  其中D是语义特征的维度，而3是空间坐标的维度。

  最后，计算可见性映射V∈{0，1} x×y×z，表明每个体素中的点存在（1）或不存在（0）。仅使用可见体素的特征用作视觉tokens。这种 hybrid-representation 通过均匀地采样点云信息设置来保留密集的空间信息，同时促进了语义特征空间的动态更新。

  语义体素网络的动态更新可以通过如下方式实现：为了更新场景以状态t的 $f^{vox}_t$ 到状态t + 1，我们首先从当前的摄像头视图渲染3D 帧。该帧的语义特征F被投影到3D点的特征映射Fˆ，并将其体素化为F^^{Vox}并且生成 visibility map Vˆ。然后使用以下方式更新语义体素网络

  如此便可以确保3D场景的语义表示与任何场景状态变化保持同步。
Scene-LLM生成语义空间信息
1. 通过将场景Tokens和prompt结合输入Scene-LLM，得到工件，工具或其他工人所需物品的信息(粗标签+坐标)
1. 依据物品在场景中的坐标，获得相机视角下该物体的（多视角）裁剪图片
1. 如果是工件/工具，则通过CLIP，将裁剪图与知识图谱中该物品的文字描述进行比对，得到工件或工具的具体ID和专业名称。

CLIP（Contrastive Language-Image Pre-training）是一种基于对比学习的模型，旨在同时处理图像和文本数据，并将它们映射到一个共享的特征嵌入空间中。其训练过程包括对图像和文本对的学习，其中每一对图像和文本（如图像的描述）都会被处理成特征向量，图像由视觉编码器（通常是卷积神经网络或视觉Transformer）处理，文本则通过一个Transformer模型编码。模型的核心思想是通过对比学习的方式优化图像和文本之间的关系，使得正确配对的图像和文本在共享的嵌入空间中距离较近，而不相关的图像和文本则距离较远。这一过程通过对比损失函数（如InfoNCE）进行优化，模型逐渐学习到图像和文本之间的语义对应关系。CLIP在大规模图像-文本数据集上进行训练，通常涉及数百万对图像-文本配对，从而使其能够进行跨模态推理。训练完成后的CLIP能够在零-shot的情况下执行任务，即在没有专门训练的情况下处理新的计算机视觉和自然语言处理任务，如通过文本描述检索相关图像，或者根据图像检索相关文本。

想要比对裁剪图和物品的文字描述，可以通过使用预先使用CLIP预训练好的ViT图编码器和Transformer 文字编码器，分别用于编码物体的裁剪图和知识图谱中对于每一个工件的描述（并不需要每次识别都进行编码，可以预编码之后保存用于后续每次对比）。再使用裁剪图和文字的特征向量进行似然性评估，找到最贴合裁剪图的文字特征向量并由此获得裁剪图对应的具体工件或者工具序号。

语义空间最终输出：场景中所有关键的工具、零件的标签（ID和专业名称）+精确位置坐标（场景中有啥，在哪）

2. 基于知识图谱的推理与任务生成

基于知识图谱的推理和任务生成方法在智能系统中扮演着关键角色，特别是在需要理解复杂场景和动态调整任务的应用中。

在获取了语义空间的信息后，知识图谱的应用主要分为以下几个步骤：

通过工人的手部位置+语义空间的信息->判断当前正在装配的工件（检索/搜索过程）+工人在用的工具
正在装配的工件+工人在用的工具+知识图谱->判断下一步需要装配的零件以及需要的工具，并据此生成机器人需要执行的具体任务（比如抓取某区域的关键物体并放置到特定位置，更具体一些？）

具体任务可能包括以下几种：

GRASP ：
- 任务描述：机器人需要抓取某一特定区域()的关键物体。
- 生成任务：结合语义空间的信息，系统会确定物体的精确位置（例如，某个工件的位置），并且会根据工件的形状、尺寸、重量等属性选择适当的抓取策略和工具。系统会向机器人发送抓取任务，指示其准确抓取目标物体。
PLACE ：
- 任务描述：机器人将物体放置到指定位置()。
- 生成任务：根据知识图谱和工人正在装配物体的位置，推理出工件的目标位置，例如，物体需要放置在某个工作台上的特定位置。
- 示例：将抓取的零件放置到工人需要的位置上，确保其放置的位置正确。
GOTO ：
- 任务描述：机器人末端移动到指定位置()。
- 生成任务：一般用于机器人执行完PLACE 后，归位以免阻碍工人操作工件

Posted 2025-02-16Updated 2025-08-15Reviewa minute read (About 216 words)

Grounding-DINO

通过结合[[DINO]]和grounded-pretraining，可以使用人类输入（例如类别名称或转介表达式）检测任意对象
Open-Vocab. Det

an open-set object detector that can detect any objects with respect to an arbitrary free-form text prompt. The model was trained on over 10 million images, including detection data, visual grounding data, and image-text pairs. It has a strong zero-shot detection performance. However, the model needs text as inputs and can only detect boxes with corresponding phrases.

Grounding-DINO

Principle

Tight modality fusion based on [[DINO]]

什么是feature fusion?

- 在多模态领域，feature fusion 特指将不同模态的特征（如视觉、文本、音频等）进行融合的技术。CLIP 应该被看作是 Middle Fusion 的一种形式, 在特征提取后就进行融合对齐 #### large-scale grounded pre-train for concept generalization Reformulating **object detection** as a **phrase grounding task** and introducing **contrastive training** between object regions and language phrases on large-scale data

Posted 2025-01-08Updated 2025-08-15Note4 minutes read (About 561 words)

DINO

https://github.com/facebookresearch/dino/tree/main

# Emerging Properties in Self-Supervised Vision Transformers

https://juejin.cn/post/7224738994825789496
https://www.youtube.com/watch?v=h3ij3F3cPIk&t=1005s
DI+NO（蒸馏+No Label）
具体来说，DINO 是使用一种称为“无监督自蒸馏”的方法，该方法通过自监督学习来学习模型的知识表示。在这个方法中，模型使用自身的输出来生成“伪标签”，然后使用这些伪标签来重新训练模型，从而进一步提高模型的性能和泛化能力。

知识蒸馏

https://blog.csdn.net/xbinworld/article/details/83063726

重点idea就是提出用soft target来辅助hard target一起训练，而soft target来自于大模型的预测输出。这里有人会问，明明true label（hard target）是完全正确的，为什么还要soft target呢？
hard target 包含的信息量（信息熵）很低，soft target包含的信息量大，拥有不同类之间关系的信息（比如同时分类驴和马的时候，尽管某张图片是马，但是soft target就不会像hard target 那样只有马的index处的值为1，其余为0，而是在驴的部分也会有概率。）[5]
这样的好处是，这个图像可能更像驴，而不会去像汽车或者狗之类的，而这样的soft信息存在于概率中，以及label之间的高低相似性都存在于soft target中。但是如果soft targe是像这样的信息[0.98 0.01 0.01]，就意义不大了，所以需要在softmax中增加温度参数T（这个设置在最终训练完之后的推理中是不需要的）

ViT

DINO

总的来说DINO最适合的任务就是将不同状态的同一物体进行归类。

关于DINO中发生的涌现
https://juejin.cn/post/7280436457142501388

DINO之前的工作

We have also seen emerged two properties that can be leveraged in future applications: the quality of the features in k-NN classification has a potential for image retrieval. The presence of information about the scene layout in the features can also benefit weakly supervised image segmentation.

Installation

Demo 🐱

Train

Installation

一些绊脚石 ^ ^

1

2

3

4

Demo 🐱

Generate multi-granularity Mask on CLICK

Automatically Generate Mask on Different Granularity

需要解决的问题

同level下mask重合

Part-seg-dataset Generation

效果

Results

Model

Noise Filtering

Understanding & Generation

一、研究背景与意义

二、研究目标

三、研究Pipeline

0. 知识图谱的构建

1. 动态语义空间重构（通用场景大模型适配专业化的工作领域，不需要微调fine-tuning free）

2. 基于知识图谱的推理与任务生成

Grounding-DINO

Principle

Tight modality fusion based on [[DINO]]

知识蒸馏

ViT

DINO

Archives

Recents

Tags