Chen Yulin's Blog

Posted 2025-02-18Updated 2025-07-02Note25 minutes read (About 3683 words)

## Related Works ### Scene-LLM 一系列（数量没有限制）深度图片整合为一整个可以输入大语言模型的token, 可以实现动态更新场景可以基于场景进行推理，输出物体之间的关系 ### ConceptFusion 用于从图像生成像素级clip embeding，由Scene-LLM使用 ### CLIP 通过对齐text encoder 和image encoder, 用于图像分类。单独使用image encoder可以生成图像整体的feature(clip embeding)

一、研究背景与意义

在人机协作的工作环境中，准确地理解与推理工作场景至关重要。传统方法往往依赖静态感知技术，难以处理动态变化的场景信息。随着深度学习和大语言模型的进步，结合场景大模型与知识图谱的多模态推理技术，将为环境理解提供更强的动态感知和智能推理能力。

场景大模型（Scene-LLM）：通过输入深度图像或点云数据，将场景信息转化为可用于推理的tokens，从而动态更新并理解场景中物体的关系。
ConceptFusion：从图像中生成像素级特征，通过与Scene-LLM结合，帮助生成精确的物体描述和物体关系。
CLIP：通过文本和图像的对齐，生成图像的语义特征，可用来进行图像分类、物体比对及外形描述验证。
知识图谱：用图形表示的知识结构，其中的节点表示实体（如物体、事件、任务等），边表示实体之间的关系。它通过对现实世界的知识进行结构化、语义化的表示，能够支持推理、查询、推荐等应用。在本研究中，知识图谱用于表示人机协作环境中的工件、工具、任务和环境之间的关系

二、研究目标

本研究的目标是提出一种结合场景大模型（Scene-LLM）与知识图谱的动态工作环境理解方法，利用深度学习的图像处理、物体检测和推理能力，优化人机协作的效率和安全性。具体目标包括：

动态环境感知与更新：通过Scene-LLM和ConceptFusion，对多视角的工人装配场景进行实时处理，准确识别物体和工具的位置信息。
任务与物体关系理解：构建基于知识图谱的任务理解模型，结合图文比对技术，优化任务分配与物体关系推理。
智能协作与优化：通过知识图谱和场景推理，实现任务分配与协作策略的自动调整，提升人机协作的灵活性与效率。

三、研究Pipeline

0. 知识图谱的构建

知识图谱是机器人了解工人与工件之间关系的重要凭依，所以第一步需要构建工人任务的知识图谱。（融合持续学习和推理的思想）

知识图谱的结构（表格的形式表示关系和实体的类型****）通常是由实体（Nodes）和关系（Edges）组成的图。在人机协作工作环境，本方案构建的知识图谱的结构包括以下几个主要组件：

Nodes
工件：每个工件都作为一个节点，节点包含工件的属性（如形状、尺寸、材质等，也可以包括多角度的图片），注：工件不一定是单独的零件，可以是装配体，也因此，整个装配任务可以被组织为一个树状的装配流程
工具：每种工具作为一个节点，节点包含工件的属性（如形状、尺寸、材质等，也可以包括多角度的图片）。
人员：描述工人或操作人员的节点，包含技能、工作任务等信息。
Edges
包含（Part-of）：表示某个工件是另一个工件的组成部分。
依赖（Depends-on）：描述任务或工具之间的依赖关系。例如，某个装配任务依赖于特定工具或工件。
执行（Performs）：表示人员与任务之间的执行关系，指示某个人员执行特定的任务。

1. 动态语义空间重构（通用场景大模型适配专业化的工作领域，不需要微调fine-tuning free）

有选择地更新（亮点）

场景语义化的核心目标是从原始场景数据中提取出有意义的实体（如工件、工具等）和它们之间的关系，并为这些实体和关系赋予语义标签，并输出给下游的推理模块生成任务。

主要分为以下几个步骤：

场景数据采集
1. 深度图像与点云数据：使用多视角深度相机采集工作环境中的深度图像和点云数据
1. 使用ConceptFusion生成每个视角的像素级特征点云，以获取精确的场景语义点云信息。
  全局的像素级特帧点云 M 由一系列点构成，每个点都由顶点位置，法向向量，置信度数量，颜色和概念向量（concept vector）组成

  想要生成这样的像素级特征点云M，首先需要进行帧（单张输入图片）预处理：通过一系列输入的深度图片获取顶点法相maps和相机方位，再通过计算获得每张图片中每个像素的语义上下文嵌入。其中，语义上下文的嵌入是通过结合局部和全局的CLIP features获得的。

  然后再进行特征融合：通过相机的方位将每个帧的顶点和法相图映射到全局坐标系。对于帧$X_{t}$中的每个像素$(u，v)_t$，都在全局的点云图中具有相应的点$P_k$

  以下是将不同帧$X_t$中的特征集合在M中特征点的公式：

  通过ConceptFusion的预处理和语义上下文嵌入，就获得了精确的场景语义点云信息。
场景Token化：由于场景语义点云的信息过于密集，导致信息长度不可控，不利于输入大模型，所以使用Scene-LLM中的体素均匀下采样方法，将图像数据转化为统一的tokens格式，确保数据可以与prompt一起输入Scene-LLM模型进行推理，同时也便于将场景进行动态更新。

  具体来说，这里首先将空间分为具有尺寸x×y×z的固定分辨率体素网格，其中x，y，z代表沿着各个轴的素数。由于这种固定的分辨率，在不同场景中的体素数量有所不同。其次，对于每个体素，使用K近邻（KNN）方法将所有包含的点聚类。每个点的特征包括语义属性和空间坐标。由此可以获得特征的体素网格：

  其中D是语义特征的维度，而3是空间坐标的维度。

  最后，计算可见性映射V∈{0，1} x×y×z，表明每个体素中的点存在（1）或不存在（0）。仅使用可见体素的特征用作视觉tokens。这种 hybrid-representation 通过均匀地采样点云信息设置来保留密集的空间信息，同时促进了语义特征空间的动态更新。

  语义体素网络的动态更新可以通过如下方式实现：为了更新场景以状态t的 $f^{vox}_t$ 到状态t + 1，我们首先从当前的摄像头视图渲染3D 帧。该帧的语义特征F被投影到3D点的特征映射Fˆ，并将其体素化为F^^{Vox}并且生成 visibility map Vˆ。然后使用以下方式更新语义体素网络

  如此便可以确保3D场景的语义表示与任何场景状态变化保持同步。
Scene-LLM生成语义空间信息
1. 通过将场景Tokens和prompt结合输入Scene-LLM，得到工件，工具或其他工人所需物品的信息(粗标签+坐标)
1. 依据物品在场景中的坐标，获得相机视角下该物体的（多视角）裁剪图片
1. 如果是工件/工具，则通过CLIP，将裁剪图与知识图谱中该物品的文字描述进行比对，得到工件或工具的具体ID和专业名称。

CLIP（Contrastive Language-Image Pre-training）是一种基于对比学习的模型，旨在同时处理图像和文本数据，并将它们映射到一个共享的特征嵌入空间中。其训练过程包括对图像和文本对的学习，其中每一对图像和文本（如图像的描述）都会被处理成特征向量，图像由视觉编码器（通常是卷积神经网络或视觉Transformer）处理，文本则通过一个Transformer模型编码。模型的核心思想是通过对比学习的方式优化图像和文本之间的关系，使得正确配对的图像和文本在共享的嵌入空间中距离较近，而不相关的图像和文本则距离较远。这一过程通过对比损失函数（如InfoNCE）进行优化，模型逐渐学习到图像和文本之间的语义对应关系。CLIP在大规模图像-文本数据集上进行训练，通常涉及数百万对图像-文本配对，从而使其能够进行跨模态推理。训练完成后的CLIP能够在零-shot的情况下执行任务，即在没有专门训练的情况下处理新的计算机视觉和自然语言处理任务，如通过文本描述检索相关图像，或者根据图像检索相关文本。

想要比对裁剪图和物品的文字描述，可以通过使用预先使用CLIP预训练好的ViT图编码器和Transformer 文字编码器，分别用于编码物体的裁剪图和知识图谱中对于每一个工件的描述（并不需要每次识别都进行编码，可以预编码之后保存用于后续每次对比）。再使用裁剪图和文字的特征向量进行似然性评估，找到最贴合裁剪图的文字特征向量并由此获得裁剪图对应的具体工件或者工具序号。

语义空间最终输出：场景中所有关键的工具、零件的标签（ID和专业名称）+精确位置坐标（场景中有啥，在哪）

2. 基于知识图谱的推理与任务生成

基于知识图谱的推理和任务生成方法在智能系统中扮演着关键角色，特别是在需要理解复杂场景和动态调整任务的应用中。

在获取了语义空间的信息后，知识图谱的应用主要分为以下几个步骤：

通过工人的手部位置+语义空间的信息->判断当前正在装配的工件（检索/搜索过程）+工人在用的工具
正在装配的工件+工人在用的工具+知识图谱->判断下一步需要装配的零件以及需要的工具，并据此生成机器人需要执行的具体任务（比如抓取某区域的关键物体并放置到特定位置，更具体一些？）

具体任务可能包括以下几种：

GRASP ：
- 任务描述：机器人需要抓取某一特定区域()的关键物体。
- 生成任务：结合语义空间的信息，系统会确定物体的精确位置（例如，某个工件的位置），并且会根据工件的形状、尺寸、重量等属性选择适当的抓取策略和工具。系统会向机器人发送抓取任务，指示其准确抓取目标物体。
PLACE ：
- 任务描述：机器人将物体放置到指定位置()。
- 生成任务：根据知识图谱和工人正在装配物体的位置，推理出工件的目标位置，例如，物体需要放置在某个工作台上的特定位置。
- 示例：将抓取的零件放置到工人需要的位置上，确保其放置的位置正确。
GOTO ：
- 任务描述：机器人末端移动到指定位置()。
- 生成任务：一般用于机器人执行完PLACE 后，归位以免阻碍工人操作工件

Posted 2025-02-18Updated 2025-07-02Reviewa few seconds read (About 0 words)

Extract Free Dense Labels from CLIP

Posted 2025-02-17Updated 2025-07-02Notea few seconds read (About 14 words)

Docker

配置

proxy网络: https://docs.docker.com/engine/daemon/proxy/#httphttps-proxy

Posted 2025-02-17Updated 2025-07-02Review2 minutes read (About 297 words)

ConceptFusion

## Approach 目标是构建一个open-set multimodal 3D map `M`. 可以使用特定于模态的编码器（基础模型）$F_{Mode}$将图像，文本，音频和点击等多维信号编码为矢量空间其中，`M` 由一系列点构成，每个点都包含：顶点位置，法向向量，置信度数量，颜色和概念向量（concept vector）组成首先是帧（单张输入图片）预处理：通过一系列输入的深度图片获取顶点法相maps和相机方位，再通过计算获得每张图片中每个像素的语义上下文嵌入。其中，语义上下文的嵌入是通过结合局部和全局的CLIP features获得的。

然后再进行特征融合：通过相机的方位将每个帧的顶点和法相图映射到全局坐标系。对于帧$X_{t}$中的每个像素$(u，v)_t$，都在`M`中具有相应的点$P_k$

将不同帧$X_t$中的特征集合在M中特征点的公式：

Posted 2025-02-16Updated 2025-07-02Reviewa minute read (About 216 words)

Grounding-DINO

通过结合[[DINO]]和grounded-pretraining，可以使用人类输入（例如类别名称或转介表达式）检测任意对象
Open-Vocab. Det

an open-set object detector that can detect any objects with respect to an arbitrary free-form text prompt. The model was trained on over 10 million images, including detection data, visual grounding data, and image-text pairs. It has a strong zero-shot detection performance. However, the model needs text as inputs and can only detect boxes with corresponding phrases.

Grounding-DINO

Principle

Tight modality fusion based on [[DINO]]

什么是feature fusion?

- 在多模态领域，feature fusion 特指将不同模态的特征（如视觉、文本、音频等）进行融合的技术。CLIP 应该被看作是 Middle Fusion 的一种形式, 在特征提取后就进行融合对齐 #### large-scale grounded pre-train for concept generalization Reformulating **object detection** as a **phrase grounding task** and introducing **contrastive training** between object regions and language phrases on large-scale data

Posted 2025-02-16Updated 2025-07-02Reviewa few seconds read (About 17 words)

Gounded-SAM

https://github.com/IDEA-Research/Grounded-Segment-Anything

By [[Grounding-DINO]] + SAM
Achieving Open-Vocab. Det & Seg

Posted 2025-02-15Updated 2025-07-02Review6 minutes read (About 919 words)

Scene-LLM

## Intro 尽管现有的视觉语言模型（VLM）在2D视觉语言的理解中取得了长足的进步，但与使用3D表示室内场景任务的人相比，它们对持续3D空间信息的掌握有限通常会使它们的有效性较小。最近的一些文章[[3D-LLM]]以文本和其他方式桥接3D视觉信息显示出3D视觉理解和推理的潜力。但是，它们主要处理静态3D场景，这对于涉及场景变化的互动计划的适应性较低。

本文提出的模型主要想解决3D密集标注和交互式规划。
结合

egocentric（crucial for immediate updates during object interactions and for localizing the agent within the scene）
comprehensive（provides temporal persistent and multi-view consistent details of the entire 3D scene）
scene-level的信息。

需要align the dense 3D visual information with the textual embedding space of a pre-trained LLM。3D点集由于其连续坐标系以及需要适应场景状态变化的表示形式而构成了一个独特的问题

3D-VQA
VLN(Visual-Language Navigation)

3D-Visual-Language Data Generation

和[[3D-LLM]]一样，都是多视角采集D-RGB信息然后整合为3D frame
标注信息来自于Mini-GPT-V2（capable of generating captions and object descriptions from images by using caption and grounded caption identifiers）。

3D-frame

Uses image frames and a 2D-VLM(Mini-GPT-V2) to generate frame descriptions

Scene Data

3D场景数据是通过基于其相机姿势汇总的3D帧来重建
使用Llama-2-Chat-70B [65]生成场景的语言注释

prompted with a mix of context data including generated frame captions, frame object descriptions, annotated object lists, and annotated bounding boxes. These prompts lead to diverse instruction-following data types like dense caption, object caption, task decomposition, functionality enhancement, question-answering, and human-robot dialogues

From Vision Studio 对于VLM生成内容使用的self-checking: [83]

Scene-LLM

场景-LLM是一种3D视觉语言模型（VLM），具有简单而有效的体系结构，旨在理解以基于本体和场景级别的3D视觉信息，使其能够成功执行交互式计划任务。本节概述了3D视觉特征提取过程，我们的模型的体系结构，3D视觉信息与数据集的对齐以及使用Scene-LLM进行推理。

Employ visual language semantic features [51] to represent 3D visual semantics

first extracting pixel-wise CLIP features from each image and then aggregating these into a 3D point set [[ConceptFusion]]

Tokenize 3D visual features for LLM input:

hybrid point-voxel representation (need for dense 3D visual information, support for interactive updates, and manageable token lengths for the LLM)

网络大体上分为两层：

Projection layer

To bridge 3D visual tokens(F) with the LLM’s tokenized space
FC(1030, 768)->GELU->FC(768,768)

LLM

Llama-2-7b as the foundational LLM backbone

训练

Stage 1: Pretraining for Feature Alignment

在两个坐标系统（camera和世界坐标）下使用3D帧数据，以确保场景-LLM理解以自我为中心和以场景为中心的观点。
在此阶段，仅训练了projection layer，可以有效地对齐具有文本特征的3D视觉特征，同时保持LLM参数（φ）不变。

Stage 2: Finetuning

优化Scene-llm，以准确响应用户说明。我们使用标识符令牌“我看到”将3D帧语言和3D场景语言数据合并到前言。文本描述分为指令（$T_{INST}$）及其相应的响应（$T_{ANS}$）。利用转换后的3D视觉令牌（$T_{3D}$）和指令令牌（$T_{INST}$），我们的目标是微调LLM（φ）以自动生成$T_{ANS}$.
在这里，我们共同微调了投影层和LLM，由θ= {ψ，φ}表示

Posted 2025-02-13Updated 2025-07-02读读噜16 minutes read (About 2443 words)

《悉达多》读书会p14

前言

在读这本书之前从各种渠道了解了很多推荐语

一首印度的诗
INFJ之书
能治文青病

一首印度的诗

得承认在此之前我对于印度的认知仅限于《三傻大闹宝莱坞》和历史课本中对于其历史文化的只言片语（以及我根本不求甚解）。书中的印度是否真实我并不关心，但我确实感受到了“黑塞心中禅宗的国度会是什么样的“。在这里，最为尊贵每天的日程便是，沐浴，诵经，聆听佛陀；在这里人们为了拜见一位在世活佛，甘愿跋涉千里，抛弃一切，只求得听其法义，以洗涤心灵；在这里，一个人的虔诚，洁净，可以令金钱黯然失色。

西游记中西天取的经，是无字经书，大道无言这一点在书中也有体现。

知识可以传授，但智慧不能。人们可以寻见智慧，在生命中体现出智慧，以智慧自强，以智慧来创造奇迹，但人们不可能去传授智慧。我年少时就有过这种疑问，正是我的怀疑驱使我远离教师们。我还有过一种思想，乔文达，你又会认为那是开玩笑或只是一种愚蠢的念头：就是说，每一真理的反面也同样真实。比如说，只有偏面的真理才能形诸于言辞；事实上，以语言表达或思维的一切都只能是片面的，只是半个真理而已，它们都缺乏完备、圆融与统一；当佛陀世尊宣讲关于世界的教义，他不得不把世界分为轮回与涅槃，虚幻与真如，痛苦与救赎。人别无选择，对于那些要传授教义的导师们来说尤其如此。而世界自身则遍于我之内外，从不片面。从未有一人或一事纯属轮回或者纯属涅槃，从未有一人完全是圣贤或是罪人。世界之所以表面如此是因为我们有一种幻觉，即认为时间是某种真实之物。时间并无实体，乔文达，我曾反复悟到这一点。而如果时间并非真实，那么仿佛存在于现世与永恒，痛苦与极乐，善与恶之间的分界线也只是一种幻象。

INFJ之书

悉达多在自我的路上深沉地思索。他意识到自己已不再是青年，他已经是一个成熟的男人。他感到某种东西已然脱离了他，仿佛一条蛇已蜕去了旧皮。那种伴随他整个青年时代并一直是他自我之一部分的因素已被抛在了身后：这就是寻觅导师和聆听教义的愿望。他已经离开他所见到过的最后一位导师——这位贤明的导师，最神圣的佛陀世尊。他甚至不得不离开他，他无法接受他的教义。
这位思想者缓缓地走自己的路并向自己道：你想要从教义和教师那里学到，而尽管他们教给你许多，却无法传授与你的那件事到底是什么呢? 他接着想：那就是自我，我希望学到有关自我的特性与本质。过去我一直想要摆脱自我并征服自我，然而我从未能够征服自我，我只是在欺骗它，逃离它，躲避它。的确，世上没有任何东西能够如自我那样占据我全部的思绪。这是一个难解之谜：我存在，而且我是唯一的、不同于任何其他人的独立个体。我是悉达多。我对世上万有所知最少的恰恰是我的自我，恰恰是悉达多。
这位踽踽独行的沉思者突然停下来，为那种意念所攫住，而另一种意念会立刻从前念之中浮现出来，这就是：之所以我对自我一无所知，之所以悉达多对我来说一直保持陌生与未知，只因为一点，只由于这唯一的原因——我害怕自我，我在逃避自我。我在追寻梵天，阿特曼。我欲求摧毁自我、摆脱自我以便在未知的存在最深层发现万有的核心，即阿特曼、生命、上帝或绝对终极之物。而正因为如此，我却一路丢失了自我。

他举目四望，仿佛初次见到这个世界。这世界美丽、陌生而神秘。瞧! 那儿是金黄，那儿是湛蓝，那儿又是碧绿。天空与河流，森林和山峦都如此美好，如此神秘，如此诱人，而在所有这一切之中，他，觉醒的悉达多，正走在通向自我的道路上。所有这一切，所有这些金黄与湛蓝，河流与树木第一次映入悉达多的眼帘。那不再是魔罗魅惑迷人的幻术，不再是玛耶虚无缥缈的面纱，也不再是世界万像毫无意义的偶然显现。尽管这一切为那些追求圆融统一，轻视个别差异的思想高深的婆罗门贵族所鄙弃，而河流毕竟就是河流。假如悉达多自性中唯一的神明隐秘地居于湛蓝或河流之中，那么此刻恰恰是金黄与湛蓝、天空与森林映入站在这里的悉达多的眼帘，这本身也正是天意，正是神的安排。意义与实在并非隐藏于事物的背后，而是寓于事物自身，寓于事物的一切现象。

能治文青病

怎么看待圆满

尘世并非不圆满，或是正处在一条通向圆满的漫长的路上。不，他每一个瞬间都是圆满的。一切罪孽本身就蕴含着宽恕，所有小孩儿本身就蕴含着老人，所有新生儿都蕴含着死亡，所有濒死者都蕴含着永生。

他看到的不再是他的朋友悉达多的脸庞，他仿佛看到许许多其他的形象，一个长长的系列，一条不息的形象之流——百种，千种，万种，无数的形象不断生生灭灭然而又似乎同时并存；所有这些形象一刻不停地变幻和更新，而它们又都复归于悉达多。他看见一条鱼的形象，一条眼睛已黯然无光的垂死的鱼，正极其痛苦地大张着嘴；他看见一张新生婴儿的脸庞，面色赤红，满是皱纹，正张口欲哭。他看见一张杀人凶犯的脸，看见他持刀刺进一个人的身体；而在同一瞬间，他看到这名罪犯双膝跪地，绳索缠身，头被刽子手一刀砍落。他看到陷于炽烈情爱之狂喜中的男人、女人不同姿态的赤裸身躯；他看到人们死去之后身体僵直、死寂、冰冷而空无。他看到许多动物的形象——野猪、鳄鱼、大像、公牛与飞鸟，他也看到大神黑天与阿耆尼。他看到所有这些面宠与形象以千万种方式彼此联系，彼此扶助，彼此爱恋，而同时却又彼此仇恨，彼此毁灭并重获新生。每一形态都终归于无，都是无常世界中苦难而充满激情的存在；然而它们却并未死去，它们只是在不断变幻，不断再生，不断以新的形态出现；只有时间作为不同形态之间联系的纽带。所有这些形态都经历暂住，流转与再生，彼此交汇并融合，而在这一切之上回旋着某种稀薄、虚幻却又无可置疑的存在，像一层薄薄的冰或玻璃体，像一层透明如水的躯壳、外形或面具——而这面具正是侨文达在那一刻所吻的悉达多微笑的面容。侨文达看到这面具般的微笑，这回旋于流转万相之上的圆融的微笑，这超脱于万千生生死死之上的永恒的微笑——悉达多的微笑——与他曾经上百次带着敬畏瞻仰过的乔达摩佛陀的微笑毫无二致。他们的微笑同样是那么安详、微妙而不可测度，同样是那种或许是慈悲，或许是嘲讽，形态万千的圣明的微笑。侨文达知道，一切圆成的佛陀世尊正是如是微笑的。

Posted 2025-02-13Updated 2025-07-02Review3 minutes read (About 505 words)

3D-LLM

Intro

Recent works have explored aligning images and videos with LLM for a new generation of multi-modal LLMs that equip LLMs with the ability to understand and reason about 2D images.
但是仍缺少对于3D物理空间进行分析的模型, which involves richer concepts such as spatial relationships, affordances, physics and interaction so on.

由此提出了inject the 3D world into large language models, 介绍一个全新的3D-llm模型族，可以将3D表示（即带有功能的3D点云）作为输入，并执行一系列与3D相关的任务。
优势：

关于整个场景的长期记忆可以存储在整体3D表示中，而不是情节的部分视图观测值
3D属性（如提供和空间关系）可以从3D表示形式中进行推论，远远超出了基于语言或基于2D图像的LLM的范围

挑战

数据获取：3D数据的稀缺性阻碍了基于3D的基础模型的发展。 3D数据与语言描述配对甚至更难获得
- 提出了一组独特的数据生成管道，这些管道可以生成大规模的3D数据与语言配对。
Obtain meaningful 3D features that could align with language features for 3D-LLMs: 一种方法是使用类似的对比性范式从头开始训练3D编码，以在2D图像和语言之间对齐。但是，该范式消耗了巨大的数据，时间和GPU资源。
- 使用了一个3D功能提取器，该提取器构造了渲染的多视图图像的2D预处理特征的3D功能。最近，还使用了2D预训练的CLIP特征来训练其VLMS，也有很多视觉语言模型（例如Blip-2，Flamingo）。由于我们提取的3D功能与2D预处理的功能相同，因此我们可以无缝使用2D VLM作为骨架，并输入3D功能，以进行3D-LLM的有效训练。

TODO

Posted 2025-02-13Updated 2025-07-02Reviewa few seconds read (About 0 words)

PointLLM

一、研究背景与意义

二、研究目标

三、研究Pipeline

0. 知识图谱的构建

1. 动态语义空间重构（通用场景大模型适配专业化的工作领域，不需要微调fine-tuning free）

2. 基于知识图谱的推理与任务生成

配置

Grounding-DINO

Principle

Tight modality fusion based on [[DINO]]

3D-Visual-Language Data Generation

3D-frame

Scene Data

Scene-LLM

网络大体上分为两层：

Projection layer

LLM

训练

Stage 1: Pretraining for Feature Alignment

Stage 2: Finetuning

前言

一首印度的诗

INFJ之书

能治文青病

怎么看待圆满

Intro

TODO

Archives

Recents

Tags