Posted 2026-02-06Updated 2026-06-22Review10 minutes read (About 1443 words)

BAGEL: Emerging Properties in Unified Multimodal Pretraining

作者：Chaorui Deng, Deyao Zhu, Kunchang Li 等 (ByteDance Seed)

研究背景

统一多模态理解与生成（Unified Multimodal Understanding and Generation）是当前AI领域的热点方向。GPT-4o、Gemini 2.0等闭源系统展现了强大能力，但开源模型与之仍存在显著差距。现有开源统一模型主要在图文配对数据上训练，缺乏对复杂多模态交错数据（Interleaved Data）的利用。

研究目标

缩小开源统一多模态模型与闭源系统（GPT-4o、Gemini 2.0）之间的性能差距
解决现有模型架构中理解与生成模块之间的信息瓶颈（Bottleneck）问题
构建能够支持复杂多模态推理的大规模交错数据

核心概念

理解与生成之间的瓶颈（Bottleneck）

在采用 External Diffuser 架构的模型中，LLM/VLM 与扩散模型通过轻量级适配器连接：

语言模型生成少量潜在token作为”语义条件”
这些token被传递给扩散模块生成图像
问题：LLM的丰富上下文被压缩到少量token中，导致信息损失，尤其影响长上下文多模态推理

Mixture-of-Transformer-Experts (MoT)

与传统MoE不同，MoT复制整个Transformer层而非仅FFN：

理解专家：处理文本和ViT token
生成专家：处理VAE token
两个专家通过共享自注意力在每层交互

研究方法

架构设计

BAGEL采用无瓶颈的集成Transformer方案：

双视觉编码器：

理解编码器：SigLIP2-so400m/14，捕获语义信息
生成编码器：FLUX VAE，处理像素级信息

训练范式

模态	方法	损失函数
文本	Next-Token-Prediction	Cross-Entropy
视觉	Rectified Flow	MSE

损失权重比：$\text{CE} : \text{MSE} = 0.25 : 1$

广义因果注意力（Generalized Causal Attention）

对于交错多图像生成：

Noised VAE tokens：用于Rectified-Flow训练
Clean VAE tokens：作为后续生成的条件
ViT tokens：统一输入格式，提升交错生成质量

采用Diffusion Forcing策略，对不同图像添加独立噪声级别。

数据构��

数据规模

数据类型	数据量	Token数
纯文本	400M	0.4T
图文配对（理解）	500M	0.5T
图文配对（生成）	1600M	2.6T
交错理解数据	100M	0.5T
交错生成数据（视频）	45M	0.7T
交错生成数据（网页）	20M	0.4T

交错数据构建流程

视频数据：

视频预处理（分割、裁剪、质量过滤）
使用蒸馏的小型VLM生成帧间描述
构建时序对齐的交错序列

网页数据：

两阶段主题筛选（LLM + fastText）
质量过滤（分辨率、清晰度、相关性）
Caption-first策略：为每张图像生成描述并插入其前

推理增强数据（Reasoning-Augmented Data）

受DeepSeek-R1启发，构建50万条推理增强样本：

Text-to-Image生成
自由形式图像操作
概念性编辑

主要发现

涌现能力（Emerging Properties）

论文定义：某能力在早期训练阶段不存在，但在后期训练中出现

不同能力的涌现时间点（达到85%峰值性能所需token数）：

能力	涌现时间点
多模态理解	~0.18T tokens
图像生成	~0.68T tokens
图像编辑	~2.64T tokens
智能编辑（复杂推理）	~3.61T tokens

关键发现：

理解和生成能力最先收敛
编辑能力随后涌现
需要复杂推理的智能编辑能力最后涌现
ViT tokens对智能编辑至关重要（移除后性能下降16%）

架构对比实验

在1.5B模型上对比Dense、MoE、MoT三种架构：

MoT在生成任务上优势最明显
表明理解和生成可能需要不同的参数空间

实验结果

多模态理解（7B参数）

基准	BAGEL	Janus-Pro	Qwen2.5-VL
MMMU	58.6	41.8	49.3
MM-Vet	73.1	55.9	62.8
MathVista	69.3	54.7	68.2
MMVP	67.2	48.3	-

图像生成（GenEval）

模型	Overall
BAGEL (w/ rewriter)	0.88
BAGEL	0.82
Janus-Pro	0.80
FLUX.1-dev	0.82
SD3-Medium	0.74

智能编辑（IntelligentBench）

模型	Score
GPT-4o	78.9
BAGEL w/ Self-CoT	55.3
BAGEL	44.9
Gemini 2.0	57.6
Step1X-Edit	14.9

讨论

优势

无瓶颈架构：理解与生成模块间无损信息交互
涌现能力：首次系统揭示统一多模态预训练的涌现规律
开源贡献：发布代码、模型权重和数据构建协议
推理增强：CoT显著提升复杂任务表现（WISE: +0.18, IntelligentBench: +10.4）

局限性

与GPT-4o在智能编辑上仍有差距（55.3 vs 78.9）
模型规模相对较小（7B active / 14B total）
训练计算成本高（需要大规模交错数据）

未来方向

更大规模训练：探索更大模型和更多数据下的涌现行为
视频生成：论文展示了初步的视频生成能力，有待深入
强化学习：无瓶颈架构为多模态RL提供了基础
世界建模：导航、3D操作等世界建模任务的进一步探索

参考文献

Deng et al. (2025). Emerging Properties in Unified Multimodal Pretraining. arXiv:2505.14683
DeepSeek-AI (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
Esser et al. (2024). Scaling Rectified Flow Transformers for High-Resolution Image Synthesis (SD3)

Posted 2026-02-05Updated 2026-06-22Review10 minutes read (About 1561 words)

LingBot-VLA

LingBot-VLA: A Pragmatic VLA Foundation Model

论文链接 | GitHub | Checkpoints

研究背景

视觉-语言-动作（Vision-Language-Action, VLA）基础模型是机器人操作领域的新兴方法，通过大规模预训练使机器人能够执行由自然语言指令引导的多样化操作任务。然而，目前存在以下问题：

缺乏关于真实机器人性能如何随预训练数据规模增长而变化的系统性实证研究
缺乏高效的训练代码库来支持大规模数据的扩展评估
缺乏跨多平台、多任务的系统性真实世界评估基准

研究目标

探索 VLA 模型在真实世界机器人数据上的扩展规律（Scaling Law）
建立跨多平台、多任务的系统性真实世界评估基准
开发高效的大规模 VLA 训练代码库

核心概念

Mixture-of-Transformers (MoT) 架构

将预训练的视觉语言模型（VLM）与动作生成模块（Action Expert）结合，通过共享自注意力机制实现跨模态统一建模。视觉-语言和动作模态通过独立的 Transformer 路径处理，既保留 VLM 的语义先验，又避免跨模态干扰。

Flow Matching

一种用于连续动作建模的生成方法，通过学习从噪声到目标动作的向量场来生成平滑的机器人控制信号。

Blockwise Causal Attention

将序列划分为图像-指令块、状态块和动作块，应用因果掩码防止信息泄露，确保动作预测只能访问当前和历史观测信息。

研究方法

模型架构

LingBot-VLA 采用 MoT 架构，整合 Qwen2.5-VL 作为视觉语言骨干网络，配合独立的 Action Expert 模块：

联合建模序列：
$$[O_t, A_t] = [I_t^1, I_t^2, I_t^3, T_t, s_t, a_t, a_{t+1}, \ldots, a_{t+T-1}]$$

其中 $I_t^{1,2,3}$ 为三视角图像，$T_t$ 为任务指令，$s_t$ 为机器人状态，$A_t$ 为动作序列（chunk length = 50）。
类似[[BAGEL-Unified-Multimodal-Pretraining]]

Flow Matching 目标函数

定义概率路径通过线性插值：
$$A_{t,s} = sA_t + (1-s)\epsilon, \quad \epsilon \sim \mathcal{N}(0, I)$$

训练目标：
$$\mathcal{L}{FM} = \mathbb{E}{s \sim U[0,1], A_t, \epsilon}|v_\theta(A_{t,s}, O_t, s) - (A_t - \epsilon)|^2$$

深度信息蒸馏

通过可学习查询 $Q_t$ 与 LingBot-Depth 模型的深度 token $D_t$ 对齐，增强空间感知：
$$\mathcal{L}{distill} = \mathbb{E}{Q_t}|Proj(Q_t) - D_t|$$

训练效率优化

FSDP 分布式策略：采用混合分片数据并行（HSDP），为 Action Expert 模块构建专用分片组
算子级优化：使用 FlexAttention 优化稀疏注意力计算，torch.compile 进行算子融合
混合精度：reduction 使用 float32，存储和通信使用 bfloat16

主要发现

扩展规律验证

预训练数据从 3,000 小时扩展到 20,000 小时，下游任务成功率持续显著提升
在 20,000 小时数据量下仍未出现饱和迹象，表明 VLA 性能持续受益于数据量增加
首次提供了真实世界机器人学习中有利扩展特性的实证证据

数据效率

仅使用 80 个演示即可超越 π0.5 使用 130 个演示的性能
随着后训练数据量增加，与基线的性能差距进一步扩大

实验设计

预训练数据

规模：约 20,000 小时真实世界操作数据
来源：9 种双臂机器人平台（AgiBot G1、AgileX、Galaxea R1Lite/R1Pro、Realman Rs-02、Leju KUAVO、Qinglong、ARX Lift2、Bimanual Franka）

评估基准

GM-100 基准：100 个操作任务，39,000 个专家演示
评估规模：3 个机器人平台，每任务 130 个后训练 episode，共 22,500 次试验
对比方法：π0.5、GR00T N1.6、WALL-OSS

真实世界评估结果

方法	平均成功率(SR)	平均进度分(PS)
WALL-OSS	4.05%	10.35%
GR00T N1.6	7.59%	15.99%
π0.5	13.02%	27.65%
LingBot-VLA w/o depth	15.74%	33.69%
LingBot-VLA w/ depth	17.30%	35.41%

仿真评估结果（RoboTwin 2.0）

方法	Clean 场景 SR	Randomized 场景 SR
π0.5	82.74%	76.76%
LingBot-VLA w/o depth	86.50%	85.34%
LingBot-VLA w/ depth	88.56%	86.68%

训练吞吐量

实现 261 samples/s/GPU（8-GPU 配置）
相比 StarVLA、DexBotic、OpenPI 提升 1.5~2.8 倍
在 256 GPU 规模下仍保持接近线性扩展

讨论

优势

首次在大规模真实世界数据上验证 VLA 扩展规律
显著优于现有 SOTA 方法的多平台泛化能力
高效的训练代码库，支持大规模分布式训练
开源代码、模型和基准数据

局限性

目前仅支持双臂机器人配置
评估主要集中在桌面操作任务
深度信息蒸馏依赖额外的 LingBot-Depth 模型

未来方向

扩展机器人类型：整合单臂和移动机器人数据，支持更多样化的操作能力
非约束环境：探索在非结构化环境中的移动操作能力
持续扩展：进一步扩大预训练数据规模，探索扩展规律的上限

参考文献

Black et al. (2025). π0: A vision-language-action flow model for general robot control. RSS.
Black et al. (2025). π0.5: A vision-language-action model with open-world generalization. CoRL.
Bjorck et al. (2025). GR00T N1: An open foundation model for generalist humanoid robots. arXiv.
Bai et al. (2025). Qwen2.5-VL technical report. arXiv.
Lipman et al. (2022). Flow matching for generative modeling. arXiv.
Wang et al. (2026). The Great March 100: 100 detail-oriented tasks for evaluating embodied AI agents.

Posted 2026-02-03Updated 2026-06-22Review15 minutes read (About 2285 words)

UniDiffuser

论文链接 | GitHub

作者：Fan Bao, Shen Nie, Kaiwen Xue, Chongxuan Li, Shi Pu, Yaole Wang, Gang Yue, Yue Cao, Hang Su, Jun Zhu
发表于：ICML 2023

研究背景

扩散模型（Diffusion Models）在图像生成领域取得了巨大成功，但现有方法主要基于 U-Net 架构。随着 Transformer 在各领域的成功应用，如何将 Transformer 有效地应用于多模态扩散模型成为一个重要研究方向。现有的多模态生成方法通常需要为不同任务（文生图、图生文、联合生成等）设计不同的模型架构。

研究目标

多模态联合建模：用一个统一的框架同时处理图像、文本等多种模态的生成任务
任务统一：用单一模型支持文生图、图生文、联合生成、无条件生成等多种任务
架构创新：设计适合多模态扩散的 Transformer 架构（U-ViT）

核心概念

扩散模型基础

扩散模型通过前向过程逐步向数据添加噪声，再通过反向过程学习去噪，从而实现生成。

多模态独立加噪

UniDiffuser 的核心思想是对不同模态独立添加噪声，使用不同的时间步 $t$ 和 $s$，通过控制时间步实现任务切换。

U-ViT 架构

将 U-Net 的长跳跃连接（Long Skip Connection）引入 Vision Transformer，在浅层和深层之间建立连接。

研究方法

1. 单模态扩散基础公式

前向过程（加噪）

$$q(x_t | x_0) = \mathcal{N}(x_t; \alpha_t x_0, \sigma_t^2 I)$$
参数说明：

$x_0$：原始干净数据
$x_t$：时间步 $t$ 的加噪数据
$\alpha_t, \sigma_t$：噪声调度参数，满足 $\alpha_t^2 + \sigma_t^2 = 1$（VP-SDE 设定）
随着 $t$ 增大，$\alpha_t \to 0$，$\sigma_t \to 1$，数据逐渐变成纯噪声

等价的重参数化表示：
$$x_t = \alpha_t x_0 + \sigma_t \epsilon, \quad \epsilon \sim \mathcal{N}(0, I)$$
这个形式便于采样和训练，$\epsilon$ 是标准高斯噪声。

反向过程（去噪）

扩散模型学习反向过程 $p_\theta(x_{t-1}|x_t)$，通过神经网络预测噪声 $\epsilon_\theta(x_t, t)$，然后恢复 $x_0$：
$$\hat{x}_0 = \frac{x_t - \sigma_t \epsilon_\theta(x_t, t)}{\alpha_t}$$
解释：由 $x_t = \alpha_t x_0 + \sigma_t \epsilon$ 反解得到。预测出噪声后，即可估计原始数据。

2. 多模态联合扩散框架

联合前向过程

对于图文对 $(x_0, y_0)$，独立地对每个模态加噪：
$$q(x_t, y_s | x_0, y_0) = q(x_t | x_0) \cdot q(y_s | y_0)$$
展开形式：
$$x_t = \alpha_t x_0 + \sigma_t \epsilon_x, \quad y_s = \alpha_s y_0 + \sigma_s \epsilon_y$$
关键点：两个模态使用独立的时间步 $t$ 和 $s$，这是实现多任务统一的核心设计。

联合分布的边缘化

数据的联合分布 $q(x_0, y_0)$ 加噪后变为：
$$q(x_t, y_s) = \int q(x_t, y_s | x_0, y_0) q(x_0, y_0) , dx_0 dy_0$$
解释：这是对所有可能的原始数据对进行积分，得到加噪后数据的边缘分布。

3. 统一多任务的核心机制

核心洞察

通过控制 $t$ 和 $s$ 的取值，可以从联合分布中恢复各种边缘分布和条件分布：

时间步设置	对应分布	实现的任务
$t, s > 0$	$q(x_t, y_s)$	联合生成
$t > 0, s = 0$	$q(x_t, y_0) = q(x_t \| y_0) q(y_0)$	文生图
$t = 0, s > 0$	$q(x_0, y_s) = q(y_s \| x_0) q(x_0)$	图生文
$t > 0, s = T$	$q(x_t, y_T) \approx q(x_t) q(y_T)$	无条件图像生成

条件生成的数学原理

当 $s=0$ 时，$y_s = y_0$（文本无噪声），此时：
$$q(x_t, y_0) = q(x_t | y_0) \cdot q(y_0)$$
解释：对 $y$ 不加噪声（$s=0$）在数学上等价于以 $y$ 为条件进行生成。这是一个优雅的设计——不需要修改模型架构，只需控制时间步即可切换任务。

4. 训练目标函数

噪声预测目标

模型 $\epsilon_\theta$ 同时预测两个模态的噪声：
$$[\hat{\epsilon}_x, \hat{\epsilon}y] = \epsilon_\theta(x_t, y_s, t, s)$$
完整训练损失：
$$\mathcal{L}(\theta) = \mathbb{E}{t, s, (x_0, y_0), \epsilon_x, \epsilon_y} \left[ \lambda_t |\epsilon_x - \hat{\epsilon}_x|^2 + \lambda_s |\epsilon_y - \hat{\epsilon}_y|^2 \right]$$
各项说明：

$t, s \sim \mathcal{U}[0, T]$：从均匀分布采样时间步
$(x_0, y_0) \sim q(x_0, y_0)$：从数据集采样图文对
$\epsilon_x, \epsilon_y \sim \mathcal{N}(0, I)$：独立采样两个高斯噪声
$\lambda_t, \lambda_s$：损失权重（通常设为 1）
$|\cdot|^2$：均方误差损失

简化形式（实际训练中常用）：
$$\mathcal{L} = \mathbb{E}\left[|\epsilon_x - \hat{\epsilon}_x|^2 + |\epsilon_y - \hat{\epsilon}_y|^2\right]$$

5. 采样过程

联合采样（DDPM 形式）

从 $t=T$（纯噪声）开始，逐步去噪到 $t=0$：
$$x_{t-1} = \frac{1}{\sqrt{\alpha_{t|t-1}}} \left( x_t - \frac{1-\alpha_{t|t-1}}{\sigma_t} \hat{\epsilon}x \right) + \tilde{\sigma}t z$$
$$y{s-1} = \frac{1}{\sqrt{\alpha{s|s-1}}} \left( y_s - \frac{1-\alpha_{s|s-1}}{\sigma_s} \hat{\epsilon}_y \right) + \tilde{\sigma}_s z’$$
参数说明：

$z, z’ \sim \mathcal{N}(0, I)$：采样的随机噪声（引入随机性）
$\tilde{\sigma}_t$：后验方差，控制采样的随机程度
$\alpha_{t|t-1} = \alpha_t / \alpha_{t-1}$：相邻时间步的比值

条件采样（文生图）

固定 $s=0$（即 $y_s = y_0$ 为输入文本），只对图像进行去噪：
$$x_{t-1} = \frac{1}{\sqrt{\alpha_{t|t-1}}} \left( x_t - \frac{1-\alpha_{t|t-1}}{\sigma_t} \hat{\epsilon}_x(x_t, y_0, t, 0) \right) + \tilde{\sigma}_t z$$
解释：文本时间步固定为 0，模型接收干净文本作为条件，只更新图像。

6. U-ViT 架构中的跳跃连接

U-ViT 在第 $l$ 层和第 $(L-l)$ 层之间添加跳跃连接：
$$h^{(L-l)} = \text{Block}^{(L-l)}\left( \text{Concat}(h^{(L-l-1)}, h^{(l)}) \right)$$
参数说明：

$h^{(l)}$：第 $l$ 层的隐藏状态
$L$：Transformer 总层数
Concat：沿特征维度拼接
拼接后通过线性层降维回原始维度

设计动机：借鉴 U-Net 的成功经验，跳跃连接帮助保留低层的细节信息，有助于生成高质量图像。

7. 分类器自由引导（Classifier-Free Guidance, CFG）

为增强条件生成效果，使用 CFG 技术：
$$\tilde{\epsilon}_x = \epsilon_\theta(x_t, \varnothing, t, 0) + w \cdot \left( \epsilon_\theta(x_t, y_0, t, 0) - \epsilon_\theta(x_t, \varnothing, t, 0) \right)$$
参数说明：

$\varnothing$：空文本条件（null condition）
$w$：引导强度（guidance scale），通常 $w > 1$
第一项：无条件预测
括号内：条件预测与无条件预测的差值（条件信号）

等价形式：
$$\tilde{\epsilon}_x = (1-w) \cdot \epsilon_\theta(x_t, \varnothing, t, 0) + w \cdot \epsilon_\theta(x_t, y_0, t, 0)$$

训练技巧：训练时以一定概率（如 10%）将文本随机替换为空文本，使模型同时学习条件和无条件生成。

模型输入总结

阶段	图像输入	文本输入	时间步
训练	加噪图像 $x_t$	加噪文本 $y_s$	$t, s$ 随机采样
联合生成	纯噪声	纯噪声	$t=s=T \to 0$
文生图	纯噪声	原始文本	$t: T \to 0$, $s=0$
图生文	原始图像	纯噪声	$t=0$, $s: T \to 0$

主要发现

实验结果

MS-COCO 256×256 文生图（零样本）：

方法	FID↓	CLIP Score↑
DALL-E	27.50	-
GLIDE	12.24	-
Stable Diffusion	12.63	0.331
UniDiffuser	9.71	0.322

ImageNet 256×256 类条件生成：

方法	FID↓
ADM	10.94
LDM-4	10.56
DiT-XL/2	9.62
U-ViT-H/2	2.29

讨论

优势

统一框架：单一模型支持多种生成任务，无需为每个任务单独训练
优雅设计：通过时间步控制实现任务切换，不需要修改架构
强大性能：在多个基准上达到 SOTA
可扩展性：在 10 亿参数规模上验证有效

局限性

需要大规模图文对数据进行训练
文本生成质量依赖于 CLIP 编码器的表示能力
推理速度受限于扩散模型的迭代采样

公式速查表

公式	含义
$x_t = \alpha_t x_0 + \sigma_t \epsilon$	前向加噪过程
$q(x_t, y_s \| x_0, y_0) = q(x_t\|x_0) q(y_s\|y_0)$	独立加噪（多任务统一的关键）
$\mathcal{L} = \|\epsilon_x - \hat{\epsilon}_x\|^2 + \|\epsilon_y - \hat{\epsilon}_y\|^2$	训练目标
$s=0 \Rightarrow$ 以文本为条件	任务切换机制
$\tilde{\epsilon} = \epsilon_\varnothing + w(\epsilon_y - \epsilon_\varnothing)$	分类器自由引导

参考文献

Bao, F., et al. (2023). One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale. ICML 2023.
Ho, J., et al. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 2020.
Peebles, W., & Xie, S. (2023). Scalable Diffusion Models with Transformers. ICCV 2023.

Posted 2026-02-02Updated 2026-06-22Review28 minutes read (About 4167 words)

GR00T N1 An Open Foundation Model for Generalist Humanoid Robots

# GR00T N1: 通用人形机器人开放基础模型

论文链接 | NVIDIA, 2025

研究背景

人形机器人作为通用机器人的理想硬件平台，需要强大的基础模型来实现智能自主操作。受大语言模型和视觉模型成功的启发，研究者希望通过在大规模异构数据上训练机器人基础模型，使其能够理解新场景、处理真实世界的变化并快速学习新任务。然而，与文本和图像领域不同，机器人领域缺乏互联网规模的训练数据，不同机器人的传感器、自由度、控制模式差异巨大，形成”数据孤岛”问题。

研究目标

本论文要解决的核心问题：

数据稀缺问题：人形机器人数据收集成本高、耗时长，如何突破真实数据瓶颈
跨具身泛化：如何统一不同机器人的状态和动作空间，实现跨具身学习
数据效率：如何在有限数据下快速适应新任务并在真实环境中鲁棒执行
端到端优化：如何将高层推理与低层控制统一到单一模型中

核心概念

Vision-Language-Action (VLA) 模型

视觉-语言-动作模型，接收图像观察和语言指令作为输入，直接输出机器人动作。与传统的分层方法（VLM规划 + 低层策略执行）不同，VLA模型实现端到端优化。

双系统架构 (Dual-System Architecture)

受人类认知理论启发（Kahneman, 2011），将模型分为：

System 2（推理系统）：慢速、深思熟虑的高层推理
System 1（反应系统）：快速、自动化的低层控制

数据金字塔 (Data Pyramid)

将异构训练数据按规模和具身特异性组织成三层结构：

底层：大规模网络数据和人类视频（通用先验）
中层：合成数据（仿真+神经生成，可扩展）
顶层：真实机器人数据（具身特定，高质量）

潜在动作 (Latent Actions)

通过VQ-VAE([[VQ-VAE-and-Latent-Action-for-Robotics]])学习的通用动作表示，能够统一不同具身体（包括人类）的动作空间，使无动作标签的视频数据可用于训练。

研究方法

模型架构

GR00T N1采用双系统组合架构，总参数量22亿（GR00T-N1-2B）：

System 2: Vision-Language Module

输入处理:
├─ 图像: SigLIP-2编码器 → 64个token (224×224)
└─ 文本: SmolLM2 tokenizer → 文本token

特征提取:
└─ Eagle-2 VLM (1.34B参数)
   ├─ 处理vision-language tokens
   └─ 输出: 中间层embeddings φ_t (第12层)

关键设计：

使用中间层而非最终层特征（更快推理+更高成功率）
语言组件冻结（保留预训练知识）
视觉编码器可训练（适应机器人任务）
运行频率：10Hz

System 1: Diffusion Transformer Module

DiT Block结构（重复N次）:
├─ Self-Attention
│  └─ 输入: noised action tokens + state embeddings
│
└─ Cross-Attention
   ├─ Query: action/state tokens
   └─ Key & Value: VLM输出的φ_t

动作生成流程：

输入加噪动作 $A_t^{\tau} = \tau A_t + (1-\tau)\epsilon$，其中 $\tau \in [0,1]$
通过DiT迭代去噪（K=4步）
输出16步动作序列（action chunking）
运行频率：120Hz

Flow-Matching损失：

$$
\mathcal{L}{fm}(\theta) = \mathbb{E}{\tau} |V_{\theta}(\varphi_t, A_t^{\tau}, q_t) - (\epsilon - A_t)|^2
$$

其中 $V_{\theta}$ 是[[Diffusion-Transformers-DiT]]模型，预测去噪向量场。

模块交互机制

信息流:
图像 + 语言指令
    ↓
[System 2: Eagle-2 VLM]
    ↓ (输出 φ_t)
[Cross-Attention Bridge]
    ↓
[System 1: DiT]
├─ Self-Attention (action + state)
└─ Cross-Attention (attend to φ_t)
    ↓
16步动作序列

端到端联合训练：

两个模块通过cross-attention紧密耦合
使用统一的flow-matching loss优化
辅助目标检测loss增强空间理解：

$$
\mathcal{L} = \mathcal{L}{fm} + \mathcal{L}{det}
$$

异构数据训练策略

1. 数据金字塔组织

层级	数据源	时长	特点
顶层	真实机器人数据	3,289小时	具身特定，高质量
中层	仿真数据	1,743小时	可扩展，物理约束
中层	神经生成数据	827小时	反事实场景，多样性
底层	人类视频	2,517小时	大规模，通用先验

总计：8,376小时训练数据

2. 潜在动作学习

VQ-VAE训练：

# 编码器
输入: (当前帧 x_t, 未来帧 x_{t+H})
     ↓
Encoder → 连续embedding → 量化到codebook
     ↓
潜在动作 z_t

# 解码器
输入: x_t + z_t
     ↓
Decoder → 重建 x_{t+H}

跨具身一致性：

同一潜在动作在不同具身体中语义一致
例如：潜在动作1 = “右臂向左移动”（对所有机器人和人类）

训练使用：

提取预量化连续embedding作为”LAPA具身体”的动作
使用flow-matching loss训练

3. 神经轨迹生成

目标：从88小时真实数据扩增到827小时（~10倍）

技术流程：

步骤1: 微调视频生成模型
├─ 基础模型: WAN2.1-I2V-14B
├─ 方法: LoRA微调
├─ 数据: 3,000条轨迹，81帧@480P
└─ 训练: 100 epochs

步骤2: 生成反事实轨迹
├─ 输入: 初始帧 + 新语言指令
├─ 语言生成: 多模态LLM检测物体
│   生成"pick {object} from {A} to {B}"
└─ 输出: 高质量视频

步骤3: 质量过滤
├─ 采样8帧 → LLM判断是否遵循指令
└─ 不合格 → 重新标注

步骤4: 动作标注
├─ 潜在动作编码器 → LAPA
└─ 逆动力学模型 → 伪动作标签

生成能力：

改变操作手（左手↔右手）
改变目标位置和物体
处理仿真难题（液体、铰接物体）
多视角生成（4宫格视频）

4. 仿真数据自动生成

DexMimicGen系统：

输入: 少量人类演示（几十条）
     ↓
分割 → 物体中心的子任务片段
     ↓
变换 → 根据新物体位置调整
     ↓
组合 → 插值并组合片段
     ↓
验证 → 仿真执行，保留成功轨迹
     ↓
输出: 每任务10,000条演示

规模：

54个源-目标容器组合
540,000条预训练轨迹
11小时生成 = 6,500小时等效人类演示

5. 具身特定编码器/解码器

处理不同维度的状态和动作：

embodiments = {
    "GR-1": {
        "state": [joint_pos, joint_vel, base_pos, ...],
        "action": [joint_targets, ...],
        "encoder": MLP_GR1,
        "decoder": MLP_GR1
    },
    "Franka": {
        "state": [ee_pos, ee_rot, gripper],
        "action": [ee_delta, gripper_cmd],
        "encoder": MLP_Franka,
        "decoder": MLP_Franka
    },
    "LAPA": {  # 潜在动作
        "action": [latent_embedding],
        "encoder": MLP_LAPA,
        "decoder": MLP_LAPA
    }
}

6. 统一训练框架

预训练阶段：

全局batch size: 16,384
训练步数: 200,000
数据混合采样：真实机器人(40%) + 仿真(30%) + 神经(20%) + 人类视频(10%)
计算资源: 最多1024个H100 GPU，约50,000 GPU小时

后训练阶段：

Batch size: 128-1024
训练步数: 20,000-60,000
可选神经轨迹协同训练（1:1采样比例）
可在单个A6000 GPU上微调

主要发现

预训练泛化能力

在GR-1人形机器人上的零样本评估：

任务	成功率	说明
左手抓取→右手交接→放置	76.6%	需要双手协调
新物体→新容器	73.3%	泛化到未见物体

仿真基准测试

100条演示/任务的性能对比：

方法	RoboCasa	DexMG	GR-1	平均
BC-Transformer	26.3%	53.9%	16.1%	26.4%
Diffusion Policy	25.6%	56.1%	32.7%	33.4%
GR00T-N1-2B	32.1%	66.5%	50.0%	45.0%

关键观察：

GR00T N1在所有基准上均优于基线
在GR-1任务上优势最明显（+17.3%）

真实世界部署

GR-1人形机器人任务成功率：

任务类型	Diffusion Policy (10%数据)	Diffusion Policy (全量数据)	GR00T-N1-2B (10%数据)	GR00T-N1-2B (全量数据)
抓取放置	3.0%	36.0%	35.0%	82.0%
铰接物体	14.3%	38.6%	62.0%	70.9%
工业操作	6.7%	61.0%	31.0%	70.0%
多机协作	27.5%	62.5%	50.0%	82.5%
平均	10.2%	46.4%	42.6%	76.8%

数据效率：

GR00T N1用10%数据（42.6%）≈ Diffusion Policy用全量数据（46.4%）
展现出色的样本效率

神经轨迹增强效果

RoboCasa基准（协同训练3K神经轨迹/任务）：

数据量	仅真实数据	+LAPA	+IDM
30条	17.4%	20.8% (+3.4%)	20.0% (+2.6%)
100条	32.1%	38.5% (+6.4%)	40.9% (+8.8%)
300条	49.6%	53.8% (+4.2%)	56.4% (+6.8%)

真实世界（协同训练100神经轨迹/任务）：

平均提升：+5.8%

观察：

低数据场景：LAPA略优（更通用的先验）
高数据场景：IDM更优（更接近真实动作）

定性分析

运动质量：

GR00T N1运动更流畅，抓取精度更高
Diffusion Policy常出现初始帧不动、抓取不准确

泛化能力：

预训练模型能执行未见过的双手交接任务
后训练模型在特定任务上更精确，但失去部分泛化能力

实验设计

仿真基准

RoboCasa Kitchen（24任务）：

机器人：Franka Emika Panda
任务：抓取放置、开关门、按按钮、转水龙头等
观察：3个RGB相机（左、右、腕部）
动作：末端执行器相对位姿 + 夹爪状态
数据：每任务3,000条MimicGen生成的演示

DexMimicGen Cross-Embodiment Suite（9任务）：

具身体：
- 双臂Panda + 平行夹爪（穿线、组装、运输）
- 双臂Panda + 灵巧手（清理、抬托盘）
- GR-1人形 + 灵巧手（倒水、咖啡、分类）
数据：每任务1,000条演示

GR-1 Tabletop Tasks（24任务）：

机器人：GR-1人形 + Fourier灵巧手
任务：18个重排任务 + 6个铰接物体任务
观察：头部自我中心相机
动作：关节位置/旋转 + 腰部/颈部
数据：每任务1,000条DexMimicGen生成

真实世界基准

任务类别：

抓取放置（5任务）：
- 托盘→盘子、砧板→篮子、餐垫→碗等
- 评估：见过和未见过物体
铰接物体（3任务）：
- 白色抽屉、深色柜子、木箱
- 要求：放入物体并关闭
工业操作（3任务）：
- 机械零件打包
- 网格杯倾倒
- 圆柱体交接
多机协作（2任务）：
- 第1部分：抓取→放入网格杯→交给另一机器人
- 第2部分：接收→放入黄色箱→倾倒剩余物

数据收集：

遥操作时长：15分钟-3小时/任务
过滤低质量轨迹

评估协议

仿真：

每任务100次试验
取最后5个checkpoint的最大值
Checkpoint间隔：500步

真实机器人：

每任务10次试验（机械打包任务5次）
部分评分系统（捕捉不同执行阶段）
低数据场景：10%数据子采样

训练配置

预训练：

学习率：1e-4
优化器：AdamW (β1=0.95, β2=0.999)
学习率调度：cosine，warmup比例0.05
Batch size：16,384
步数：200,000

后训练：

Batch size：128-1024
步数：20,000-60,000
其他超参数同预训练

讨论

优势

统一的跨具身学习：
- 单一模型支持从桌面机械臂到双臂人形机器人
- 潜在动作空间统一不同具身体
卓越的数据效率：
- 10%数据达到基线全量数据性能
- 预训练提供强大的先验知识
可扩展的数据生成：
- 神经轨迹生成：10倍数据扩增
- 仿真自动生成：11小时生成6,500小时等效数据
端到端优化：
- VLM推理与DiT控制联合训练
- 避免分层方法的接口问题
开源生态：
- 公开22亿参数模型
- 提供训练数据和仿真基准

局限性

任务范围限制：
- 当前主要关注短时域桌面操作
- 未涉及长时域移动操作（loco-manipulation）
合成数据质量：
- 视频生成模型仍面临多样性和物理一致性挑战
- 需要质量过滤和重新标注
硬件依赖：
- 需要高端GPU进行训练（H100集群）
- 推理需要L40 GPU（63.9ms/16动作）
泛化-专精权衡：
- 后训练提升特定任务性能但损失部分泛化能力
- 预训练模型能执行双手交接，后训练模型失去此能力
视觉-语言骨干限制：
- 当前VLM的空间推理和语言理解能力仍有提升空间
- 更强的VLM可能进一步提升性能

未来方向

长时域移动操作：
- 扩展到全身运动和导航
- 需要改进硬件、模型架构和训练数据
更强的视觉-语言骨干：
- 提升空间推理能力
- 增强语言理解和任务规划
改进合成数据生成：
- 提高视频生成的多样性和反事实能力
- 增强物理一致性和真实感
- 探索自动化初始帧生成（img2img扩散）
新型模型架构：
- 探索更高效的推理-控制耦合方式
- 研究分层时间建模
鲁棒性和泛化：
- 提升对环境变化的适应能力
- 增强零样本和少样本学习能力
多模态感知：
- 整合触觉、力觉等其他传感器
- 探索多模态融合策略
长时域视频生成：
- 多轮视频生成实现长任务序列
- 原子任务组合

参考文献

NVIDIA (2025). GR00T N1: An Open Foundation Model for Generalist Humanoid Robots. arXiv:2503.14734v2.
Black et al. (2024). π0: A vision-language-action flow model for general robot control. arXiv:2410.24164.
Brohan et al. (2022). RT-1: Robotics transformer for real-world control at scale. arXiv:2212.06817.
Brohan et al. (2023). RT-2: Vision-language-action models transfer web knowledge to robotic control. arXiv:2307.15818.
Chi et al. (2024). Diffusion Policy: Visuomotor policy learning via action diffusion. IJRR.
Jiang et al. (2024). DexMimicGen: Automated data generation for bimanual dexterous manipulation via imitation learning. CoRL.
Mandlekar et al. (2023). MimicGen: A data generation system for scalable robot learning using human demonstrations. CoRL.
Nasiriany et al. (2024). RoboCasa: Large-scale simulation of everyday tasks for generalist robots. RSS.
Open X-Embodiment Collaboration et al. (2024). Open X-Embodiment: Robotic learning datasets and RT-X models.
Ye et al. (2025). Latent action pretraining from videos. ICLR.
Kahneman (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.

关键代码和资源

模型权重：HuggingFace
训练数据：HuggingFace Datasets
仿真基准：GitHub
数据格式：基于LeRobot格式扩展
训练基础设施：NVIDIA OSMO编排平台

技术细节补充

动作空间标准化

统一不同具身体的表示：

末端执行器旋转状态：6D旋转表示
末端执行器旋转动作：轴角表示
位置和关节：Min-max归一化
顺序：左臂→右臂，旋转→位置→夹爪

辅助目标检测损失

使用OWL-v2检测器标注目标物体边界框：

$$
\mathcal{L}{det} = |\mathbf{x}{pred} - \mathbf{x}_{gt}|^2
$$

其中 $\mathbf{x}$ 是归一化的边界框中心坐标。

推理性能

GR00T-N1-2B：63.9ms采样16步动作（L40 GPU，bf16）
VLM频率：10Hz
动作输出频率：120Hz
去噪步数：K=4

计算资源

预训练：最多1024个H100 GPU，约50,000 GPU小时
神经轨迹生成：3,600个L40 GPU，约105K GPU小时（1.5天）
后训练：单个A6000 GPU可微调（仅adapter层时batch size可达200）

Posted 2025-04-16Updated 2026-06-22Notea few seconds read (About 3 words)

Vision-Language Interpreter for Robot Task Planning

Posted 2025-04-15Updated 2026-06-22Reviewa few seconds read (About 30 words)

Pixtral 12B

Web: https://mistral.ai/news/pixtral-12b
Demo: https://chat.mistral.ai/chat
Finetune: https://github.com/2U1/Pixtral-Finetune
Model: https://huggingface.co/mistralai/Pixtral-12B-2409

Posted 2025-03-13Updated 2026-06-22Reviewa few seconds read (About 6 words)

From Pixels to Graphs= Open-Vocabulary Scene Graph Generation with Vision-Language Models

Posted 2025-03-11Updated 2026-06-22Reviewa few seconds read (About 0 words)

OMG-LLaVA

Posted 2025-03-03Updated 2026-06-22Reviewa few seconds read (About 108 words)

BLIP

A vision-language model that unifies vision-language understanding and generation tasks.

主要分为两块工作：

去除图文检索所使用的数据集中的噪声
vision language understanding and generation

Model

Noise Filtering

Caption 模型生成图像文本对，然后Filt将caption和真实互联网数据（可能存在噪声）进行对比，如果差异过大则使用Caption模型生成的结果

Understanding & Generation

Posted 2025-02-19Updated 2026-06-22Review2 minutes read (About 273 words)

GLIP

GLIP是一个学习了object-level, language-aware, and semantic-rich visual representations 的模型。
统一对象检测和短语接地进行预训练。

重要的问题

什么是 phrase grounding:
Phrase Grounding refers to the task of associating or “grounding” a natural language phrase (like a sentence or a word) to a specific region or object in an image. In other words, it’s about finding which part of the image corresponds to the object or concept described by a given text phrase.

For instance, if you have the phrase “the red ball on the table” and an image of a room with a red ball placed on a table, the goal of phrase grounding is to identify the exact region in the image that corresponds to the “red ball on the table”, distinguishing it from other objects in the image.

## Grounded Language Image Pre-training 将经典对象检测任务投入到grounding问题中，并提出**Unified Formulation**

Unified Formulation

传统的物体检测方法会把每个region分类进c个classes，而本文使用的Object detection as phrase grounding.
我们通过将每个区域与文本提示中的c(class)短语进行接地/对齐，将检测重新制定为基础任务
the classification prompt “person. bicycle. car. … . toothbrush”

BAGEL: Emerging Properties in Unified Multimodal Pretraining

研究背景

研究目标

核心概念

理解与生成之间的瓶颈（Bottleneck）

Mixture-of-Transformer-Experts (MoT)

研究方法

架构设计

训练范式

广义因果注意力（Generalized Causal Attention）

数据构���

数据规模

交错数据构建流程

推理增强数据（Reasoning-Augmented Data）

主要发现

涌现能力（Emerging Properties）

架构对比实验

实验结果

多模态理解（7B参数）

图像生成（GenEval）

智能编辑（IntelligentBench）

讨论

优势

局限性

相关工作

未来方向

参考文献

LingBot-VLA: A Pragmatic VLA Foundation Model

研究背景

研究目标

核心概念

Mixture-of-Transformers (MoT) 架构

Flow Matching

Blockwise Causal Attention

研究方法

模型架构

Flow Matching 目标函数

深度信息蒸馏

训练效率优化

主要发现

扩展规律验证

数据效率

实验设计

预训练数据

评估基准

真实世界评估结果

仿真评估结果（RoboTwin 2.0）

训练吞吐量

讨论

优势

局限性

相关工作

Foundation VLA

Spatial VLA

高效训练框架

未来方向

参考文献

UniDiffuser: One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale

研究背景

研究目标

核心概念

扩散模型基础

多模态独立加噪

U-ViT 架构

研究方法

1. 单模态扩散基础公式

前向过程（加噪）

反向过程（去噪）

2. 多模态联合扩散框架

联合前向过程

联合分布的边缘化

3. 统一多任务的核心机制

核心洞察

条件生成的数学原理

4. 训练目标函数

噪声预测目标

5. 采样过程

联合采样（DDPM 形式）

条件采样（文生图）

6. U-ViT 架构中的跳跃连接

数据构��