Chen Yulin's Blog

Posted 2026-02-03Updated 2026-06-22Review15 minutes read (About 2285 words)

作者：Fan Bao, Shen Nie, Kaiwen Xue, Chongxuan Li, Shi Pu, Yaole Wang, Gang Yue, Yue Cao, Hang Su, Jun Zhu
发表于：ICML 2023

研究背景

扩散模型（Diffusion Models）在图像生成领域取得了巨大成功，但现有方法主要基于 U-Net 架构。随着 Transformer 在各领域的成功应用，如何将 Transformer 有效地应用于多模态扩散模型成为一个重要研究方向。现有的多模态生成方法通常需要为不同任务（文生图、图生文、联合生成等）设计不同的模型架构。

研究目标

多模态联合建模：用一个统一的框架同时处理图像、文本等多种模态的生成任务
任务统一：用单一模型支持文生图、图生文、联合生成、无条件生成等多种任务
架构创新：设计适合多模态扩散的 Transformer 架构（U-ViT）

核心概念

扩散模型基础

扩散模型通过前向过程逐步向数据添加噪声，再通过反向过程学习去噪，从而实现生成。

多模态独立加噪

UniDiffuser 的核心思想是对不同模态独立添加噪声，使用不同的时间步 $t$ 和 $s$，通过控制时间步实现任务切换。

U-ViT 架构

将 U-Net 的长跳跃连接（Long Skip Connection）引入 Vision Transformer，在浅层和深层之间建立连接。

研究方法

1. 单模态扩散基础公式

前向过程（加噪）

$$q(x_t | x_0) = \mathcal{N}(x_t; \alpha_t x_0, \sigma_t^2 I)$$
参数说明：

$x_0$：原始干净数据
$x_t$：时间步 $t$ 的加噪数据
$\alpha_t, \sigma_t$：噪声调度参数，满足 $\alpha_t^2 + \sigma_t^2 = 1$（VP-SDE 设定）
随着 $t$ 增大，$\alpha_t \to 0$，$\sigma_t \to 1$，数据逐渐变成纯噪声

等价的重参数化表示：
$$x_t = \alpha_t x_0 + \sigma_t \epsilon, \quad \epsilon \sim \mathcal{N}(0, I)$$
这个形式便于采样和训练，$\epsilon$ 是标准高斯噪声。

反向过程（去噪）

扩散模型学习反向过程 $p_\theta(x_{t-1}|x_t)$，通过神经网络预测噪声 $\epsilon_\theta(x_t, t)$，然后恢复 $x_0$：
$$\hat{x}_0 = \frac{x_t - \sigma_t \epsilon_\theta(x_t, t)}{\alpha_t}$$
解释：由 $x_t = \alpha_t x_0 + \sigma_t \epsilon$ 反解得到。预测出噪声后，即可估计原始数据。

2. 多模态联合扩散框架

联合前向过程

对于图文对 $(x_0, y_0)$，独立地对每个模态加噪：
$$q(x_t, y_s | x_0, y_0) = q(x_t | x_0) \cdot q(y_s | y_0)$$
展开形式：
$$x_t = \alpha_t x_0 + \sigma_t \epsilon_x, \quad y_s = \alpha_s y_0 + \sigma_s \epsilon_y$$
关键点：两个模态使用独立的时间步 $t$ 和 $s$，这是实现多任务统一的核心设计。

联合分布的边缘化

数据的联合分布 $q(x_0, y_0)$ 加噪后变为：
$$q(x_t, y_s) = \int q(x_t, y_s | x_0, y_0) q(x_0, y_0) , dx_0 dy_0$$
解释：这是对所有可能的原始数据对进行积分，得到加噪后数据的边缘分布。

3. 统一多任务的核心机制

核心洞察

通过控制 $t$ 和 $s$ 的取值，可以从联合分布中恢复各种边缘分布和条件分布：

时间步设置	对应分布	实现的任务
$t, s > 0$	$q(x_t, y_s)$	联合生成
$t > 0, s = 0$	$q(x_t, y_0) = q(x_t \| y_0) q(y_0)$	文生图
$t = 0, s > 0$	$q(x_0, y_s) = q(y_s \| x_0) q(x_0)$	图生文
$t > 0, s = T$	$q(x_t, y_T) \approx q(x_t) q(y_T)$	无条件图像生成

条件生成的数学原理

当 $s=0$ 时，$y_s = y_0$（文本无噪声），此时：
$$q(x_t, y_0) = q(x_t | y_0) \cdot q(y_0)$$
解释：对 $y$ 不加噪声（$s=0$）在数学上等价于以 $y$ 为条件进行生成。这是一个优雅的设计——不需要修改模型架构，只需控制时间步即可切换任务。

4. 训练目标函数

噪声预测目标

模型 $\epsilon_\theta$ 同时预测两个模态的噪声：
$$[\hat{\epsilon}_x, \hat{\epsilon}y] = \epsilon_\theta(x_t, y_s, t, s)$$
完整训练损失：
$$\mathcal{L}(\theta) = \mathbb{E}{t, s, (x_0, y_0), \epsilon_x, \epsilon_y} \left[ \lambda_t |\epsilon_x - \hat{\epsilon}_x|^2 + \lambda_s |\epsilon_y - \hat{\epsilon}_y|^2 \right]$$
各项说明：

$t, s \sim \mathcal{U}[0, T]$：从均匀分布采样时间步
$(x_0, y_0) \sim q(x_0, y_0)$：从数据集采样图文对
$\epsilon_x, \epsilon_y \sim \mathcal{N}(0, I)$：独立采样两个高斯噪声
$\lambda_t, \lambda_s$：损失权重（通常设为 1）
$|\cdot|^2$：均方误差损失

简化形式（实际训练中常用）：
$$\mathcal{L} = \mathbb{E}\left[|\epsilon_x - \hat{\epsilon}_x|^2 + |\epsilon_y - \hat{\epsilon}_y|^2\right]$$

5. 采样过程

联合采样（DDPM 形式）

从 $t=T$（纯噪声）开始，逐步去噪到 $t=0$：
$$x_{t-1} = \frac{1}{\sqrt{\alpha_{t|t-1}}} \left( x_t - \frac{1-\alpha_{t|t-1}}{\sigma_t} \hat{\epsilon}x \right) + \tilde{\sigma}t z$$
$$y{s-1} = \frac{1}{\sqrt{\alpha{s|s-1}}} \left( y_s - \frac{1-\alpha_{s|s-1}}{\sigma_s} \hat{\epsilon}_y \right) + \tilde{\sigma}_s z’$$
参数说明：

$z, z’ \sim \mathcal{N}(0, I)$：采样的随机噪声（引入随机性）
$\tilde{\sigma}_t$：后验方差，控制采样的随机程度
$\alpha_{t|t-1} = \alpha_t / \alpha_{t-1}$：相邻时间步的比值

条件采样（文生图）

固定 $s=0$（即 $y_s = y_0$ 为输入文本），只对图像进行去噪：
$$x_{t-1} = \frac{1}{\sqrt{\alpha_{t|t-1}}} \left( x_t - \frac{1-\alpha_{t|t-1}}{\sigma_t} \hat{\epsilon}_x(x_t, y_0, t, 0) \right) + \tilde{\sigma}_t z$$
解释：文本时间步固定为 0，模型接收干净文本作为条件，只更新图像。

6. U-ViT 架构中的跳跃连接

U-ViT 在第 $l$ 层和第 $(L-l)$ 层之间添加跳跃连接：
$$h^{(L-l)} = \text{Block}^{(L-l)}\left( \text{Concat}(h^{(L-l-1)}, h^{(l)}) \right)$$
参数说明：

$h^{(l)}$：第 $l$ 层的隐藏状态
$L$：Transformer 总层数
Concat：沿特征维度拼接
拼接后通过线性层降维回原始维度

设计动机：借鉴 U-Net 的成功经验，跳跃连接帮助保留低层的细节信息，有助于生成高质量图像。

7. 分类器自由引导（Classifier-Free Guidance, CFG）

为增强条件生成效果，使用 CFG 技术：
$$\tilde{\epsilon}_x = \epsilon_\theta(x_t, \varnothing, t, 0) + w \cdot \left( \epsilon_\theta(x_t, y_0, t, 0) - \epsilon_\theta(x_t, \varnothing, t, 0) \right)$$
参数说明：

$\varnothing$：空文本条件（null condition）
$w$：引导强度（guidance scale），通常 $w > 1$
第一项：无条件预测
括号内：条件预测与无条件预测的差值（条件信号）

等价形式：
$$\tilde{\epsilon}_x = (1-w) \cdot \epsilon_\theta(x_t, \varnothing, t, 0) + w \cdot \epsilon_\theta(x_t, y_0, t, 0)$$

训练技巧：训练时以一定概率（如 10%）将文本随机替换为空文本，使模型同时学习条件和无条件生成。

模型输入总结

阶段	图像输入	文本输入	时间步
训练	加噪图像 $x_t$	加噪文本 $y_s$	$t, s$ 随机采样
联合生成	纯噪声	纯噪声	$t=s=T \to 0$
文生图	纯噪声	原始文本	$t: T \to 0$, $s=0$
图生文	原始图像	纯噪声	$t=0$, $s: T \to 0$

主要发现

实验结果

MS-COCO 256×256 文生图（零样本）：

方法	FID↓	CLIP Score↑
DALL-E	27.50	-
GLIDE	12.24	-
Stable Diffusion	12.63	0.331
UniDiffuser	9.71	0.322

ImageNet 256×256 类条件生成：

方法	FID↓
ADM	10.94
LDM-4	10.56
DiT-XL/2	9.62
U-ViT-H/2	2.29

讨论

优势

统一框架：单一模型支持多种生成任务，无需为每个任务单独训练
优雅设计：通过时间步控制实现任务切换，不需要修改架构
强大性能：在多个基准上达到 SOTA
可扩展性：在 10 亿参数规模上验证有效

局限性

需要大规模图文对数据进行训练
文本生成质量依赖于 CLIP 编码器的表示能力
推理速度受限于扩散模型的迭代采样

公式速查表

公式	含义
$x_t = \alpha_t x_0 + \sigma_t \epsilon$	前向加噪过程
$q(x_t, y_s \| x_0, y_0) = q(x_t\|x_0) q(y_s\|y_0)$	独立加噪（多任务统一的关键）
$\mathcal{L} = \|\epsilon_x - \hat{\epsilon}_x\|^2 + \|\epsilon_y - \hat{\epsilon}_y\|^2$	训练目标
$s=0 \Rightarrow$ 以文本为条件	任务切换机制
$\tilde{\epsilon} = \epsilon_\varnothing + w(\epsilon_y - \epsilon_\varnothing)$	分类器自由引导

参考文献

Bao, F., et al. (2023). One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale. ICML 2023.
Ho, J., et al. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 2020.
Peebles, W., & Xie, S. (2023). Scalable Diffusion Models with Transformers. ICCV 2023.

Posted 2026-02-03Updated 2026-06-22Review18 minutes read (About 2709 words)

Scalable Diffusion Models with Transformers

# Diffusion Transformers (DiT)

Scalable Diffusion Models with Transformers | ICCV 2023

研究背景

扩散模型(Diffusion Models)在图像生成领域取得了显著成功，但其架构设计一直沿用卷积U-Net作为主干网络。与此同时，Transformer架构已经在自然语言处理、视觉识别等多个领域取得了统治地位，并展现出优秀的可扩展性。本文探索将Transformer架构引入扩散模型，研究其在图像生成任务中的可扩展性和性能表现。

研究目标

突破架构局限：探索用Transformer替代传统U-Net作为扩散模型主干的可行性
验证可扩展性：研究Transformer在扩散模型中的可扩展性规律
建立性能基准：在ImageNet等基准数据集上达到SOTA性能
揭示计算-质量关系：分析模型计算量(Gflops)与生成质量之间的关系

核心概念

Latent Diffusion Models (LDMs)

在潜在空间而非像素空间训练扩散模型，提高计算效率：

VAE编码器：将图像压缩到潜在空间 $z = E(x)$
扩散模型：在潜在空间 $z$ 中训练
VAE解码器：将生成的潜在表示解码为图像 $x = D(z)$

对于256×256×3的图像，VAE将其压缩为32×32×4的潜在表示（下采样因子为8）。

注意：这里使用的是标准VAE，输出是连续的潜在表示，而非VQ-VAE的离散codebook索引。

Patchify机制

将潜在表示分解为patch序列：

输入：32×32×4的潜在表示
Patch大小：$p \times p$（$p \in {2, 4, 8}$）
输出序列长度：$T = (I/p)^2$

例如，$p=2$ 时，序列长度 $T = (32/2)^2 = 256$。

Classifier-Free Guidance

条件生成的采样技巧，提高生成质量：

$$
\hat{\epsilon}_\theta(x_t, c) = \epsilon_\theta(x_t, \emptyset) + s \cdot (\epsilon_\theta(x_t, c) - \epsilon_\theta(x_t, \emptyset))
$$

其中：

$c$：条件信息（如类别标签）
$\emptyset$：空条件（训练时随机dropout）
$s$：guidance scale（$s > 1$增强条件控制）

研究方法

DiT架构设计

DiT基于Vision Transformer (ViT)架构，包含以下组件：

Patchify层：将潜在表示转换为token序列
位置编码：使用正弦-余弦位置编码
DiT Blocks：N个Transformer block
解码器：将token序列解码为噪声预测和协方差预测

条件注入机制

探索了四种将时间步 $t$ 和类别标签 $c$ 注入Transformer的方式：

1. In-Context Conditioning

将 $t$ 和 $c$ 的embedding作为额外token添加到序列中：

1	tokens = [t_embed, c_embed, patch_1, patch_2, ..., patch_T]

优点：无需修改标准Transformer block
缺点：性能较差（FID ~80）

2. Cross-Attention

通过交叉注意力机制注入条件：

1
2
3

# 标准self-attention后添加cross-attention
x = x + SelfAttention(x)
x = x + CrossAttention(x, [t_embed, c_embed])

优点：灵活的条件控制
缺点：增加15%计算量，性能中等（FID ~60）

3. Adaptive Layer Norm (adaLN)

通过自适应归一化层注入条件：

1 2	γ, β = MLP(t_embed + c_embed) output = γ * normalize(x) + β

优点：计算高效，性能较好（FID ~45）
缺点：所有token共享��同的调制参数

4. adaLN-Zero（最优方案）

在adaLN基础上增加门控参数并零初始化：

γ, β, α = MLP(t_embed + c_embed)

# Transformer Block
x = x + α₁ * Attention(γ₁ * normalize(x) + β₁)
x = x + α₂ * FFN(γ₂ * normalize(x) + β₂)

# 初始化：MLP输出零向量 → α=0, γ=0, β=0
# 因此初始时：x = x + 0 = x（恒等函数）

为什么需要两组参数？

Transformer block有两个子层（Attention + FFN），每个子层需要独立的条件控制：

第一组 $(γ_1, β_1, α_1)$：用于Attention子层
第二组 $(γ_2, β_2, α_2)$：用于FFN子层

总共6个参数：shift_msa, scale_msa, gate_msa, shift_mlp, scale_mlp, gate_mlp

零初始化的优势：

训练稳定性：初始时网络是恒等映射，梯度流动顺畅
更好的性能：FID显著优于其他方法（FID ~23）
渐进式学习：从恒等函数开始，逐步学习有用的变换

模型配置

设计四种规模的模型配置：

模型	层数N	隐藏维度d	注意力头数	Gflops (p=4)
DiT-S	12	384	6	1.4
DiT-B	12	768	12	5.6
DiT-L	24	1024	16	19.7
DiT-XL	28	1152	16	29.1

Point-wise FFN

Transformer中的标准组件，对序列中每个位置独立应用前馈网络：

class PointwiseFeedForward(nn.Module):
    def forward(self, x):
        # x: [batch, seq_len, d_model]
        x = Linear1(x)      # d_model → d_ff (通常4倍扩展)
        x = GELU(x)
        x = Linear2(x)      # d_ff → d_model
        return x

# 关键特点：
# 1. 每个token独立处理（point-wise）
# 2. 所有位置共享相同的权重
# 3. 可以完全并行计算

与Self-Attention的分工：

Self-Attention：全局信息聚合（不同token间交互）
Point-wise FFN：局部特征变换（每个token独立处理）

这是所有Transformer变体（LLM、ViT、DiT）的统一设计。

主要发现

1. Gflops与生成质量强相关

模型前向传播的计算量(Gflops)与FID呈强负相关（相关系数-0.93）：

增加模型深度/宽度 → 提升Gflops → 降低FID
减小patch大小 → 增加token数量 → 提升Gflops → 降低FID

关键洞察：参数量不是��一决定因素，计算量才是提升性能的关键。

2. adaLN-Zero显著优于其他条件注入方式

在400K训练步数时的FID对比：

方法	FID-50K	计算开销
In-Context	~80	119.4 Gflops
Cross-Attention	~60	137.6 Gflops
adaLN	~45	118.6 Gflops
adaLN-Zero	~23	118.6 Gflops

3. 优秀的可扩展性

DiT展现出与ViT类似的可扩展性：

增加模型规模持续提升性能
训练高度稳定，无需学习率预热或特殊正则化
未观察到常见的loss spike现象

4. 计算效率优势

DiT-XL/2 (118.6 Gflops) 比传统方法更高效：

像素空间U-Net (ADM)：1120 Gflops（~10倍）
潜在空间U-Net (LDM-4)：103.6 Gflops（相近但性能更优）

5. 采样计算无法弥补模型计算不足

增加采样步数（增加测试时计算量）无法弥补模型规模不足：

DiT-L/2 使用1000步采样：80.7 Tflops，FID=25.9
DiT-XL/2 使用128步采样：15.2 Tflops，FID=23.7

结论：模型计算量比采样计算量更重要。

实验设计

数据集

ImageNet：256×256和512×512分辨率
任务：类条件图像生成

训练配置

优化器：AdamW
学习率：$1 \times 10^{-4}$（常数，无warmup）
批大小：256
数据增强：仅水平翻转
EMA：decay=0.9999
硬件：TPU v3-256 pod

评估指标

主要指标：FID-50K（使用250步DDPM采样）
次要指标：Inception Score、sFID、Precision/Recall

结果分析

ImageNet 256×256基准测试：

方法	FID↓	IS↑	Precision	Recall
LDM-4-G (cfg=1.50)	3.60	247.67	0.87	0.48
StyleGAN-XL	2.30	265.12	0.78	0.53
DiT-XL/2-G (cfg=1.50)	2.27	278.24	0.83	0.57

ImageNet 512×512基准测试：

方法	FID↓	IS↑
ADM-G, ADM-U	3.85	221.72
DiT-XL/2-G (cfg=1.50)	3.04	240.82

DiT-XL/2在两个分辨率上都达到了SOTA性能。

讨论

优势

架构统一性：证明Transformer可以成功替代U-Net，推动生成模型架构统一化
优秀的可扩展性：计算量与性能呈强相关，为大规模模型发展指明方向
训练稳定性：无需特殊技巧即可稳定训练
计算效率：在相近或更少的计算量下达到更好的性能
更高的Recall：相比LDM，DiT在所有guidance scale下都有更高的recall值

局限性

依赖预训练VAE：使用Stable Diffusion的VAE，是混合架构而非纯Transformer
仅探索类条件生成：未涉及文生图等更复杂的条件生成任务
计算资源需求：大规模模型训练需要TPU集群
patch大小的权衡：更小的patch提升性能但增加计算量

与传统U-Net的对比

特性	U-Net	DiT
归纳偏置	强（卷积、多尺度）	弱（纯注意力）
可扩展性	有限	优秀
架构统一性	领域特定	跨领域通用
训练稳定性	需要技巧	天然稳定

未来方向

扩展到文生图任务：将DiT应用于DALL·E 2、Stable Diffusion等文生图模型
��大规模的模型：继续扩展模型规模，探索scaling law
纯Transformer架构：在像素空间训练DiT，摆脱VAE依赖
多模态条件生成：探索更复杂的条件注入机制
高效采样方法：结合DiT开发更快的采样算法
架构搜索：自动化探索最优的DiT配置

技术细节补充

VAE vs VQ-VAE

特性	VAE (DiT使用)	VQ-VAE
潜在空间	连续（浮点数）	离散（codebook索引）
输出维度	32×32×4（4通道特征）	32×32（单个索引）
适用场景	扩散模型	自回归模型
量化	无	有（查表）

Transformer Block完整结构

def dit_block(x, c):
    # 生成6个调制参数
    γ₁, β₁, α₁, γ₂, β₂, α₂ = adaLN_modulation(c)

    # 子层1: Multi-Head Self-Attention
    x = x + α₁ * Attention(adaLN(x, γ₁, β₁))

    # 子层2: Point-wise Feed-Forward
    x = x + α₂ * FFN(adaLN(x, γ₂, β₂))

    return x

def adaLN(x, γ, β):
    return γ * normalize(x) + β

计算复杂度分析

对于DiT-XL/2（$N=256$ tokens，$d=1152$）：

Self-Attention：$O(N^2 \cdot d) \approx 75M$ ops
Point-wise FFN：$O(N \cdot d^2 \cdot 2) \approx 680M$ ops

FFN占据了大部分计算量！

参考文献

Peebles, W., & Xie, S. (2023). Scalable Diffusion Models with Transformers. ICCV 2023.
Ho, J., et al. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 2020.
Rombach, R., et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022.
Dosovitskiy, A., et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021.
Dhariwal, P., & Nichol, A. (2021). Diffusion Models Beat GANs on Image Synthesis. NeurIPS 2021.

关键要点总结

架构创新：首次系统性地将纯Transformer应用于扩散模型
adaLN-Zero：零初始化的自适应归一化是性能关键
Gflops定律：计算量与生成质量强相关（-0.93）
SOTA性能：ImageNet 256×256达到FID 2.27
统一架构：推动生成模型向Transformer统一的趋势

Posted 2026-02-02Updated 2026-06-22Review28 minutes read (About 4167 words)

GR00T N1 An Open Foundation Model for Generalist Humanoid Robots

# GR00T N1: 通用人形机器人开放基础模型

论文链接 | NVIDIA, 2025

研究背景

人形机器人作为通用机器人的理想硬件平台，需要强大的基础模型来实现智能自主操作。受大语言模型和视觉模型成功的启发，研究者希望通过在大规模异构数据上训练机器人基础模型，使其能够理解新场景、处理真实世界的变化并快速学习新任务。然而，与文本和图像领域不同，机器人领域缺乏互联网规模的训练数据，不同机器人的传感器、自由度、控制模式差异巨大，形成”数据孤岛”问题。

研究目标

本论文要解决的核心问题：

数据稀缺问题：人形机器人数据收集成本高、耗时长，如何突破真实数据瓶颈
跨具身泛化：如何统一不同机器人的状态和动作空间，实现跨具身学习
数据效率：如何在有限数据下快速适应新任务并在真实环境中鲁棒执行
端到端优化：如何将高层推理与低层控制统一到单一模型中

核心概念

Vision-Language-Action (VLA) 模型

视觉-语言-动作模型，接收图像观察和语言指令作为输入，直接输出机器人动作。与传统的分层方法（VLM规划 + 低层策略执行）不同，VLA模型实现端到端优化。

双系统架构 (Dual-System Architecture)

受人类认知理论启发（Kahneman, 2011），将模型分为：

System 2（推理系统）：慢速、深思熟虑的高层推理
System 1（反应系统）：快速、自动化的低层控制

数据金字塔 (Data Pyramid)

将异构训练数据按规模和具身特异性组织成三层结构：

底层：大规模网络数据和人类视频（通用先验）
中层：合成数据（仿真+神经生成，可扩展）
顶层：真实机器人数据（具身特定，高质量）

潜在动作 (Latent Actions)

通过VQ-VAE([[VQ-VAE-and-Latent-Action-for-Robotics]])学习的通用动作表示，能够统一不同具身体（包括人类）的动作空间，使无动作标签的视频数据可用于训练。

研究方法

模型架构

GR00T N1采用双系统组合架构，总参数量22亿（GR00T-N1-2B）：

System 2: Vision-Language Module

输入处理:
├─ 图像: SigLIP-2编码器 → 64个token (224×224)
└─ 文本: SmolLM2 tokenizer → 文本token

特征提取:
└─ Eagle-2 VLM (1.34B参数)
   ├─ 处理vision-language tokens
   └─ 输出: 中间层embeddings φ_t (第12层)

关键设计：

使用中间层而非最终层特征（更快推理+更高成功率）
语言组件冻结（保留预训练知识）
视觉编码器可训练（适应机器人任务）
运行频率：10Hz

System 1: Diffusion Transformer Module

DiT Block结构（重复N次）:
├─ Self-Attention
│  └─ 输入: noised action tokens + state embeddings
│
└─ Cross-Attention
   ├─ Query: action/state tokens
   └─ Key & Value: VLM输出的φ_t

动作生成流程：

输入加噪动作 $A_t^{\tau} = \tau A_t + (1-\tau)\epsilon$，其中 $\tau \in [0,1]$
通过DiT迭代去噪（K=4步）
输出16步动作序列（action chunking）
运行频率：120Hz

Flow-Matching损失：

$$
\mathcal{L}{fm}(\theta) = \mathbb{E}{\tau} |V_{\theta}(\varphi_t, A_t^{\tau}, q_t) - (\epsilon - A_t)|^2
$$

其中 $V_{\theta}$ 是[[Diffusion-Transformers-DiT]]模型，预测去噪向量场。

模块交互机制

信息流:
图像 + 语言指令
    ↓
[System 2: Eagle-2 VLM]
    ↓ (输出 φ_t)
[Cross-Attention Bridge]
    ↓
[System 1: DiT]
├─ Self-Attention (action + state)
└─ Cross-Attention (attend to φ_t)
    ↓
16步动作序列

端到端联合训练：

两个模块通过cross-attention紧密耦合
使用统一的flow-matching loss优化
辅助目标检测loss增强空间理解：

$$
\mathcal{L} = \mathcal{L}{fm} + \mathcal{L}{det}
$$

异构数据训练策略

1. 数据金字塔组织

层级	数据源	时长	特点
顶层	真实机器人数据	3,289小时	具身特定，高质量
中层	仿真数据	1,743小时	可扩展，物理约束
中层	神经生成数据	827小时	反事实场景，多样性
底层	人类视频	2,517小时	大规模，通用先验

总计：8,376小时训练数据

2. 潜在动作学习

VQ-VAE训练：

# 编码器
输入: (当前帧 x_t, 未来帧 x_{t+H})
     ↓
Encoder → 连续embedding → 量化到codebook
     ↓
潜在动作 z_t

# 解码器
输入: x_t + z_t
     ↓
Decoder → 重建 x_{t+H}

跨具身一致性：

同一潜在动作在不同具身体中语义一致
例如：潜在动作1 = “右臂向左移动”（对所有机器人和人类）

训练使用：

提取预量化连续embedding作为”LAPA具身体”的动作
使用flow-matching loss训练

3. 神经轨迹生成

目标：从88小时真实数据扩增到827小时（~10倍）

技术流程：

步骤1: 微调视频生成模型
├─ 基础模型: WAN2.1-I2V-14B
├─ 方法: LoRA微调
├─ 数据: 3,000条轨迹，81帧@480P
└─ 训练: 100 epochs

步骤2: 生成反事实轨迹
├─ 输入: 初始帧 + 新语言指令
├─ 语言生成: 多模态LLM检测物体
│   生成"pick {object} from {A} to {B}"
└─ 输出: 高质量视频

步骤3: 质量过滤
├─ 采样8帧 → LLM判断是否遵循指令
└─ 不合格 → 重新标注

步骤4: 动作标注
├─ 潜在动作编码器 → LAPA
└─ 逆动力学模型 → 伪动作标签

生成能力：

改变操作手（左手↔右手）
改变目标位置和物体
处理仿真难题（液体、铰接物体）
多视角生成（4宫格视频）

4. 仿真数据自动生成

DexMimicGen系统：

输入: 少量人类演示（几十条）
     ↓
分割 → 物体中心的子任务片段
     ↓
变换 → 根据新物体位置调整
     ↓
组合 → 插值并组合片段
     ↓
验证 → 仿真执行，保留成功轨迹
     ↓
输出: 每任务10,000条演示

规模：

54个源-目标容器组合
540,000条预训练轨迹
11小时生成 = 6,500小时等效人类演示

5. 具身特定编码器/解码器

处理不同维度的状态和动作：

embodiments = {
    "GR-1": {
        "state": [joint_pos, joint_vel, base_pos, ...],
        "action": [joint_targets, ...],
        "encoder": MLP_GR1,
        "decoder": MLP_GR1
    },
    "Franka": {
        "state": [ee_pos, ee_rot, gripper],
        "action": [ee_delta, gripper_cmd],
        "encoder": MLP_Franka,
        "decoder": MLP_Franka
    },
    "LAPA": {  # 潜在动作
        "action": [latent_embedding],
        "encoder": MLP_LAPA,
        "decoder": MLP_LAPA
    }
}

6. 统一训练框架

预训练阶段：

全局batch size: 16,384
训练步数: 200,000
数据混合采样：真实机器人(40%) + 仿真(30%) + 神经(20%) + 人类视频(10%)
计算资源: 最多1024个H100 GPU，约50,000 GPU小时

后训练阶段：

Batch size: 128-1024
训练步数: 20,000-60,000
可选神经轨迹协同训练（1:1采样比例）
可在单个A6000 GPU上微调

主要发现

预训练泛化能力

在GR-1人形机器人上的零样本评估：

任务	成功率	说明
左手抓取→右手交接→放置	76.6%	需要双手协调
新物体→新容器	73.3%	泛化到未见物体

仿真基准测试

100条演示/任务的性能对比：

方法	RoboCasa	DexMG	GR-1	平均
BC-Transformer	26.3%	53.9%	16.1%	26.4%
Diffusion Policy	25.6%	56.1%	32.7%	33.4%
GR00T-N1-2B	32.1%	66.5%	50.0%	45.0%

关键观察：

GR00T N1在所有基准上均优于基线
在GR-1任务上优势最明显（+17.3%）

真实世界部署

GR-1人形机器人任务成功率：

任务类型	Diffusion Policy (10%数据)	Diffusion Policy (全量数据)	GR00T-N1-2B (10%数据)	GR00T-N1-2B (全量数据)
抓取放置	3.0%	36.0%	35.0%	82.0%
铰接物体	14.3%	38.6%	62.0%	70.9%
工业操作	6.7%	61.0%	31.0%	70.0%
多机协作	27.5%	62.5%	50.0%	82.5%
平均	10.2%	46.4%	42.6%	76.8%

数据效率：

GR00T N1用10%数据（42.6%）≈ Diffusion Policy用全量数据（46.4%）
展现出色的样本效率

神经轨迹增强效果

RoboCasa基准（协同训练3K神经轨迹/任务）：

数据量	仅真实数据	+LAPA	+IDM
30条	17.4%	20.8% (+3.4%)	20.0% (+2.6%)
100条	32.1%	38.5% (+6.4%)	40.9% (+8.8%)
300条	49.6%	53.8% (+4.2%)	56.4% (+6.8%)

真实世界（协同训练100神经轨迹/任务）：

平均提升：+5.8%

观察：

低数据场景：LAPA略优（更通用的先验）
高数据场景：IDM更优（更接近真实动作）

定性分析

运动质量：

GR00T N1运动更流畅，抓取精度更高
Diffusion Policy常出现初始帧不动、抓取不准确

泛化能力：

预训练模型能执行未见过的双手交接任务
后训练模型在特定任务上更精确，但失去部分泛化能力

实验设计

仿真基准

RoboCasa Kitchen（24任务）：

机器人：Franka Emika Panda
任务：抓取放置、开关门、按按钮、转水龙头等
观察：3个RGB相机（左、右、腕部）
动作：末端执行器相对位姿 + 夹爪状态
数据：每任务3,000条MimicGen生成的演示

DexMimicGen Cross-Embodiment Suite（9任务）：

具身体：
- 双臂Panda + 平行夹爪（穿线、组装、运输）
- 双臂Panda + 灵巧手（清理、抬托盘）
- GR-1人形 + 灵巧手（倒水、咖啡、分类）
数据：每任务1,000条演示

GR-1 Tabletop Tasks（24任务）：

机器人：GR-1人形 + Fourier灵巧手
任务：18个重排任务 + 6个铰接物体任务
观察：头部自我中心相机
动作：关节位置/旋转 + 腰部/颈部
数据：每任务1,000条DexMimicGen生成

真实世界基准

任务类别：

抓取放置（5任务）：
- 托盘→盘子、砧板→篮子、餐垫→碗等
- 评估：见过和未见过物体
铰接物体（3任务）：
- 白色抽屉、深色柜子、木箱
- 要求：放入物体并关闭
工业操作（3任务）：
- 机械零件打包
- 网格杯倾倒
- 圆柱体交接
多机协作（2任务）：
- 第1部分：抓取→放入网格杯→交给另一机器人
- 第2部分：接收→放入黄色箱→倾倒剩余物

数据收集：

遥操作时长：15分钟-3小时/任务
过滤低质量轨迹

评估协议

仿真：

每任务100次试验
取最后5个checkpoint的最大值
Checkpoint间隔：500步

真实机器人：

每任务10次试验（机械打包任务5次）
部分评分系统（捕捉不同执行阶段）
低数据场景：10%数据子采样

训练配置

预训练：

学习率：1e-4
优化器：AdamW (β1=0.95, β2=0.999)
学习率调度：cosine，warmup比例0.05
Batch size：16,384
步数：200,000

后训练：

Batch size：128-1024
步数：20,000-60,000
其他超参数同预训练

讨论

优势

统一的跨具身学习：
- 单一模型支持从桌面机械臂到双臂人形机器人
- 潜在动作空间统一不同具身体
卓越的数据效率：
- 10%数据达到基线全量数据性能
- 预训练提供强大的先验知识
可扩展的数据生成：
- 神经轨迹生成：10倍数据扩增
- 仿真自动生成：11小时生成6,500小时等效数据
端到端优化：
- VLM推理与DiT控制联合训练
- 避免分层方法的接口问题
开源生态：
- 公开22亿参数模型
- 提供训练数据和仿真基准

局限性

任务范围限制：
- 当前主要关注短时域桌面操作
- 未涉及长时域移动操作（loco-manipulation）
合成数据质量：
- 视频生成模型仍面临多样性和物理一致性挑战
- 需要质量过滤和重新标注
硬件依赖：
- 需要高端GPU进行训练（H100集群）
- 推理需要L40 GPU（63.9ms/16动作）
泛化-专精权衡：
- 后训练提升特定任务性能但损失部分泛化能力
- 预训练模型能执行双手交接，后训练模型失去此能力
视觉-语言骨干限制：
- 当前VLM的空间推理和语言理解能力仍有提升空间
- 更强的VLM可能进一步提升性能

未来方向

长时域移动操作：
- 扩展到全身运动和导航
- 需要改进硬件、模型架构和训练数据
更强的视觉-语言骨干：
- 提升空间推理能力
- 增强语言理解和任务规划
改进合成数据生成：
- 提高视频生成的多样性和反事实能力
- 增强物理一致性和真实感
- 探索自动化初始帧生成（img2img扩散）
新型模型架构：
- 探索更高效的推理-控制耦合方式
- 研究分层时间建模
鲁棒性和泛化：
- 提升对环境变化的适应能力
- 增强零样本和少样本学习能力
多模态感知：
- 整合触觉、力觉等其他传感器
- 探索多模态融合策略
长时域视频生成：
- 多轮视频生成实现长任务序列
- 原子任务组合

参考文献

NVIDIA (2025). GR00T N1: An Open Foundation Model for Generalist Humanoid Robots. arXiv:2503.14734v2.
Black et al. (2024). π0: A vision-language-action flow model for general robot control. arXiv:2410.24164.
Brohan et al. (2022). RT-1: Robotics transformer for real-world control at scale. arXiv:2212.06817.
Brohan et al. (2023). RT-2: Vision-language-action models transfer web knowledge to robotic control. arXiv:2307.15818.
Chi et al. (2024). Diffusion Policy: Visuomotor policy learning via action diffusion. IJRR.
Jiang et al. (2024). DexMimicGen: Automated data generation for bimanual dexterous manipulation via imitation learning. CoRL.
Mandlekar et al. (2023). MimicGen: A data generation system for scalable robot learning using human demonstrations. CoRL.
Nasiriany et al. (2024). RoboCasa: Large-scale simulation of everyday tasks for generalist robots. RSS.
Open X-Embodiment Collaboration et al. (2024). Open X-Embodiment: Robotic learning datasets and RT-X models.
Ye et al. (2025). Latent action pretraining from videos. ICLR.
Kahneman (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.

关键代码和资源

模型权重：HuggingFace
训练数据：HuggingFace Datasets
仿真基准：GitHub
数据格式：基于LeRobot格式扩展
训练基础设施：NVIDIA OSMO编排平台

技术细节补充

动作空间标准化

统一不同具身体的表示：

末端执行器旋转状态：6D旋转表示
末端执行器旋转动作：轴角表示
位置和关节：Min-max归一化
顺序：左臂→右臂，旋转→位置→夹爪

辅助目标检测损失

使用OWL-v2检测器标注目标物体边界框：

$$
\mathcal{L}{det} = |\mathbf{x}{pred} - \mathbf{x}_{gt}|^2
$$

其中 $\mathbf{x}$ 是归一化的边界框中心坐标。

推理性能

GR00T-N1-2B：63.9ms采样16步动作（L40 GPU，bf16）
VLM频率：10Hz
动作输出频率：120Hz
去噪步数：K=4

计算资源

预训练：最多1024个H100 GPU，约50,000 GPU小时
神经轨迹生成：3,600个L40 GPU，约105K GPU小时（1.5天）
后训练：单个A6000 GPU可微调（仅adapter层时batch size可达200）

Posted 2025-03-11Updated 2026-06-22Reviewa few seconds read (About 3 words)

PHYSCENE- Physically Interactable 3D Scene Synthesis for Embodied AI

UniDiffuser: One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale

研究背景

研究目标

核心概念

扩散模型基础

多模态独立加噪

U-ViT 架构

研究方法

1. 单模态扩散基础公式

前向过程（加噪）

反向过程（去噪）

2. 多模态联合扩散框架

联合前向过程

联合分布的边缘化

3. 统一多任务的核心机制

核心洞察

条件生成的数学原理

4. 训练目标函数

噪声预测目标

5. 采样过程

联合采样（DDPM 形式）

条件采样（文生图）

6. U-ViT 架构中的跳跃连接

7. 分类器自由引导（Classifier-Free Guidance, CFG）

模型输入总结

主要发现

实验结果

讨论

优势

局限性

相关工作

公式速查表

参考文献

研究背景

研究目标

核心概念

Latent Diffusion Models (LDMs)

Patchify机制

Classifier-Free Guidance

研究方法

DiT架构设计

条件注入机制

1. In-Context Conditioning

2. Cross-Attention

3. Adaptive Layer Norm (adaLN)

4. adaLN-Zero（最优方案）

模型配置

Point-wise FFN

主要发现

1. Gflops与生成质量强相关

2. adaLN-Zero显著优于其他条件注入方式

3. 优秀的可扩展性

4. 计算效率优势

5. 采样计算无法弥补模型计算不足

实验设计

数据集

训练配置

评估指标

结果分析

讨论

优势

局限性

与传统U-Net的对比

相关工作

Transformer在生成模型中的应用

扩散模型架构

架构复杂度分析

未来方向

技术细节补充

VAE vs VQ-VAE

Transformer Block完整结构

计算复杂度分析

参考文献

关键要点总结

研究背景

研究目标

核心概念

Vision-Language-Action (VLA) 模型

双系统架构 (Dual-System Architecture)

数据金字塔 (Data Pyramid)