
Here's something encrypted, password is required to continue reading.
Read moren## 重要的日子
7/1:♥️糖醋羊排CP成立!!♥️
爱心屋签到: aixinwu.sjtu.edu.cn/products/asw-store
每日二GRISSO💊, 米诺地尔
Starting from 10/9:
| Time | Monday | Tuesday | Wednesday | Thursday | Friday | Saturday | Sunday |
|---|---|---|---|---|---|---|---|
| 08:00 | |||||||
| 09:00 | |||||||
| 10:00 | |||||||
| 11:00 | |||||||
| 12:00 | |||||||
| 13:00 | |||||||
| 14:00 | 攀爬机器人组会 | ||||||
| 15:00 | |||||||
| 16:00 | |||||||
| 17:00 | |||||||
| 18:00 | |||||||
| 19:00 | |||||||
| 20:00 | |||||||
| 21:00 | |||||||
| 22:00 | |||||||
| Credits: No need |
3D-Scene
Atlas
CLIP
CV
Chemistry
Contrastive-Learning
DINO
DT
Diffusion
DiffusionModel
Embodied-AI
FL
FPN
FoundationModel
Gated-NN
HRI
Hierarchical
HumanoidRobot
Image-Grounding
Image-Text
Image-generation
Image2Text
ImgGen
ImitationLearning
LLM
LatentAction
ML
MoE
MR/AR
Message-Passing
Multi-modal
Multi-view
MultiModal
NLP
NN
Object-Detection
Open-Vocabulary
Panoptic
Physical-Scene
PoseEstimation
QML
Quantum
RL
RNN
Real2Sim
Reconstruct
Representation-Learning
RobotLearning
Robotics
Scalability
Scene-graph
Scene-synthesis
Segmentation
Semantic
Sim2Real
Subgraph
Survey
Task-Planning
Transformer
Translation-Embedding
VAE
VLA
VLM
VLP
VQ-VAE
ViT
Visual-Relation
WorldModel
Unified-Multimodal
BAGEL-Unified-Multimodal-Pretraining
作者:Chaorui Deng, Deyao Zhu, Kunchang Li 等 (ByteDance Seed)
统一多模态理解与生成(Unified Multimodal Understanding and Generation)是当前AI领域的热点方向。GPT-4o、Gemini 2.0等闭源系统展现了强大能力,但开源模型与之仍存在显著差距。现有开源统一模型主要在图文配对数据上训练,缺乏对复杂多模态交错数据(Interleaved Data)的利用。
在采用 External Diffuser 架构的模型中,LLM/VLM 与扩散模型通过轻量级适配器连接:
与传统MoE不同,MoT复制整个Transformer层而非仅FFN:
BAGEL采用无瓶颈的集成Transformer方案:
双视觉编码器:
| 模态 | 方法 | 损失函数 |
|---|---|---|
| 文本 | Next-Token-Prediction | Cross-Entropy |
| 视觉 | Rectified Flow | MSE |
损失权重比:$\text{CE} : \text{MSE} = 0.25 : 1$
对于交错多图像生成:
采用Diffusion Forcing策略,对不同图像添加独立噪声级别。
| 数据类型 | 数据量 | Token数 |
|---|---|---|
| 纯文本 | 400M | 0.4T |
| 图文配对(理解) | 500M | 0.5T |
| 图文配对(生成) | 1600M | 2.6T |
| 交错理解数据 | 100M | 0.5T |
| 交错生成数据(视频) | 45M | 0.7T |
| 交错生成数据(网页) | 20M | 0.4T |
视频数据:
网页数据:
受DeepSeek-R1启发,构建50万条推理增强样本:
论文定义:某能力在早期训练阶段不存在,但在后期训练中出现
不同能力的涌现时间点(达到85%峰值性能所需token数):
| 能力 | 涌现时间点 |
|---|---|
| 多模态理解 | ~0.18T tokens |
| 图像生成 | ~0.68T tokens |
| 图像编辑 | ~2.64T tokens |
| 智能编辑(复杂推理) | ~3.61T tokens |
关键发现:
在1.5B模型上对比Dense、MoE、MoT三种架构:
| 基准 | BAGEL | Janus-Pro | Qwen2.5-VL |
|---|---|---|---|
| MMMU | 58.6 | 41.8 | 49.3 |
| MM-Vet | 73.1 | 55.9 | 62.8 |
| MathVista | 69.3 | 54.7 | 68.2 |
| MMVP | 67.2 | 48.3 | - |
| 模型 | Overall |
|---|---|
| BAGEL (w/ rewriter) | 0.88 |
| BAGEL | 0.82 |
| Janus-Pro | 0.80 |
| FLUX.1-dev | 0.82 |
| SD3-Medium | 0.74 |
| 模型 | Score |
|---|---|
| GPT-4o | 78.9 |
| BAGEL w/ Self-CoT | 55.3 |
| BAGEL | 44.9 |
| Gemini 2.0 | 57.6 |
| Step1X-Edit | 14.9 |
统一多模态模型:
视觉生成:
论文链接 | GitHub | Checkpoints
视觉-语言-动作(Vision-Language-Action, VLA)基础模型是机器人操作领域的新兴方法,通过大规模预训练使机器人能够执行由自然语言指令引导的多样化操作任务。然而,目前存在以下问题:
将预训练的视觉语言模型(VLM)与动作生成模块(Action Expert)结合,通过共享自注意力机制实现跨模态统一建模。视觉-语言和动作模态通过独立的 Transformer 路径处理,既保留 VLM 的语义先验,又避免跨模态干扰。
一种用于连续动作建模的生成方法,通过学习从噪声到目标动作的向量场来生成平滑的机器人控制信号。
将序列划分为图像-指令块、状态块和动作块,应用因果掩码防止信息泄露,确保动作预测只能访问当前和历史观测信息。
LingBot-VLA 采用 MoT 架构,整合 Qwen2.5-VL 作为视觉语言骨干网络,配合独立的 Action Expert 模块:
联合建模序列:
$$[O_t, A_t] = [I_t^1, I_t^2, I_t^3, T_t, s_t, a_t, a_{t+1}, \ldots, a_{t+T-1}]$$
其中 $I_t^{1,2,3}$ 为三视角图像,$T_t$ 为任务指令,$s_t$ 为机器人状态,$A_t$ 为动作序列(chunk length = 50)。
类似[[BAGEL-Unified-Multimodal-Pretraining]]
定义概率路径通过线性插值:
$$A_{t,s} = sA_t + (1-s)\epsilon, \quad \epsilon \sim \mathcal{N}(0, I)$$
训练目标:
$$\mathcal{L}{FM} = \mathbb{E}{s \sim U[0,1], A_t, \epsilon}|v_\theta(A_{t,s}, O_t, s) - (A_t - \epsilon)|^2$$
通过可学习查询 $Q_t$ 与 LingBot-Depth 模型的深度 token $D_t$ 对齐,增强空间感知:
$$\mathcal{L}{distill} = \mathbb{E}{Q_t}|Proj(Q_t) - D_t|$$
| 方法 | 平均成功率(SR) | 平均进度分(PS) |
|---|---|---|
| WALL-OSS | 4.05% | 10.35% |
| GR00T N1.6 | 7.59% | 15.99% |
| π0.5 | 13.02% | 27.65% |
| LingBot-VLA w/o depth | 15.74% | 33.69% |
| LingBot-VLA w/ depth | 17.30% | 35.41% |
| 方法 | Clean 场景 SR | Randomized 场景 SR |
|---|---|---|
| π0.5 | 82.74% | 76.76% |
| LingBot-VLA w/o depth | 86.50% | 85.34% |
| LingBot-VLA w/ depth | 88.56% | 86.68% |
作者:Siyuan Mu (四川农业大学), Sen Lin (休斯顿大学)
随着AI基础大模型的快速发展,现代数据集变得越来越多样化和复杂,包含多模态数据(文本、图像、音频)和复杂结构(图、层次关系)。这给大模型发展带来两大挑战:
混合专家模型(Mixture of Experts, MoE)通过动态选择和激活最相关的子模型来处理输入数据,成为解决这些挑战的有效方案。
MoE采用”分而治之”(divide and conquer)策略,与传统密集模型不同:
$$
\text{MoE}(x) = \sum_{i \in \mathcal{I}_D} w_i M_i(x)
$$
其中 $\mathcal{I}_D$ 是被选中专家的索引集,$w_i$ 是第 $i$ 个专家的权重,$M_i(x)$ 是专家网络输出。
$$
G(x)i = \text{softmax}(\text{TopK}(g(x) + R{noise}, k))i
$$
其中 $g(x)$ 是线性函数计算的门控值,$R{noise}$ 是鼓励专家探索的噪声。
| 类型 | 描述 | 应用场景 |
|---|---|---|
| FFN专家 | 替换Transformer中的FFN层 | 最常用,如Switch Transformer |
| MoA(混合注意力) | 将MoE应用于注意力模块 | 图像生成、多模态任务 |
| CNN专家 | 将MoE应用于CNN层 | 计算机视觉任务 |
$$
\mathcal{L}{aux} = \alpha \cdot N \cdot \sum{i=1}^{N} f_i \cdot Q_i
$$
其中 $f_i$ 是分配给专家 $i$ 的token比例,$Q_i$ 是路由概率比例。
MoA将MoE机制引入多头注意力模块,每个注意力头视为一个”专家”。
1 | class MixtureOfAttention(nn.Module): |
| 特性 | 标准多头注意力 | MoA |
|---|---|---|
| 头激活 | 所有头同时激活 | 动态选择部分头 |
| 计算开销 | 与头数量成正比 | 仅计算被选中的头 |
| 可扩展性 | 增加头数直接增加计算量 | 可扩展更多头而不显著增加计算 |
| 领域 | 代表性工作 | 核心贡献 |
|---|---|---|
| 持续学习 | CN-DPM, Lifelong-MoE, PMoE | 缓解灾难性遗忘 |
| 元学习 | MoE-NPs, MixER, Meta-DMoE | 增强快速适应能力 |
| 多任务学习 | MMoE, MOOR, TaskExpert | 解耦任务、减少干扰 |
| 强化学习 | MMRL, MACE, MENTOR | 处理非平稳环境 |
| 领域 | 任务 | 代表性工作 |
|---|---|---|
| 计算机视觉 | 图像分类 | V-MoE, Soft MoE, CLIP-MoE |
| 目标检测 | MoCaE, DAMEX | |
| 语义分割 | DeepMoE, Swin2-MoSE | |
| 图像生成 | RAPHAEL, MEGAN | |
| 自然语言处理 | NLU | GLaM, MoE-LPR |
| 机器翻译 | GShard, NLLB | |
| 多模态融合 | LIMoE, LLaVA-MoLE |
| 模型 | 参数规模 | 主要成就 |
|---|---|---|
| Switch Transformer | 万亿级 | 预训练速度比T5-Base快7倍 |
| GLaM | 万亿级 | 增强上下文信息利用能力 |
| Mixtral 8×7B | 470亿(激活130亿) | 高参数效率 |
| DeepSeek系列 | - | 多项基准SOTA |
Boston Dynamics | Tesla Optimus | 1X Technologies
人形机器人控制是机器人学中最具挑战性的领域之一,需要处理高维状态空间、复杂动力学、多接触约束和实时性要求。当前主流方法可分为基于模型的控制、学习方法以及两者的混合方案。
1 | 高层策略: 任务规划、步态选择 |
1 | # 神经网络预测参考轨迹 |
$$
u_{total} = u_{model} + u_{learned}
$$
| 方法类别 | 优势 | 劣势 | 适用场景 |
|---|---|---|---|
| 基于模型控制 | 稳定性强、可解释 | 需要精确模型、泛化性差 | 结构化环境、已知任务 |
| 强化学习 | 适应性强、端到端 | 样本效率低、训练困难 | 复杂环境、探索任务 |
| 模仿学习 | 数据效率高、快速部署 | 受限于演示质量 | 有专家数据的任务 |
| 混合方法 | 结合优点、鲁棒性好 | 系统复杂度高 | 工业应用、实际部署 |
任务复杂度
数据可用性
实时性要求
安全性要求
MuJoCo MPC | MPPI | Diffusion Policy
模型预测控制 (Model Predictive Control, MPC) 是一种基于优化的控制方法,通过预测未来状态并优化控制序列来实现目标。将 MPC 与现代学习方法(VLA、Diffusion Policy)结合,可以同时获得学习方法的感知能力和 MPC 的物理可行性保证。
MPC 采用滚动优化 (Receding Horizon) 策略:
离散时间 MPC 优化问题:
$$
\begin{align}
\min_{u_0, \ldots, u_{N-1}} \quad & \sum_{k=0}^{N-1} \left( |x_k - x_{ref}|^2_Q + |u_k|^2_R \right) + |x_N - x_{ref}|^2_P \
\text{subject to} \quad & x_{k+1} = f(x_k, u_k) \quad \text{(动力学约束)} \
& x_k \in \mathcal{X} \quad \text{(状态约束)} \
& u_k \in \mathcal{U} \quad \text{(控制约束)} \
& x_0 = x(t) \quad \text{(初始条件)}
\end{align}
$$
符号说明:
简化模型:线性倒立摆模型 (Linear Inverted Pendulum Model, LIPM)
$$
\ddot{x} = \frac{g}{h}(x - p)
$$
控制变量:
状态变量:
目标:
预测时域:通常 0.5-2 秒
Boston Dynamics Atlas 使用的方法:
1 | # 优化问题 |
1 | ┌────────────────────────────────┐ |
优势:
1 | class DiffusionMPCController: |
关键点:
1 | # Diffusion Policy 输出高层目标 |
优势:
1 | ┌──────────────────────────────┐ |
1 | class VLAMPCController: |
问题:
解决方案:
1 | import threading |
问题:学习模型输出可能违反物理约束
解决方案 A: MPC 作为投影算子
1 | def project_to_feasible(x_ref_infeasible): |
解决方案 B: 软约束
$$
\min \sum |x_k - x_{ref}|^2_Q + |u_k|^2_R + \lambda \cdot \text{constraint_violation}
$$
解决方案 C: 约束感知训练
1 | # 训练时加入物理约束损失 |
问题:学习模型需要知道 MPC 的实际执行结果
解决方案:
1 | class ClosedLoopController: |
架构:
1 | 卷积网络 (地形感知) |
成果:盲走、跑跳、楼梯攀爬
架构:
1 | 神经网络策略 (遥操作数据训练) |
论文:Learning Agile and Dynamic Motor Skills for Legged Robots
方法:
将 MPC 作为神经网络层:
1 | import torch |
优势:
1 | class LearnedMPC: |
应用:
思想:神经网络直接学习 MPC 的最优解映射
$$
u^* = \pi_\theta(x, x_{ref})
$$
训练:
1 | # 生成训练数据 |
优势:
| 场景 | 推荐方案 | 理由 |
|---|---|---|
| 高动态运动 | MPC 主导 + 学习补偿 | 需要精确动力学控制 |
| 复杂感知任务 | VLA 主导 + MPC 安全层 | 感知是瓶颈 |
| 灵巧操作 | Diffusion Policy + MPC 跟踪 | 需要多模态动作 |
| 实时性要求高 | 隐式 MPC | 避免在线优化 |
| 数据充足 | 端到端学习 + 可微分 MPC | 联合优化 |
1 | # 安装依赖 |
解决了什么问题:如何压缩数据,并从压缩后的特征中重新生成数据。
更具体一些,两者是将高维的高噪声数据压缩到低维的流形上(使用$\mathcal{D}$维的latent embedding来表示一个数据)。二者对于流形的构建方式不同: - VAE:连续且平滑,但生成的质量较为模糊(图像生成) - VQ-VAE: 使用离散的基元表示(可以认为压缩率更高,更抽象),生成质量更清晰解决了什么问题:跨模态,长距离的序列理解和预测。
### Diffusion Model **解决了什么问题**:兼具高质量和多样性的生成模型。 核心方法: - **前向过程:** 给图像加噪。这是一个简单的马尔可夫链,直到图片完全变成纯高斯噪声。 - **反向过程:** 训练一个神经网络(通常是 U-Net,或者可以是Transformer),预测在t步时的噪声$\epsilon_t$ DiT是将DDPM的backbone从UNet换成DiT Block(Transformer encoder with adaLN) 达成更好生成效果的同时,可以通过控制adaLN的$\alpha, \gamma, \beta$来控制生成的目标。主要是基于Diffusion Model的应用,引入了多模态。例如Stable Diffusion结合了CLIP的text encoder和KL-VAE的图像潜空间。
作者:Fan Bao, Shen Nie, Kaiwen Xue, Chongxuan Li, Shi Pu, Yaole Wang, Gang Yue, Yue Cao, Hang Su, Jun Zhu
发表于:ICML 2023
扩散模型(Diffusion Models)在图像生成领域取得了巨大成功,但现有方法主要基于 U-Net 架构。随着 Transformer 在各领域的成功应用,如何将 Transformer 有效地应用于多模态扩散模型成为一个重要研究方向。现有的多模态生成方法通常需要为不同任务(文生图、图生文、联合生成等)设计不同的模型架构。
扩散模型通过前向过程逐步向数据添加噪声,再通过反向过程学习去噪,从而实现生成。
UniDiffuser 的核心思想是对不同模态独立添加噪声,使用不同的时间步 $t$ 和 $s$,通过控制时间步实现任务切换。
将 U-Net 的长跳跃连接(Long Skip Connection)引入 Vision Transformer,在浅层和深层之间建立连接。
$$q(x_t | x_0) = \mathcal{N}(x_t; \alpha_t x_0, \sigma_t^2 I)$$
参数说明:
等价的重参数化表示:
$$x_t = \alpha_t x_0 + \sigma_t \epsilon, \quad \epsilon \sim \mathcal{N}(0, I)$$
这个形式便于采样和训练,$\epsilon$ 是标准高斯噪声。
扩散模型学习反向过程 $p_\theta(x_{t-1}|x_t)$,通过神经网络预测噪声 $\epsilon_\theta(x_t, t)$,然后恢复 $x_0$:
$$\hat{x}_0 = \frac{x_t - \sigma_t \epsilon_\theta(x_t, t)}{\alpha_t}$$
解释:由 $x_t = \alpha_t x_0 + \sigma_t \epsilon$ 反解得到。预测出噪声后,即可估计原始数据。
对于图文对 $(x_0, y_0)$,独立地对每个模态加噪:
$$q(x_t, y_s | x_0, y_0) = q(x_t | x_0) \cdot q(y_s | y_0)$$
展开形式:
$$x_t = \alpha_t x_0 + \sigma_t \epsilon_x, \quad y_s = \alpha_s y_0 + \sigma_s \epsilon_y$$
关键点:两个模态使用独立的时间步 $t$ 和 $s$,这是实现多任务统一的核心设计。
数据的联合分布 $q(x_0, y_0)$ 加噪后变为:
$$q(x_t, y_s) = \int q(x_t, y_s | x_0, y_0) q(x_0, y_0) , dx_0 dy_0$$
解释:这是对所有可能的原始数据对进行积分,得到加噪后数据的边缘分布。
通过控制 $t$ 和 $s$ 的取值,可以从联合分布中恢复各种边缘分布和条件分布:
| 时间步设置 | 对应分布 | 实现的任务 |
|---|---|---|
| $t, s > 0$ | $q(x_t, y_s)$ | 联合生成 |
| $t > 0, s = 0$ | $q(x_t, y_0) = q(x_t | y_0) q(y_0)$ | 文生图 |
| $t = 0, s > 0$ | $q(x_0, y_s) = q(y_s | x_0) q(x_0)$ | 图生文 |
| $t > 0, s = T$ | $q(x_t, y_T) \approx q(x_t) q(y_T)$ | 无条件图像生成 |
当 $s=0$ 时,$y_s = y_0$(文本无噪声),此时:
$$q(x_t, y_0) = q(x_t | y_0) \cdot q(y_0)$$
解释:对 $y$ 不加噪声($s=0$)在数学上等价于以 $y$ 为条件进行生成。这是一个优雅的设计——不需要修改模型架构,只需控制时间步即可切换任务。
模型 $\epsilon_\theta$ 同时预测两个模态的噪声:
$$[\hat{\epsilon}_x, \hat{\epsilon}y] = \epsilon_\theta(x_t, y_s, t, s)$$
完整训练损失:
$$\mathcal{L}(\theta) = \mathbb{E}{t, s, (x_0, y_0), \epsilon_x, \epsilon_y} \left[ \lambda_t |\epsilon_x - \hat{\epsilon}_x|^2 + \lambda_s |\epsilon_y - \hat{\epsilon}_y|^2 \right]$$
各项说明:
简化形式(实际训练中常用):
$$\mathcal{L} = \mathbb{E}\left[|\epsilon_x - \hat{\epsilon}_x|^2 + |\epsilon_y - \hat{\epsilon}_y|^2\right]$$
从 $t=T$(纯噪声)开始,逐步去噪到 $t=0$:
$$x_{t-1} = \frac{1}{\sqrt{\alpha_{t|t-1}}} \left( x_t - \frac{1-\alpha_{t|t-1}}{\sigma_t} \hat{\epsilon}x \right) + \tilde{\sigma}t z$$
$$y{s-1} = \frac{1}{\sqrt{\alpha{s|s-1}}} \left( y_s - \frac{1-\alpha_{s|s-1}}{\sigma_s} \hat{\epsilon}_y \right) + \tilde{\sigma}_s z’$$
参数说明:
固定 $s=0$(即 $y_s = y_0$ 为输入文本),只对图像进行去噪:
$$x_{t-1} = \frac{1}{\sqrt{\alpha_{t|t-1}}} \left( x_t - \frac{1-\alpha_{t|t-1}}{\sigma_t} \hat{\epsilon}_x(x_t, y_0, t, 0) \right) + \tilde{\sigma}_t z$$
解释:文本时间步固定为 0,模型接收干净文本作为条件,只更新图像。
U-ViT 在第 $l$ 层和第 $(L-l)$ 层之间添加跳跃连接:
$$h^{(L-l)} = \text{Block}^{(L-l)}\left( \text{Concat}(h^{(L-l-1)}, h^{(l)}) \right)$$
参数说明:
设计动机:借鉴 U-Net 的成功经验,跳跃连接帮助保留低层的细节信息,有助于生成高质量图像。
为增强条件生成效果,使用 CFG 技术:
$$\tilde{\epsilon}_x = \epsilon_\theta(x_t, \varnothing, t, 0) + w \cdot \left( \epsilon_\theta(x_t, y_0, t, 0) - \epsilon_\theta(x_t, \varnothing, t, 0) \right)$$
参数说明:
等价形式:
$$\tilde{\epsilon}_x = (1-w) \cdot \epsilon_\theta(x_t, \varnothing, t, 0) + w \cdot \epsilon_\theta(x_t, y_0, t, 0)$$
训练技巧:训练时以一定概率(如 10%)将文本随机替换为空文本,使模型同时学习条件和无条件生成。
| 阶段 | 图像输入 | 文本输入 | 时间步 |
|---|---|---|---|
| 训练 | 加噪图像 $x_t$ | 加噪文本 $y_s$ | $t, s$ 随机采样 |
| 联合生成 | 纯噪声 | 纯噪声 | $t=s=T \to 0$ |
| 文生图 | 纯噪声 | 原始文本 | $t: T \to 0$, $s=0$ |
| 图生文 | 原始图像 | 纯噪声 | $t=0$, $s: T \to 0$ |
MS-COCO 256×256 文生图(零样本):
| 方法 | FID↓ | CLIP Score↑ |
|---|---|---|
| DALL-E | 27.50 | - |
| GLIDE | 12.24 | - |
| Stable Diffusion | 12.63 | 0.331 |
| UniDiffuser | 9.71 | 0.322 |
ImageNet 256×256 类条件生成:
| 方法 | FID↓ |
|---|---|
| ADM | 10.94 |
| LDM-4 | 10.56 |
| DiT-XL/2 | 9.62 |
| U-ViT-H/2 | 2.29 |
| 公式 | 含义 |
|---|---|
| $x_t = \alpha_t x_0 + \sigma_t \epsilon$ | 前向加噪过程 |
| $q(x_t, y_s | x_0, y_0) = q(x_t|x_0) q(y_s|y_0)$ | 独立加噪(多任务统一的关键) |
| $\mathcal{L} = |\epsilon_x - \hat{\epsilon}_x|^2 + |\epsilon_y - \hat{\epsilon}_y|^2$ | 训练目标 |
| $s=0 \Rightarrow$ 以文本为条件 | 任务切换机制 |
| $\tilde{\epsilon} = \epsilon_\varnothing + w(\epsilon_y - \epsilon_\varnothing)$ | 分类器自由引导 |