Posted 2026-04-07Updated 2026-06-22Review11 minutes read (About 1632 words)

MotionGPT3 - Human Motion as a Second Modality

论文 arXiv | GitHub

研究背景

文本（Text）是离散符号，动作（Motion）是连续信号，两者性质截然不同。现有方法面临两个核心矛盾：

量化误差（Quantization Error）：将动作离散化为 VQ 码本索引以适配 LLM 的 next-token prediction，会引入近似误差，衰减高频细节，破坏语义-物理一致性
跨模态干扰（Cross-Modal Interference）：在单流（Single-Stream）骨架中混合文本与动作 token，梯度相互拉扯，导致训练不稳定、收敛慢

研究目标

提出一个统一的动作-语言模型，同时支持：

Text-to-Motion（T2M）：文本描述 → 生成动作
Motion-to-Text（M2T）：动作序列 → 生成文本描述

且需要避免量化误差，减少跨模态干扰。

核心概念

Mixture-of-Transformers（MoT）

来自 Liang et al. (2024) 的思想：为每个模态配备独立的 Transformer 分支，各自拥有独立的 Embedding、FFN 和 LayerNorm，仅在 Self-Attention 层共享。这样：

各模态保留自身的归纳偏置（Inductive Bias）
跨模态信息仅通过 Attention 受控交换
新增模态只需新增分支，无需重训全部参数

连续动作表示（Continuous Motion Representation）

使用预训练的 Motion VAE 将动作编码为连续 latent 向量（而非 VQ 离散索引），避免量化误差。

研究方法

整体架构

                Motion VAE                    Bimodal LLM                   Motion VAE
              ┌───────────┐            ┌────────────────────┐           ┌───────────┐
原始动作 m ───→│ Encoder E  │──→ z₀     │ Text Branch T      │           │ Decoder D │──→ 动作
              │ 9层Trans.  │           │ Motion Branch M    │           │ 9层Trans. │
              │ 4头,skip   │           │ + Diffusion Head H │──→ ẑ₀ ──→│ 4头,skip  │
              └───────────┘            └────────────────────┘           └───────────┘

1. Motion VAE

来自 Xin et al. (2023)（MLD）
Encoder $\mathcal{E}$: 将 $N$ 帧动作 $m^{1:N}$ 编码为单个 latent $z \in \mathbb{R}^{256}$
Decoder $\mathcal{D}$: 将 latent $z$ 解码回动作序列
训练目标：重建损失 + KL 正则
预训练后冻住，不参与后续训练
动作长度信息隐式编码在 latent 中，Decoder 可生成变长输出

2. 双分支 Bimodal Transformer（MoT 架构）

两个并行分支，基于 GPT-2 配置（12 层，维度 768，MLP 维度 3072）：

组件	Text Branch $\mathcal{T}$	Motion Branch $\mathcal{M}$
初始化	预训练 GPT-2（124M）	从零训练（238M）
Embedding	文本 Embedding	独立 Motion Embedding
FFN	独立	独立
LayerNorm	独立	独立
Self-Attention	共享	共享

路由机制：硬路由（非学习），由特殊标记决定——

<som> / <eom> 界定动作边界
<motion_in> / <motion_out> 标记 I/O 位置
文本 token（$\vartheta_i = 0$）→ Text Branch
动作 token（$\vartheta_i = 1$）→ Motion Branch

3. 动作接口模块

由于动作是连续信号，不能复用文本的 Embedding lookup 和 softmax 解码，需要专用接口：

MUH（Motion Understanding Head）：线性投影，将 VAE latent 映射到 Transformer 输入空间（理解任务）
MGH（Motion Generation Head）：即 Diffusion Head $\mathcal{H}$，将 Transformer 隐状态映射回 VAE latent 空间（生成任务）

4. Diffusion Head $\mathcal{H}$

轻量级扩散模型（3 层 MLP + ResBlock，隐藏维度 1024），在 VAE latent 空间中做去噪：
$$\mathcal{L}{\text{diff}} = \mathbb{E}{z_0, t, \epsilon}\left[|\epsilon - \mathcal{H}(z_t, h_m)|_2^2\right]$$

训练时：对 $z_0$ 加噪得 $z_t$，$\mathcal{H}$ 以 Motion Branch 隐状态 $h_m$ 为条件，学习预测噪声 $\epsilon$
推理时：插入 $K$ 个 <motion_out> 占位 token，Motion Branch 输出 $h_m^{v:v+K}$，$\mathcal{H}$ 从纯噪声 $z_T$ 逐步去噪（默认 100 步）得到 $\hat{z}_0$，再由 VAE Decoder 解码

训练策略：三阶段对齐

Stage I: Text-to-Motion 预训练

冻住 Text Branch $\mathcal{T}$
只训练 Motion Branch $\mathcal{M}$ + Diffusion Head $\mathcal{H}$
任务：T2M（文本→动作生成）
目的：让 $\mathcal{M}$ 在稳定的语言条件下学会动作语义
100k iterations

仍冻住 $\mathcal{T}$
引入多任务：T2M + M2T + Motion Prediction
以指令格式呈现，促进双向对齐
300k iterations

Stage III: 联合微调（Joint Fine-Tuning）

解冻 $\mathcal{T}$，全参数微调
混合文本-动作配对数据 + 纯文本数据
50k iterations

主要发现

双流 vs 单流

双流架构收敛速度约为单流的 2 倍（训练损失）
验证指标（R@3, MMDist）收敛快 4 倍
相同损失水平下，双流模型质量更优

连续 VAE vs 离散 VQ

VQ 方案在 R@3 约 0.5 时即饱和（天花板低）
VAE 连续表示持续改进，最终质量显著更高

实验结果

在 HumanML3D 上：

T2M：R@3 = 0.837，MMDist = 2.725，达到 SOTA
M2T：BertScore = 35.231，超越现有统一模型

讨论

优势

避免 VQ 量化误差，保留高频运动细节
双分支设计减少梯度干扰，加速收敛
三阶段训练抑制跨任务干扰
仅需 2 张 3090，训练高效

局限性

VAE 输出单个 latent，不支持长动作的分段组合生成
方向性控制（左/右）有时会失败
泛化能力受限于数据覆盖范围

与其他多模态架构的对比

架构类型	路由方式	代表	特点
单流 + Projector	无路由，全拼接	LLaVA, Qwen-VL	简单，但有跨模态干扰
MoE	学习的 Router, TopK 选专家	Mixtral, Switch Transformer	动态路由，扩展性好
MoT / 双分支	按模态硬路由，共享 Attention	MotionGPT3	隔离前馈，受控交互

未来方向

分层/分段 latent：用 hierarchical 或 segment-wise latent 表示支持长动作和组合生成
更大数据集和更强 LLM：扩展训练规模，评估效率和鲁棒性
局部语义对齐：支持段级别的文本-动作精细对应

参考文献

Zhu, B., Jiang, B., Wang, S., et al. (2025). MotionGPT3: Human Motion as a Second Modality. arXiv:2506.24086.
Xin, T., et al. (2023). MLD: Motion Latent Diffusion.
Liang, C., et al. (2024). Mixture-of-Transformers (MoT).
Radford, A., et al. (2019). GPT-2.

Posted 2026-02-06Updated 2026-06-22Review10 minutes read (About 1443 words)

BAGEL-Unified-Multimodal-Pretraining

BAGEL: Emerging Properties in Unified Multimodal Pretraining

论文链接 | 项目主页

作者：Chaorui Deng, Deyao Zhu, Kunchang Li 等 (ByteDance Seed)

研究背景

统一多模态理解与生成（Unified Multimodal Understanding and Generation）是当前AI领域的热点方向。GPT-4o、Gemini 2.0等闭源系统展现了强大能力，但开源模型与之仍存在显著差距。现有开源统一模型主要在图文配对数据上训练，缺乏对复杂多模态交错数据（Interleaved Data）的利用。

研究目标

缩小开源统一多模态模型与闭源系统（GPT-4o、Gemini 2.0）之间的性能差距
解决现有模型架构中理解与生成模块之间的信息瓶颈（Bottleneck）问题
构建能够支持复杂多模态推理的大规模交错数据

核心概念

理解与生成之间的瓶颈（Bottleneck）

在采用 External Diffuser 架构的模型中，LLM/VLM 与扩散模型通过轻量级适配器连接：

语言模型生成少量潜在token作为”语义条件”
这些token被传递给扩散模块生成图像
问题：LLM的丰富上下文被压缩到少量token中，导致信息损失，尤其影响长上下文多模态推理

Mixture-of-Transformer-Experts (MoT)

与传统MoE不同，MoT复制整个Transformer层而非仅FFN：

理解专家：处理文本和ViT token
生成专家：处理VAE token
两个专家通过共享自注意力在每层交互

研究方法

架构设计

BAGEL采用无瓶颈的集成Transformer方案：

双视觉编码器：

理解编码器：SigLIP2-so400m/14，捕获语义信息
生成编码器：FLUX VAE，处理像素级信息

训练范式

模态	方法	损失函数
文本	Next-Token-Prediction	Cross-Entropy
视觉	Rectified Flow	MSE

损失权重比：$\text{CE} : \text{MSE} = 0.25 : 1$

广义因果注意力（Generalized Causal Attention）

对于交错多图像生成：

Noised VAE tokens：用于Rectified-Flow训练
Clean VAE tokens：作为后续生成的条件
ViT tokens：统一输入格式，提升交错生成质量

采用Diffusion Forcing策略，对不同图像添加独立噪声级别。

数据构��

数据规模

数据类型	数据量	Token数
纯文本	400M	0.4T
图文配对（理解）	500M	0.5T
图文配对（生成）	1600M	2.6T
交错理解数据	100M	0.5T
交错生成数据（视频）	45M	0.7T
交错生成数据（网页）	20M	0.4T

交错数据构建流程

视频数据：

视频预处理（分割、裁剪、质量过滤）
使用蒸馏的小型VLM生成帧间描述
构建时序对齐的交错序列

网页数据：

两阶段主题筛选（LLM + fastText）
质量过滤（分辨率、清晰度、相关性）
Caption-first策略：为每张图像生成描述并插入其前

推理增强数据（Reasoning-Augmented Data）

受DeepSeek-R1启发，构建50万条推理增强样本：

Text-to-Image生成
自由形式图像操作
概念性编辑

主要发现

涌现能力（Emerging Properties）

论文定义：某能力在早期训练阶段不存在，但在后期训练中出现

不同能力的涌现时间点（达到85%峰值性能所需token数）：

能力	涌现时间点
多模态理解	~0.18T tokens
图像生成	~0.68T tokens
图像编辑	~2.64T tokens
智能编辑（复杂推理）	~3.61T tokens

关键发现：

理解和生成能力最先收敛
编辑能力随后涌现
需要复杂推理的智能编辑能力最后涌现
ViT tokens对智能编辑至关重要（移除后性能下降16%）

架构对比实验

在1.5B模型上对比Dense、MoE、MoT三种架构：

MoT在生成任务上优势最明显
表明理解和生成可能需要不同的参数空间

实验结果

多模态理解（7B参数）

基准	BAGEL	Janus-Pro	Qwen2.5-VL
MMMU	58.6	41.8	49.3
MM-Vet	73.1	55.9	62.8
MathVista	69.3	54.7	68.2
MMVP	67.2	48.3	-

图像生成（GenEval）

模型	Overall
BAGEL (w/ rewriter)	0.88
BAGEL	0.82
Janus-Pro	0.80
FLUX.1-dev	0.82
SD3-Medium	0.74

智能编辑（IntelligentBench）

模型	Score
GPT-4o	78.9
BAGEL w/ Self-CoT	55.3
BAGEL	44.9
Gemini 2.0	57.6
Step1X-Edit	14.9

讨论

优势

无瓶颈架构：理解与生成模块间无损信息交互
涌现能力：首次系统揭示统一多模态预训练的涌现规律
开源贡献：发布代码、模型权重和数据构建协议
推理增强：CoT显著提升复杂任务表现（WISE: +0.18, IntelligentBench: +10.4）

局限性

与GPT-4o在智能编辑上仍有差距（55.3 vs 78.9）
模型规模相对较小（7B active / 14B total）
训练计算成本高（需要大规模交错数据）

未来方向

更大规模训练：探索更大模型和更多数据下的涌现行为
视频生成：论文展示了初步的视频生成能力，有待深入
强化学习：无瓶颈架构为多模态RL提供了基础
世界建模：导航、3D操作等世界建模任务的进一步探索

参考文献

Deng et al. (2025). Emerging Properties in Unified Multimodal Pretraining. arXiv:2505.14683
DeepSeek-AI (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
Esser et al. (2024). Scaling Rectified Flow Transformers for High-Resolution Image Synthesis (SD3)

Posted 2026-02-05Updated 2026-06-22Review10 minutes read (About 1561 words)

LingBot-VLA

LingBot-VLA: A Pragmatic VLA Foundation Model

论文链接 | GitHub | Checkpoints

研究背景

视觉-语言-动作（Vision-Language-Action, VLA）基础模型是机器人操作领域的新兴方法，通过大规模预训练使机器人能够执行由自然语言指令引导的多样化操作任务。然而，目前存在以下问题：

缺乏关于真实机器人性能如何随预训练数据规模增长而变化的系统性实证研究
缺乏高效的训练代码库来支持大规模数据的扩展评估
缺乏跨多平台、多任务的系统性真实世界评估基准

研究目标

探索 VLA 模型在真实世界机器人数据上的扩展规律（Scaling Law）
建立跨多平台、多任务的系统性真实世界评估基准
开发高效的大规模 VLA 训练代码库

核心概念

Mixture-of-Transformers (MoT) 架构

将预训练的视觉语言模型（VLM）与动作生成模块（Action Expert）结合，通过共享自注意力机制实现跨模态统一建模。视觉-语言和动作模态通过独立的 Transformer 路径处理，既保留 VLM 的语义先验，又避免跨模态干扰。

Flow Matching

一种用于连续动作建模的生成方法，通过学习从噪声到目标动作的向量场来生成平滑的机器人控制信号。

Blockwise Causal Attention

将序列划分为图像-指令块、状态块和动作块，应用因果掩码防止信息泄露，确保动作预测只能访问当前和历史观测信息。

研究方法

模型架构

LingBot-VLA 采用 MoT 架构，整合 Qwen2.5-VL 作为视觉语言骨干网络，配合独立的 Action Expert 模块：

联合建模序列：
$$[O_t, A_t] = [I_t^1, I_t^2, I_t^3, T_t, s_t, a_t, a_{t+1}, \ldots, a_{t+T-1}]$$

其中 $I_t^{1,2,3}$ 为三视角图像，$T_t$ 为任务指令，$s_t$ 为机器人状态，$A_t$ 为动作序列（chunk length = 50）。
类似[[BAGEL-Unified-Multimodal-Pretraining]]

Flow Matching 目标函数

定义概率路径通过线性插值：
$$A_{t,s} = sA_t + (1-s)\epsilon, \quad \epsilon \sim \mathcal{N}(0, I)$$

训练目标：
$$\mathcal{L}{FM} = \mathbb{E}{s \sim U[0,1], A_t, \epsilon}|v_\theta(A_{t,s}, O_t, s) - (A_t - \epsilon)|^2$$

深度信息蒸馏

通过可学习查询 $Q_t$ 与 LingBot-Depth 模型的深度 token $D_t$ 对齐，增强空间感知：
$$\mathcal{L}{distill} = \mathbb{E}{Q_t}|Proj(Q_t) - D_t|$$

训练效率优化

FSDP 分布式策略：采用混合分片数据并行（HSDP），为 Action Expert 模块构建专用分片组
算子级优化：使用 FlexAttention 优化稀疏注意力计算，torch.compile 进行算子融合
混合精度：reduction 使用 float32，存储和通信使用 bfloat16

主要发现

扩展规律验证

预训练数据从 3,000 小时扩展到 20,000 小时，下游任务成功率持续显著提升
在 20,000 小时数据量下仍未出现饱和迹象，表明 VLA 性能持续受益于数据量增加
首次提供了真实世界机器人学习中有利扩展特性的实证证据

数据效率

仅使用 80 个演示即可超越 π0.5 使用 130 个演示的性能
随着后训练数据量增加，与基线的性能差距进一步扩大

实验设计

预训练数据

规模：约 20,000 小时真实世界操作数据
来源：9 种双臂机器人平台（AgiBot G1、AgileX、Galaxea R1Lite/R1Pro、Realman Rs-02、Leju KUAVO、Qinglong、ARX Lift2、Bimanual Franka）

评估基准

GM-100 基准：100 个操作任务，39,000 个专家演示
评估规模：3 个机器人平台，每任务 130 个后训练 episode，共 22,500 次试验
对比方法：π0.5、GR00T N1.6、WALL-OSS

真实世界评估结果

方法	平均成功率(SR)	平均进度分(PS)
WALL-OSS	4.05%	10.35%
GR00T N1.6	7.59%	15.99%
π0.5	13.02%	27.65%
LingBot-VLA w/o depth	15.74%	33.69%
LingBot-VLA w/ depth	17.30%	35.41%

仿真评估结果（RoboTwin 2.0）

方法	Clean 场景 SR	Randomized 场景 SR
π0.5	82.74%	76.76%
LingBot-VLA w/o depth	86.50%	85.34%
LingBot-VLA w/ depth	88.56%	86.68%

训练吞吐量

实现 261 samples/s/GPU（8-GPU 配置）
相比 StarVLA、DexBotic、OpenPI 提升 1.5~2.8 倍
在 256 GPU 规模下仍保持接近线性扩展

讨论

优势

首次在大规模真实世界数据上验证 VLA 扩展规律
显著优于现有 SOTA 方法的多平台泛化能力
高效的训练代码库，支持大规模分布式训练
开源代码、模型和基准数据

局限性

目前仅支持双臂机器人配置
评估主要集中在桌面操作任务
深度信息蒸馏依赖额外的 LingBot-Depth 模型

未来方向

扩展机器人类型：整合单臂和移动机器人数据，支持更多样化的操作能力
非约束环境：探索在非结构化环境中的移动操作能力
持续扩展：进一步扩大预训练数据规模，探索扩展规律的上限

参考文献

Black et al. (2025). π0: A vision-language-action flow model for general robot control. RSS.
Black et al. (2025). π0.5: A vision-language-action model with open-world generalization. CoRL.
Bjorck et al. (2025). GR00T N1: An open foundation model for generalist humanoid robots. arXiv.
Bai et al. (2025). Qwen2.5-VL technical report. arXiv.
Lipman et al. (2022). Flow matching for generative modeling. arXiv.
Wang et al. (2026). The Great March 100: 100 detail-oriented tasks for evaluating embodied AI agents.

MotionGPT3 - Human Motion as a Second Modality

研究背景

研究目标

核心概念

Mixture-of-Transformers（MoT）

连续动作表示（Continuous Motion Representation）

研究方法

整体架构

1. Motion VAE

2. 双分支 Bimodal Transformer（MoT 架构）

3. 动作接口模块

4. Diffusion Head $\mathcal{H}$

训练策略：三阶段对齐

Stage I: Text-to-Motion 预训练

Stage II: 跨模态对齐（Cross-Modal Alignment）

Stage III: 联合微调（Joint Fine-Tuning）

主要发现

双流 vs 单流

连续 VAE vs 离散 VQ

实验结果

讨论

优势

局限性

与其他多模态架构的对比

未来方向

参考文献

BAGEL: Emerging Properties in Unified Multimodal Pretraining

研究背景

研究目标

核心概念

理解与生成之间的瓶颈（Bottleneck）

Mixture-of-Transformer-Experts (MoT)

研究方法

架构设计

训练范式

广义因果注意力（Generalized Causal Attention）

数据构���

数据规模

交错数据构建流程

推理增强数据（Reasoning-Augmented Data）

主要发现

涌现能力（Emerging Properties）

架构对比实验

实验结果

多模态理解（7B参数）

图像生成（GenEval）

智能编辑（IntelligentBench）

讨论

优势

局限性

相关工作

未来方向

参考文献

LingBot-VLA: A Pragmatic VLA Foundation Model

研究背景

研究目标

核心概念

Mixture-of-Transformers (MoT) 架构

Flow Matching

Blockwise Causal Attention

研究方法

模型架构

Flow Matching 目标函数

深度信息蒸馏

训练效率优化

主要发现

扩展规律验证

数据效率

实验设计

预训练数据

评估基准

真实世界评估结果

仿真评估结果（RoboTwin 2.0）

训练吞吐量

讨论

优势

局限性

相关工作

Foundation VLA

Spatial VLA

数据构��