Posted 2026-02-05Updated 2026-03-01Review10 minutes read (About 1561 words)

LingBot-VLA: A Pragmatic VLA Foundation Model

论文链接 | GitHub | Checkpoints

研究背景

视觉-语言-动作（Vision-Language-Action, VLA）基础模型是机器人操作领域的新兴方法，通过大规模预训练使机器人能够执行由自然语言指令引导的多样化操作任务。然而，目前存在以下问题：

缺乏关于真实机器人性能如何随预训练数据规模增长而变化的系统性实证研究
缺乏高效的训练代码库来支持大规模数据的扩展评估
缺乏跨多平台、多任务的系统性真实世界评估基准

研究目标

探索 VLA 模型在真实世界机器人数据上的扩展规律（Scaling Law）
建立跨多平台、多任务的系统性真实世界评估基准
开发高效的大规模 VLA 训练代码库

核心概念

Mixture-of-Transformers (MoT) 架构

将预训练的视觉语言模型（VLM）与动作生成模块（Action Expert）结合，通过共享自注意力机制实现跨模态统一建模。视觉-语言和动作模态通过独立的 Transformer 路径处理，既保留 VLM 的语义先验，又避免跨模态干扰。

Flow Matching

一种用于连续动作建模的生成方法，通过学习从噪声到目标动作的向量场来生成平滑的机器人控制信号。

Blockwise Causal Attention

将序列划分为图像-指令块、状态块和动作块，应用因果掩码防止信息泄露，确保动作预测只能访问当前和历史观测信息。

研究方法

模型架构

LingBot-VLA 采用 MoT 架构，整合 Qwen2.5-VL 作为视觉语言骨干网络，配合独立的 Action Expert 模块：

联合建模序列：
$$[O_t, A_t] = [I_t^1, I_t^2, I_t^3, T_t, s_t, a_t, a_{t+1}, \ldots, a_{t+T-1}]$$

其中 $I_t^{1,2,3}$ 为三视角图像，$T_t$ 为任务指令，$s_t$ 为机器人状态，$A_t$ 为动作序列（chunk length = 50）。
类似[[BAGEL-Unified-Multimodal-Pretraining]]

Flow Matching 目标函数

定义概率路径通过线性插值：
$$A_{t,s} = sA_t + (1-s)\epsilon, \quad \epsilon \sim \mathcal{N}(0, I)$$

训练目标：
$$\mathcal{L}{FM} = \mathbb{E}{s \sim U[0,1], A_t, \epsilon}|v_\theta(A_{t,s}, O_t, s) - (A_t - \epsilon)|^2$$

深度信息蒸馏

通过可学习查询 $Q_t$ 与 LingBot-Depth 模型的深度 token $D_t$ 对齐，增强空间感知：
$$\mathcal{L}{distill} = \mathbb{E}{Q_t}|Proj(Q_t) - D_t|$$

训练效率优化

FSDP 分布式策略：采用混合分片数据并行（HSDP），为 Action Expert 模块构建专用分片组
算子级优化：使用 FlexAttention 优化稀疏注意力计算，torch.compile 进行算子融合
混合精度：reduction 使用 float32，存储和通信使用 bfloat16

主要发现

扩展规律验证

预训练数据从 3,000 小时扩展到 20,000 小时，下游任务成功率持续显著提升
在 20,000 小时数据量下仍未出现饱和迹象，表明 VLA 性能持续受益于数据量增加
首次提供了真实世界机器人学习中有利扩展特性的实证证据

数据效率

仅使用 80 个演示即可超越 π0.5 使用 130 个演示的性能
随着后训练数据量增加，与基线的性能差距进一步扩大

实验设计

预训练数据

规模：约 20,000 小时真实世界操作数据
来源：9 种双臂机器人平台（AgiBot G1、AgileX、Galaxea R1Lite/R1Pro、Realman Rs-02、Leju KUAVO、Qinglong、ARX Lift2、Bimanual Franka）

评估基准

GM-100 基准：100 个操作任务，39,000 个专家演示
评估规模：3 个机器人平台，每任务 130 个后训练 episode，共 22,500 次试验
对比方法：π0.5、GR00T N1.6、WALL-OSS

真实世界评估结果

方法	平均成功率(SR)	平均进度分(PS)
WALL-OSS	4.05%	10.35%
GR00T N1.6	7.59%	15.99%
π0.5	13.02%	27.65%
LingBot-VLA w/o depth	15.74%	33.69%
LingBot-VLA w/ depth	17.30%	35.41%

仿真评估结果（RoboTwin 2.0）

方法	Clean 场景 SR	Randomized 场景 SR
π0.5	82.74%	76.76%
LingBot-VLA w/o depth	86.50%	85.34%
LingBot-VLA w/ depth	88.56%	86.68%

训练吞吐量

实现 261 samples/s/GPU（8-GPU 配置）
相比 StarVLA、DexBotic、OpenPI 提升 1.5~2.8 倍
在 256 GPU 规模下仍保持接近线性扩展

讨论

优势

首次在大规模真实世界数据上验证 VLA 扩展规律
显著优于现有 SOTA 方法的多平台泛化能力
高效的训练代码库，支持大规模分布式训练
开源代码、模型和基准数据

局限性

目前仅支持双臂机器人配置
评估主要集中在桌面操作任务
深度信息蒸馏依赖额外的 LingBot-Depth 模型

未来方向

扩展机器人类型：整合单臂和移动机器人数据，支持更多样化的操作能力
非约束环境：探索在非结构化环境中的移动操作能力
持续扩展：进一步扩大预训练数据规模，探索扩展规律的上限

参考文献

Black et al. (2025). π0: A vision-language-action flow model for general robot control. RSS.
Black et al. (2025). π0.5: A vision-language-action model with open-world generalization. CoRL.
Bjorck et al. (2025). GR00T N1: An open foundation model for generalist humanoid robots. arXiv.
Bai et al. (2025). Qwen2.5-VL technical report. arXiv.
Lipman et al. (2022). Flow matching for generative modeling. arXiv.
Wang et al. (2026). The Great March 100: 100 detail-oriented tasks for evaluating embodied AI agents.

Posted 2026-02-05Updated 2026-03-01Note21 minutes read (About 3181 words)

MPC与学习方法的融合

模型预测控制 (MPC) 与学习方法的融合

MuJoCo MPC | MPPI | Diffusion Policy

概述

模型预测控制 (Model Predictive Control, MPC) 是一种基于优化的控制方法，通过预测未来状态并优化控制序列来实现目标。将 MPC 与现代学习方法（VLA、Diffusion Policy）结合，可以同时获得学习方法的感知能力和 MPC 的物理可行性保证。

MPC 基础

核心思想

MPC 采用滚动优化 (Receding Horizon) 策略：

测量当前状态 $x(t)$
预测未来 $N$ 步的状态轨迹
求解优化问题得到控制序列
只执行第一步控制 $u(t)$
下一时刻重复上述过程

数学形式

离散时间 MPC 优化问题：

$$
\begin{align}
\min_{u_0, \ldots, u_{N-1}} \quad & \sum_{k=0}^{N-1} \left( |x_k - x_{ref}|^2_Q + |u_k|^2_R \right) + |x_N - x_{ref}|^2_P \
\text{subject to} \quad & x_{k+1} = f(x_k, u_k) \quad \text{(动力学约束)} \
& x_k \in \mathcal{X} \quad \text{(状态约束)} \
& u_k \in \mathcal{U} \quad \text{(控制约束)} \
& x_0 = x(t) \quad \text{(初始条件)}
\end{align}
$$

符号说明：

$x_k$：第 $k$ 步的状态
$u_k$：第 $k$ 步的控制输入
$Q, R, P$：权重矩阵
$\mathcal{X}, \mathcal{U}$：可行域

MPC 在人形机器人中的应用

1. 步态规划 MPC

简化模型：线性倒立摆模型 (Linear Inverted Pendulum Model, LIPM)

$$
\ddot{x} = \frac{g}{h}(x - p)
$$

$h$：质心高度
$p$：支撑点位置（落脚点）
$g$：重力加速度

控制变量：

足部落脚点位置
接触力分布

状态变量：

质心位置和速度
机器人姿态

目标：

跟踪期望速度
保持平衡稳定性

预测时域：通常 0.5-2 秒

2. 接触力优化 MPC

Boston Dynamics Atlas 使用的方法：

# 优化问题
minimize    sum(||f_i - f_desired||^2)  # 接触力偏差
subject to:
    # 动力学约束
    m * a_com = sum(f_i) + m * g
    I * alpha = sum(r_i × f_i)

    # 摩擦锥约束
    ||f_i_tangent|| <= mu * f_i_normal

    # 单侧约束
    f_i_normal >= 0

    # ZMP 约束
    ZMP in support_polygon

3. 全身运动 MPC

同时优化质心轨迹和关节运动
考虑动力学耦合
处理多接触场景（双足、手足并用）

MPC 与学习方法的融合架构

架构 1: 分层控制

┌────────────────────────────────┐
│  VLA / Diffusion Policy (高层)  │
│  - 视觉感知                      │
│  - 语言理解                      │
│  - 任务规划                      │
└────────────┬────────────────────┘
             │ 输出: 参考轨迹/目标
             ↓
┌─────────────────────────────────┐
│         MPC (低层)               │
│  - 轨迹跟踪                      │
│  - 约束满足                      │
│  - 稳定性保证                    │
└────────────┬────────────────────┘
             │ 输出: 关节力矩
             ↓
┌─────────────────────────────────┐
│        机器人执行                │
└─────────────────────────────────┘

优势：

高层处理感知和决策
低层保证物理可行性
解耦复杂性

Diffusion Policy → MPC 集成

方案 A: 轨迹级集成

class DiffusionMPCController:
    def __init__(self):
        self.diffusion_policy = DiffusionPolicy()
        self.mpc = MPCController(horizon=20, dt=0.05)

    def control_step(self, observation):
        # Diffusion Policy 生成动作序列
        action_sequence = self.diffusion_policy.predict(
            observation,
            horizon=16,  # 预测未来 16 步
            num_samples=10  # 采样 10 条轨迹
        )

        # 选择最优轨迹（可选）
        best_trajectory = self.select_best(action_sequence)

        # 转换为 MPC 参考轨迹
        x_ref = self.action_to_state(best_trajectory)

        # MPC 跟踪轨迹
        u_opt = self.mpc.solve(
            x_current=self.get_state(),
            x_ref=x_ref,
            constraints={
                'joint_limits': True,
                'friction_cone': True,
                'stability': True
            }
        )

        return u_opt[0]  # 执行第一步

关键点：

Diffusion Policy 提供长期规划
MPC 提供短期精确控制
异步更新：Diffusion 可以较慢运行

方案 B: 目标级集成

# Diffusion Policy 输出高层目标
goal = diffusion_policy.predict_goal(observation)
# 例如: {"grasp_position": [x, y, z],
#        "contact_points": [...],
#        "gait_parameters": {...}}

# MPC 以此为终端约束
mpc.set_terminal_constraint(goal)
u_opt = mpc.solve(x_current)

优势：

更高层次的抽象
MPC 有更大优化自由度
减少 Diffusion Policy 的输出维度

VLA → MPC 集成

典型流程

┌──────────────────────────────┐
│  视觉输入 + 语言指令          │
│  "Pick up the red cup"       │
└──────────┬───────────────────┘
           │
           ↓
┌──────────────────────────────┐
│  VLA 模型 (如 RT-2, OpenVLA) │
│  - 视觉编码器                 │
│  - 语言编码器                 │
│  - 动作解码器                 │
└──────────┬───────────────────┘
           │ 输出
           ↓
┌──────────────────────────────┐
│  - 末端执行器目标位姿         │
│  - 期望接触力方向             │
│  - 步态参数                   │
└──────────┬───────────────────┘
           │
           ↓
┌──────────────────────────────┐
│  MPC 优化器                   │
│  目标: 跟踪 VLA 输出          │
│  约束: 动力学、稳定性、限位   │
└──────────┬───────────────────┘
           │
           ↓
┌──────────────────────────────┐
│  安全的控制指令               │
└──────────────────────────────┘

代码示例

class VLAMPCController:
    def __init__(self):
        self.vla = VLAModel()  # RT-2, OpenVLA, etc.
        self.mpc = MPCController(horizon=20, dt=0.05)
        self.update_freq = 10  # VLA 更新频率 (Hz)

    def control_step(self, obs, language_command):
        # 高层策略更新（较慢）
        if self.frame % (self.control_freq // self.update_freq) == 0:
            # VLA 预测
            vla_output = self.vla.predict(
                image=obs['camera'],
                language=language_command,
                proprioception=obs['joint_states']
            )

            # 解析 VLA 输出
            reference_traj = self.parse_vla_output(vla_output)
            self.mpc.set_reference(reference_traj)

        # 低层优化（快速）
        current_state = obs['robot_state']
        u_opt = self.mpc.solve(
            current_state,
            constraints={
                'friction_cone': True,
                'joint_limits': True,
                'stability': True,
                'collision_avoidance': True
            }
        )

        return u_opt[0]

    def parse_vla_output(self, vla_output):
        """将 VLA 输出转换为 MPC 参考轨迹"""
        # 示例: VLA 输出末端执行器位姿
        ee_pose = vla_output['end_effector_pose']

        # 使用逆运动学生成关节轨迹
        joint_traj = self.inverse_kinematics(ee_pose)

        return joint_traj

技术挑战与解决方案

1. 时间尺度不匹配

问题：

Diffusion Policy 生成：50-200 ms
VLA 推理：100-500 ms
MPC 求解：1-10 ms

解决方案：

异步运行

import threading

class AsyncController:
    def __init__(self):
        self.reference_traj = None
        self.lock = threading.Lock()

        # 启动高层策略线程
        self.policy_thread = threading.Thread(
            target=self.update_policy_loop
        )
        self.policy_thread.start()

    def update_policy_loop(self):
        while True:
            new_traj = self.diffusion_policy.predict(self.obs)
            with self.lock:
                self.reference_traj = new_traj
            time.sleep(0.1)  # 10 Hz 更新

    def control_step(self):
        with self.lock:
            ref = self.reference_traj

        # MPC 使用缓存的参考轨迹
        u = self.mpc.solve(self.state, ref)
        return u

预测更长时域

Diffusion Policy 预测 2-5 秒
MPC 消耗预测轨迹
分摊计算成本

快速采样方法

使用 DDIM (Denoising Diffusion Implicit Models)
减少扩散步数：50 步 → 10 步
牺牲少量质量换取速度

2. 可行性保证

问题：学习模型输出可能违反物理约束

解决方案 A: MPC 作为投影算子

def project_to_feasible(x_ref_infeasible):
    """将不可行参考投影到可行集"""
    x_ref_feasible = solve_qp(
        minimize    ||x - x_ref_infeasible||^2
        subject to  dynamics_constraints(x)
                    stability_constraints(x)
                    joint_limits(x)
    )
    return x_ref_feasible

解决方案 B: 软约束

$$
\min \sum |x_k - x_{ref}|^2_Q + |u_k|^2_R + \lambda \cdot \text{constraint_violation}
$$

允许轻微违反约束
通过权重 $\lambda$ 平衡跟踪和可行性

解决方案 C: 约束感知训练

# 训练时加入物理约束损失
loss = reconstruction_loss + \
       lambda_dynamics * dynamics_violation + \
       lambda_stability * stability_violation

3. 反馈闭环

问题：学习模型需要知道 MPC 的实际执行结果

解决方案：

class ClosedLoopController:
    def control_step(self, obs):
        # 计算跟踪误差
        tracking_error = self.x_ref - self.x_actual

        # 将误差作为观测的一部分
        augmented_obs = {
            'vision': obs['camera'],
            'proprioception': obs['joint_states'],
            'tracking_error': tracking_error,  # 新增
            'mpc_cost': self.mpc.last_cost     # 新增
        }

        # 策略根据反馈调整
        new_ref = self.policy.predict(augmented_obs)

        return new_ref

实际案例

MIT Cheetah 3

架构：

卷积网络 (地形感知)
    ↓
MPC (落脚点规划)
    ↓
WBC (全身控制)

成果：盲走、跑跳、楼梯攀爬

Tesla Optimus (推测)

架构：

神经网络策略 (遥操作数据训练)
    ↓ 输出期望关节位置/速度
全身控制器 (类 MPC)
    ↓ 考虑力矩限制、平衡约束
执行

DeepMind 的工作

论文：Learning Agile and Dynamic Motor Skills for Legged Robots

方法：

强化学习策略输出高层指令
MPC 作为安全层过滤不可行动作
在线适应环境变化

高级话题

1. 可微分 MPC

将 MPC 作为神经网络层：

import torch

class DifferentiableMPC(torch.nn.Module):
    def forward(self, x_current, x_ref):
        # 使用可微分优化求解器
        u_opt = cvxpylayers.solve_qp(
            Q, R, x_current, x_ref,
            dynamics_matrix, constraint_matrix
        )
        return u_opt

优势：

端到端训练
梯度可以反向传播到策略网络
联合优化感知和控制

2. 学习 MPC 参数

class LearnedMPC:
    def __init__(self):
        # 学习代价函数权重
        self.Q_net = nn.Linear(obs_dim, state_dim * state_dim)
        self.R_net = nn.Linear(obs_dim, action_dim * action_dim)

    def forward(self, obs, x_current):
        # 根据观测调整权重
        Q = self.Q_net(obs).reshape(state_dim, state_dim)
        R = self.R_net(obs).reshape(action_dim, action_dim)

        # 使用学习的权重求解 MPC
        u_opt = mpc_solve(x_current, Q, R)
        return u_opt

应用：

任务自适应
环境自适应
个性化控制

3. 隐式 MPC

思想：神经网络直接学习 MPC 的最优解映射

$$
u^* = \pi_\theta(x, x_{ref})
$$

训练：

# 生成训练数据
for _ in range(num_samples):
    x = sample_state()
    x_ref = sample_reference()
    u_opt = mpc_solve(x, x_ref)  # 精确求解

    dataset.append((x, x_ref, u_opt))

# 训练神经网络拟合
model.fit(dataset)

优势：

推理速度快（无需在线优化）
保留 MPC 的结构
可处理高维问题

实现建议

选择集成方式

场景	推荐方案	理由
高动态运动	MPC 主导 + 学习补偿	需要精确动力学控制
复杂感知任务	VLA 主导 + MPC 安全层	感知是瓶颈
灵巧操作	Diffusion Policy + MPC 跟踪	需要多模态动作
实时性要求高	隐式 MPC	避免在线优化
数据充足	端到端学习 + 可微分 MPC	联合优化

调试技巧

分别验证：先确保 MPC 和学习模型各自工作
可视化参考轨迹：检查学习模型输出是否合理
监控约束违反：记录 MPC 约束满足情况
渐进式集成：从简单场景开始，逐步增加复杂度

开源实现

MPC 库

MuJoCo MPC: Google DeepMind 的 MPC 实现
MPPI: Model Predictive Path Integral
acados: 快速非线性 MPC 求解器

学习框架

Diffusion Policy: 官方实现
OpenVLA: 开源 VLA 模型
LeRobot: Hugging Face 机器人学习库

集成示例

# 安装依赖
pip install mujoco mujoco-mpc
pip install diffusers transformers
pip install cvxpy osqp

# 示例代码
git clone https://github.com/google-deepmind/mujoco_mpc
cd mujoco_mpc/python
python examples/humanoid_walk.py

未来方向

世界模型 + MPC：学习环境动力学，用于 MPC 预测
多模态 MPC：处理接触模式切换的不确定性
分布式 MPC：多机器人协同控制
神经符号融合：结合符号推理和神经网络
终身学习：持续改进 MPC 参数和模型

参考资源

论文

“Learning Agile and Dynamic Motor Skills for Legged Robots” (DeepMind, 2019)
“Diffusion Policy: Visuomotor Policy Learning via Action Diffusion” (Columbia, 2023)
“RT-2: Vision-Language-Action Models” (Google, 2023)

LingBot-VLA: A Pragmatic VLA Foundation Model

研究背景

研究目标

核心概念

Mixture-of-Transformers (MoT) 架构

Flow Matching

Blockwise Causal Attention

研究方法

模型架构

Flow Matching 目标函数

深度信息蒸馏

训练效率优化

主要发现

扩展规律验证

数据效率

实验设计

预训练数据

评估基准

真实世界评估结果

仿真评估结果（RoboTwin 2.0）

训练吞吐量

讨论

优势

局限性

相关工作

Foundation VLA

Spatial VLA

高效训练框架

未来方向

参考文献

模型预测控制 (MPC) 与学习方法的融合

概述

MPC 基础

核心思想

数学形式

MPC 在人形机器人中的应用

1. 步态规划 MPC

2. 接触力优化 MPC

3. 全身运动 MPC

MPC 与学习方法的融合架构

架构 1: 分层控制

Diffusion Policy → MPC 集成

方案 A: 轨迹级集成

方案 B: 目标级集成

VLA → MPC 集成

典型流程

代码示例

技术挑战与解决方案

1. 时间尺度不匹配

异步运行

预测更长时域

快速采样方法

2. 可行性保证

3. 反馈闭环

实际案例

MIT Cheetah 3

Tesla Optimus (推测)

DeepMind 的工作

高级话题

1. 可微分 MPC

2. 学习 MPC 参数

3. 隐式 MPC

实现建议

选择集成方式

调试技巧

开源实现

MPC 库

学习框架

集成示例

未来方向

参考资源

论文

课程

代码

相关笔记

Archives

Recents

Tags