Posted 2026-02-06Updated 2026-03-30Review10 minutes read (About 1443 words)

Posted 2026-02-05Updated 2026-03-30Review10 minutes read (About 1561 words)

LingBot-VLA

LingBot-VLA: A Pragmatic VLA Foundation Model

论文链接 | GitHub | Checkpoints

研究背景

视觉-语言-动作（Vision-Language-Action, VLA）基础模型是机器人操作领域的新兴方法，通过大规模预训练使机器人能够执行由自然语言指令引导的多样化操作任务。然而，目前存在以下问题：

缺乏关于真实机器人性能如何随预训练数据规模增长而变化的系统性实证研究
缺乏高效的训练代码库来支持大规模数据的扩展评估
缺乏跨多平台、多任务的系统性真实世界评估基准

研究目标

探索 VLA 模型在真实世界机器人数据上的扩展规律（Scaling Law）
建立跨多平台、多任务的系统性真实世界评估基准
开发高效的大规模 VLA 训练代码库

核心概念

Mixture-of-Transformers (MoT) 架构

将预训练的视觉语言模型（VLM）与动作生成模块（Action Expert）结合，通过共享自注意力机制实现跨模态统一建模。视觉-语言和动作模态通过独立的 Transformer 路径处理，既保留 VLM 的语义先验，又避免跨模态干扰。

Flow Matching

一种用于连续动作建模的生成方法，通过学习从噪声到目标动作的向量场来生成平滑的机器人控制信号。

Blockwise Causal Attention

将序列划分为图像-指令块、状态块和动作块，应用因果掩码防止信息泄露，确保动作预测只能访问当前和历史观测信息。

研究方法

模型架构

LingBot-VLA 采用 MoT 架构，整合 Qwen2.5-VL 作为视觉语言骨干网络，配合独立的 Action Expert 模块：

联合建模序列：
$$[O_t, A_t] = [I_t^1, I_t^2, I_t^3, T_t, s_t, a_t, a_{t+1}, \ldots, a_{t+T-1}]$$

其中 $I_t^{1,2,3}$ 为三视角图像，$T_t$ 为任务指令，$s_t$ 为机器人状态，$A_t$ 为动作序列（chunk length = 50）。
类似[[BAGEL-Unified-Multimodal-Pretraining]]

Flow Matching 目标函数

定义概率路径通过线性插值：
$$A_{t,s} = sA_t + (1-s)\epsilon, \quad \epsilon \sim \mathcal{N}(0, I)$$

训练目标：
$$\mathcal{L}{FM} = \mathbb{E}{s \sim U[0,1], A_t, \epsilon}|v_\theta(A_{t,s}, O_t, s) - (A_t - \epsilon)|^2$$

深度信息蒸馏

通过可学习查询 $Q_t$ 与 LingBot-Depth 模型的深度 token $D_t$ 对齐，增强空间感知：
$$\mathcal{L}{distill} = \mathbb{E}{Q_t}|Proj(Q_t) - D_t|$$

训练效率优化

FSDP 分布式策略：采用混合分片数据并行（HSDP），为 Action Expert 模块构建专用分片组
算子级优化：使用 FlexAttention 优化稀疏注意力计算，torch.compile 进行算子融合
混合精度：reduction 使用 float32，存储和通信使用 bfloat16

主要发现

扩展规律验证

预训练数据从 3,000 小时扩展到 20,000 小时，下游任务成功率持续显著提升
在 20,000 小时数据量下仍未出现饱和迹象，表明 VLA 性能持续受益于数据量增加
首次提供了真实世界机器人学习中有利扩展特性的实证证据

数据效率

仅使用 80 个演示即可超越 π0.5 使用 130 个演示的性能
随着后训练数据量增加，与基线的性能差距进一步扩大

实验设计

预训练数据

规模：约 20,000 小时真实世界操作数据
来源：9 种双臂机器人平台（AgiBot G1、AgileX、Galaxea R1Lite/R1Pro、Realman Rs-02、Leju KUAVO、Qinglong、ARX Lift2、Bimanual Franka）

评估基准

GM-100 基准：100 个操作任务，39,000 个专家演示
评估规模：3 个机器人平台，每任务 130 个后训练 episode，共 22,500 次试验
对比方法：π0.5、GR00T N1.6、WALL-OSS

真实世界评估结果

方法	平均成功率(SR)	平均进度分(PS)
WALL-OSS	4.05%	10.35%
GR00T N1.6	7.59%	15.99%
π0.5	13.02%	27.65%
LingBot-VLA w/o depth	15.74%	33.69%
LingBot-VLA w/ depth	17.30%	35.41%

仿真评估结果（RoboTwin 2.0）

方法	Clean 场景 SR	Randomized 场景 SR
π0.5	82.74%	76.76%
LingBot-VLA w/o depth	86.50%	85.34%
LingBot-VLA w/ depth	88.56%	86.68%

训练吞吐量

实现 261 samples/s/GPU（8-GPU 配置）
相比 StarVLA、DexBotic、OpenPI 提升 1.5~2.8 倍
在 256 GPU 规模下仍保持接近线性扩展

讨论

优势

首次在大规模真实世界数据上验证 VLA 扩展规律
显著优于现有 SOTA 方法的多平台泛化能力
高效的训练代码库，支持大规模分布式训练
开源代码、模型和基准数据

局限性

目前仅支持双臂机器人配置
评估主要集中在桌面操作任务
深度信息蒸馏依赖额外的 LingBot-Depth 模型

未来方向

扩展机器人类型：整合单臂和移动机器人数据，支持更多样化的操作能力
非约束环境：探索在非结构化环境中的移动操作能力
持续扩展：进一步扩大预训练数据规模，探索扩展规律的上限

参考文献

Black et al. (2025). π0: A vision-language-action flow model for general robot control. RSS.
Black et al. (2025). π0.5: A vision-language-action model with open-world generalization. CoRL.
Bjorck et al. (2025). GR00T N1: An open foundation model for generalist humanoid robots. arXiv.
Bai et al. (2025). Qwen2.5-VL technical report. arXiv.
Lipman et al. (2022). Flow matching for generative modeling. arXiv.
Wang et al. (2026). The Great March 100: 100 detail-oriented tasks for evaluating embodied AI agents.