Posted 2026-02-06Updated 2026-06-22Review10 minutes read (About 1443 words)

BAGEL: Emerging Properties in Unified Multimodal Pretraining

作者：Chaorui Deng, Deyao Zhu, Kunchang Li 等 (ByteDance Seed)

研究背景

统一多模态理解与生成（Unified Multimodal Understanding and Generation）是当前AI领域的热点方向。GPT-4o、Gemini 2.0等闭源系统展现了强大能力，但开源模型与之仍存在显著差距。现有开源统一模型主要在图文配对数据上训练，缺乏对复杂多模态交错数据（Interleaved Data）的利用。

研究目标

缩小开源统一多模态模型与闭源系统（GPT-4o、Gemini 2.0）之间的性能差距
解决现有模型架构中理解与生成模块之间的信息瓶颈（Bottleneck）问题
构建能够支持复杂多模态推理的大规模交错数据

核心概念

理解与生成之间的瓶颈（Bottleneck）

在采用 External Diffuser 架构的模型中，LLM/VLM 与扩散模型通过轻量级适配器连接：

语言模型生成少量潜在token作为”语义条件”
这些token被传递给扩散模块生成图像
问题：LLM的丰富上下文被压缩到少量token中，导致信息损失，尤其影响长上下文多模态推理

Mixture-of-Transformer-Experts (MoT)

与传统MoE不同，MoT复制整个Transformer层而非仅FFN：

理解专家：处理文本和ViT token
生成专家：处理VAE token
两个专家通过共享自注意力在每层交互

研究方法

架构设计

BAGEL采用无瓶颈的集成Transformer方案：

双视觉编码器：

理解编码器：SigLIP2-so400m/14，捕获语义信息
生成编码器：FLUX VAE，处理像素级信息

训练范式

模态	方法	损失函数
文本	Next-Token-Prediction	Cross-Entropy
视觉	Rectified Flow	MSE

损失权重比：$\text{CE} : \text{MSE} = 0.25 : 1$

广义因果注意力（Generalized Causal Attention）

对于交错多图像生成：

Noised VAE tokens：用于Rectified-Flow训练
Clean VAE tokens：作为后续生成的条件
ViT tokens：统一输入格式，提升交错生成质量

采用Diffusion Forcing策略，对不同图像添加独立噪声级别。

数据构��

数据规模

数据类型	数据量	Token数
纯文本	400M	0.4T
图文配对（理解）	500M	0.5T
图文配对（生成）	1600M	2.6T
交错理解数据	100M	0.5T
交错生成数据（视频）	45M	0.7T
交错生成数据（网页）	20M	0.4T

交错数据构建流程

视频数据：

视频预处理（分割、裁剪、质量过滤）
使用蒸馏的小型VLM生成帧间描述
构建时序对齐的交错序列

网页数据：

两阶段主题筛选（LLM + fastText）
质量过滤（分辨率、清晰度、相关性）
Caption-first策略：为每张图像生成描述并插入其前

推理增强数据（Reasoning-Augmented Data）

受DeepSeek-R1启发，构建50万条推理增强样本：

Text-to-Image生成
自由形式图像操作
概念性编辑

主要发现

涌现能力（Emerging Properties）

论文定义：某能力在早期训练阶段不存在，但在后期训练中出现

不同能力的涌现时间点（达到85%峰值性能所需token数）：

能力	涌现时间点
多模态理解	~0.18T tokens
图像生成	~0.68T tokens
图像编辑	~2.64T tokens
智能编辑（复杂推理）	~3.61T tokens

关键发现：

理解和生成能力最先收敛
编辑能力随后涌现
需要复杂推理的智能编辑能力最后涌现
ViT tokens对智能编辑至关重要（移除后性能下降16%）

架构对比实验

在1.5B模型上对比Dense、MoE、MoT三种架构：

MoT在生成任务上优势最明显
表明理解和生成可能需要不同的参数空间

实验结果

多模态理解（7B参数）

基准	BAGEL	Janus-Pro	Qwen2.5-VL
MMMU	58.6	41.8	49.3
MM-Vet	73.1	55.9	62.8
MathVista	69.3	54.7	68.2
MMVP	67.2	48.3	-

图像生成（GenEval）

模型	Overall
BAGEL (w/ rewriter)	0.88
BAGEL	0.82
Janus-Pro	0.80
FLUX.1-dev	0.82
SD3-Medium	0.74

智能编辑（IntelligentBench）

模型	Score
GPT-4o	78.9
BAGEL w/ Self-CoT	55.3
BAGEL	44.9
Gemini 2.0	57.6
Step1X-Edit	14.9

讨论

优势

无瓶颈架构：理解与生成模块间无损信息交互
涌现能力：首次系统揭示统一多模态预训练的涌现规律
开源贡献：发布代码、模型权重和数据构建协议
推理增强：CoT显著提升复杂任务表现（WISE: +0.18, IntelligentBench: +10.4）

局限性

与GPT-4o在智能编辑上仍有差距（55.3 vs 78.9）
模型规模相对较小（7B active / 14B total）
训练计算成本高（需要大规模交错数据）

未来方向

更大规模训练：探索更大模型和更多数据下的涌现行为
视频生成：论文展示了初步的视频生成能力，有待深入
强化学习：无瓶颈架构为多模态RL提供了基础
世界建模：导航、3D操作等世界建模任务的进一步探索

参考文献

Deng et al. (2025). Emerging Properties in Unified Multimodal Pretraining. arXiv:2505.14683
DeepSeek-AI (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
Esser et al. (2024). Scaling Rectified Flow Transformers for High-Resolution Image Synthesis (SD3)

Posted 2026-02-02Updated 2026-06-22Review28 minutes read (About 4167 words)

GR00T N1 An Open Foundation Model for Generalist Humanoid Robots

# GR00T N1: 通用人形机器人开放基础模型

论文链接 | NVIDIA, 2025

研究背景

人形机器人作为通用机器人的理想硬件平台，需要强大的基础模型来实现智能自主操作。受大语言模型和视觉模型成功的启发，研究者希望通过在大规模异构数据上训练机器人基础模型，使其能够理解新场景、处理真实世界的变化并快速学习新任务。然而，与文本和图像领域不同，机器人领域缺乏互联网规模的训练数据，不同机器人的传感器、自由度、控制模式差异巨大，形成”数据孤岛”问题。

研究目标

本论文要解决的核心问题：

数据稀缺问题：人形机器人数据收集成本高、耗时长，如何突破真实数据瓶颈
跨具身泛化：如何统一不同机器人的状态和动作空间，实现跨具身学习
数据效率：如何在有限数据下快速适应新任务并在真实环境中鲁棒执行
端到端优化：如何将高层推理与低层控制统一到单一模型中

核心概念

Vision-Language-Action (VLA) 模型

视觉-语言-动作模型，接收图像观察和语言指令作为输入，直接输出机器人动作。与传统的分层方法（VLM规划 + 低层策略执行）不同，VLA模型实现端到端优化。

双系统架构 (Dual-System Architecture)

受人类认知理论启发（Kahneman, 2011），将模型分为：

System 2（推理系统）：慢速、深思熟虑的高层推理
System 1（反应系统）：快速、自动化的低层控制

数据金字塔 (Data Pyramid)

将异构训练数据按规模和具身特异性组织成三层结构：

底层：大规模网络数据和人类视频（通用先验）
中层：合成数据（仿真+神经生成，可扩展）
顶层：真实机器人数据（具身特定，高质量）

潜在动作 (Latent Actions)

通过VQ-VAE([[VQ-VAE-and-Latent-Action-for-Robotics]])学习的通用动作表示，能够统一不同具身体（包括人类）的动作空间，使无动作标签的视频数据可用于训练。

研究方法

模型架构

GR00T N1采用双系统组合架构，总参数量22亿（GR00T-N1-2B）：

System 2: Vision-Language Module

输入处理:
├─ 图像: SigLIP-2编码器 → 64个token (224×224)
└─ 文本: SmolLM2 tokenizer → 文本token

特征提取:
└─ Eagle-2 VLM (1.34B参数)
   ├─ 处理vision-language tokens
   └─ 输出: 中间层embeddings φ_t (第12层)

关键设计：

使用中间层而非最终层特征（更快推理+更高成功率）
语言组件冻结（保留预训练知识）
视觉编码器可训练（适应机器人任务）
运行频率：10Hz

System 1: Diffusion Transformer Module

DiT Block结构（重复N次）:
├─ Self-Attention
│  └─ 输入: noised action tokens + state embeddings
│
└─ Cross-Attention
   ├─ Query: action/state tokens
   └─ Key & Value: VLM输出的φ_t

动作生成流程：

输入加噪动作 $A_t^{\tau} = \tau A_t + (1-\tau)\epsilon$，其中 $\tau \in [0,1]$
通过DiT迭代去噪（K=4步）
输出16步动作序列（action chunking）
运行频率：120Hz

Flow-Matching损失：

$$
\mathcal{L}{fm}(\theta) = \mathbb{E}{\tau} |V_{\theta}(\varphi_t, A_t^{\tau}, q_t) - (\epsilon - A_t)|^2
$$

其中 $V_{\theta}$ 是[[Diffusion-Transformers-DiT]]模型，预测去噪向量场。

模块交互机制

信息流:
图像 + 语言指令
    ↓
[System 2: Eagle-2 VLM]
    ↓ (输出 φ_t)
[Cross-Attention Bridge]
    ↓
[System 1: DiT]
├─ Self-Attention (action + state)
└─ Cross-Attention (attend to φ_t)
    ↓
16步动作序列

端到端联合训练：

两个模块通过cross-attention紧密耦合
使用统一的flow-matching loss优化
辅助目标检测loss增强空间理解：

$$
\mathcal{L} = \mathcal{L}{fm} + \mathcal{L}{det}
$$

异构数据训练策略

1. 数据金字塔组织

层级	数据源	时长	特点
顶层	真实机器人数据	3,289小时	具身特定，高质量
中层	仿真数据	1,743小时	可扩展，物理约束
中层	神经生成数据	827小时	反事实场景，多样性
底层	人类视频	2,517小时	大规模，通用先验

总计：8,376小时训练数据

2. 潜在动作学习

VQ-VAE训练：

# 编码器
输入: (当前帧 x_t, 未来帧 x_{t+H})
     ↓
Encoder → 连续embedding → 量化到codebook
     ↓
潜在动作 z_t

# 解码器
输入: x_t + z_t
     ↓
Decoder → 重建 x_{t+H}

跨具身一致性：

同一潜在动作在不同具身体中语义一致
例如：潜在动作1 = “右臂向左移动”（对所有机器人和人类）

训练使用：

提取预量化连续embedding作为”LAPA具身体”的动作
使用flow-matching loss训练

3. 神经轨迹生成

目标：从88小时真实数据扩增到827小时（~10倍）

技术流程：

步骤1: 微调视频生成模型
├─ 基础模型: WAN2.1-I2V-14B
├─ 方法: LoRA微调
├─ 数据: 3,000条轨迹，81帧@480P
└─ 训练: 100 epochs

步骤2: 生成反事实轨迹
├─ 输入: 初始帧 + 新语言指令
├─ 语言生成: 多模态LLM检测物体
│   生成"pick {object} from {A} to {B}"
└─ 输出: 高质量视频

步骤3: 质量过滤
├─ 采样8帧 → LLM判断是否遵循指令
└─ 不合格 → 重新标注

步骤4: 动作标注
├─ 潜在动作编码器 → LAPA
└─ 逆动力学模型 → 伪动作标签

生成能力：

改变操作手（左手↔右手）
改变目标位置和物体
处理仿真难题（液体、铰接物体）
多视角生成（4宫格视频）

4. 仿真数据自动生成

DexMimicGen系统：

输入: 少量人类演示（几十条）
     ↓
分割 → 物体中心的子任务片段
     ↓
变换 → 根据新物体位置调整
     ↓
组合 → 插值并组合片段
     ↓
验证 → 仿真执行，保留成功轨迹
     ↓
输出: 每任务10,000条演示

规模：

54个源-目标容器组合
540,000条预训练轨迹
11小时生成 = 6,500小时等效人类演示

5. 具身特定编码器/解码器

处理不同维度的状态和动作：

embodiments = {
    "GR-1": {
        "state": [joint_pos, joint_vel, base_pos, ...],
        "action": [joint_targets, ...],
        "encoder": MLP_GR1,
        "decoder": MLP_GR1
    },
    "Franka": {
        "state": [ee_pos, ee_rot, gripper],
        "action": [ee_delta, gripper_cmd],
        "encoder": MLP_Franka,
        "decoder": MLP_Franka
    },
    "LAPA": {  # 潜在动作
        "action": [latent_embedding],
        "encoder": MLP_LAPA,
        "decoder": MLP_LAPA
    }
}

6. 统一训练框架

预训练阶段：

全局batch size: 16,384
训练步数: 200,000
数据混合采样：真实机器人(40%) + 仿真(30%) + 神经(20%) + 人类视频(10%)
计算资源: 最多1024个H100 GPU，约50,000 GPU小时

后训练阶段：

Batch size: 128-1024
训练步数: 20,000-60,000
可选神经轨迹协同训练（1:1采样比例）
可在单个A6000 GPU上微调

主要发现

预训练泛化能力

在GR-1人形机器人上的零样本评估：

任务	成功率	说明
左手抓取→右手交接→放置	76.6%	需要双手协调
新物体→新容器	73.3%	泛化到未见物体

仿真基准测试

100条演示/任务的性能对比：

方法	RoboCasa	DexMG	GR-1	平均
BC-Transformer	26.3%	53.9%	16.1%	26.4%
Diffusion Policy	25.6%	56.1%	32.7%	33.4%
GR00T-N1-2B	32.1%	66.5%	50.0%	45.0%

关键观察：

GR00T N1在所有基准上均优于基线
在GR-1任务上优势最明显（+17.3%）

真实世界部署

GR-1人形机器人任务成功率：

任务类型	Diffusion Policy (10%数据)	Diffusion Policy (全量数据)	GR00T-N1-2B (10%数据)	GR00T-N1-2B (全量数据)
抓取放置	3.0%	36.0%	35.0%	82.0%
铰接物体	14.3%	38.6%	62.0%	70.9%
工业操作	6.7%	61.0%	31.0%	70.0%
多机协作	27.5%	62.5%	50.0%	82.5%
平均	10.2%	46.4%	42.6%	76.8%

数据效率：

GR00T N1用10%数据（42.6%）≈ Diffusion Policy用全量数据（46.4%）
展现出色的样本效率

神经轨迹增强效果

RoboCasa基准（协同训练3K神经轨迹/任务）：

数据量	仅真实数据	+LAPA	+IDM
30条	17.4%	20.8% (+3.4%)	20.0% (+2.6%)
100条	32.1%	38.5% (+6.4%)	40.9% (+8.8%)
300条	49.6%	53.8% (+4.2%)	56.4% (+6.8%)

真实世界（协同训练100神经轨迹/任务）：

平均提升：+5.8%

观察：

低数据场景：LAPA略优（更通用的先验）
高数据场景：IDM更优（更接近真实动作）

定性分析

运动质量：

GR00T N1运动更流畅，抓取精度更高
Diffusion Policy常出现初始帧不动、抓取不准确

泛化能力：

预训练模型能执行未见过的双手交接任务
后训练模型在特定任务上更精确，但失去部分泛化能力

实验设计

仿真基准

RoboCasa Kitchen（24任务）：

机器人：Franka Emika Panda
任务：抓取放置、开关门、按按钮、转水龙头等
观察：3个RGB相机（左、右、腕部）
动作：末端执行器相对位姿 + 夹爪状态
数据：每任务3,000条MimicGen生成的演示

DexMimicGen Cross-Embodiment Suite（9任务）：

具身体：
- 双臂Panda + 平行夹爪（穿线、组装、运输）
- 双臂Panda + 灵巧手（清理、抬托盘）
- GR-1人形 + 灵巧手（倒水、咖啡、分类）
数据：每任务1,000条演示

GR-1 Tabletop Tasks（24任务）：

机器人：GR-1人形 + Fourier灵巧手
任务：18个重排任务 + 6个铰接物体任务
观察：头部自我中心相机
动作：关节位置/旋转 + 腰部/颈部
数据：每任务1,000条DexMimicGen生成

真实世界基准

任务类别：

抓取放置（5任务）：
- 托盘→盘子、砧板→篮子、餐垫→碗等
- 评估：见过和未见过物体
铰接物体（3任务）：
- 白色抽屉、深色柜子、木箱
- 要求：放入物体并关闭
工业操作（3任务）：
- 机械零件打包
- 网格杯倾倒
- 圆柱体交接
多机协作（2任务）：
- 第1部分：抓取→放入网格杯→交给另一机器人
- 第2部分：接收→放入黄色箱→倾倒剩余物

数据收集：

遥操作时长：15分钟-3小时/任务
过滤低质量轨迹

评估协议

仿真：

每任务100次试验
取最后5个checkpoint的最大值
Checkpoint间隔：500步

真实机器人：

每任务10次试验（机械打包任务5次）
部分评分系统（捕捉不同执行阶段）
低数据场景：10%数据子采样

训练配置

预训练：

学习率：1e-4
优化器：AdamW (β1=0.95, β2=0.999)
学习率调度：cosine，warmup比例0.05
Batch size：16,384
步数：200,000

后训练：

Batch size：128-1024
步数：20,000-60,000
其他超参数同预训练

讨论

优势

统一的跨具身学习：
- 单一模型支持从桌面机械臂到双臂人形机器人
- 潜在动作空间统一不同具身体
卓越的数据效率：
- 10%数据达到基线全量数据性能
- 预训练提供强大的先验知识
可扩展的数据生成：
- 神经轨迹生成：10倍数据扩增
- 仿真自动生成：11小时生成6,500小时等效数据
端到端优化：
- VLM推理与DiT控制联合训练
- 避免分层方法的接口问题
开源生态：
- 公开22亿参数模型
- 提供训练数据和仿真基准

局限性

任务范围限制：
- 当前主要关注短时域桌面操作
- 未涉及长时域移动操作（loco-manipulation）
合成数据质量：
- 视频生成模型仍面临多样性和物理一致性挑战
- 需要质量过滤和重新标注
硬件依赖：
- 需要高端GPU进行训练（H100集群）
- 推理需要L40 GPU（63.9ms/16动作）
泛化-专精权衡：
- 后训练提升特定任务性能但损失部分泛化能力
- 预训练模型能执行双手交接，后训练模型失去此能力
视觉-语言骨干限制：
- 当前VLM的空间推理和语言理解能力仍有提升空间
- 更强的VLM可能进一步提升性能

未来方向

长时域移动操作：
- 扩展到全身运动和导航
- 需要改进硬件、模型架构和训练数据
更强的视觉-语言骨干：
- 提升空间推理能力
- 增强语言理解和任务规划
改进合成数据生成：
- 提高视频生成的多样性和反事实能力
- 增强物理一致性和真实感
- 探索自动化初始帧生成（img2img扩散）
新型模型架构：
- 探索更高效的推理-控制耦合方式
- 研究分层时间建模
鲁棒性和泛化：
- 提升对环境变化的适应能力
- 增强零样本和少样本学习能力
多模态感知：
- 整合触觉、力觉等其他传感器
- 探索多模态融合策略
长时域视频生成：
- 多轮视频生成实现长任务序列
- 原子任务组合

参考文献

NVIDIA (2025). GR00T N1: An Open Foundation Model for Generalist Humanoid Robots. arXiv:2503.14734v2.
Black et al. (2024). π0: A vision-language-action flow model for general robot control. arXiv:2410.24164.
Brohan et al. (2022). RT-1: Robotics transformer for real-world control at scale. arXiv:2212.06817.
Brohan et al. (2023). RT-2: Vision-language-action models transfer web knowledge to robotic control. arXiv:2307.15818.
Chi et al. (2024). Diffusion Policy: Visuomotor policy learning via action diffusion. IJRR.
Jiang et al. (2024). DexMimicGen: Automated data generation for bimanual dexterous manipulation via imitation learning. CoRL.
Mandlekar et al. (2023). MimicGen: A data generation system for scalable robot learning using human demonstrations. CoRL.
Nasiriany et al. (2024). RoboCasa: Large-scale simulation of everyday tasks for generalist robots. RSS.
Open X-Embodiment Collaboration et al. (2024). Open X-Embodiment: Robotic learning datasets and RT-X models.
Ye et al. (2025). Latent action pretraining from videos. ICLR.
Kahneman (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.

关键代码和资源

模型权重：HuggingFace
训练数据：HuggingFace Datasets
仿真基准：GitHub
数据格式：基于LeRobot格式扩展
训练基础设施：NVIDIA OSMO编排平台

技术细节补充

动作空间标准化

统一不同具身体的表示：

末端执行器旋转状态：6D旋转表示
末端执行器旋转动作：轴角表示
位置和关节：Min-max归一化
顺序：左臂→右臂，旋转→位置→夹爪

辅助目标检测损失

使用OWL-v2检测器标注目标物体边界框：

$$
\mathcal{L}{det} = |\mathbf{x}{pred} - \mathbf{x}_{gt}|^2
$$

其中 $\mathbf{x}$ 是归一化的边界框中心坐标。

推理性能

GR00T-N1-2B：63.9ms采样16步动作（L40 GPU，bf16）
VLM频率：10Hz
动作输出频率：120Hz
去噪步数：K=4

计算资源

预训练：最多1024个H100 GPU，约50,000 GPU小时
神经轨迹生成：3,600个L40 GPU，约105K GPU小时（1.5天）
后训练：单个A6000 GPU可微调（仅adapter层时batch size可达200）

Posted 2025-04-16Updated 2026-06-22Notea few seconds read (About 3 words)

Vision-Language Interpreter for Robot Task Planning

Posted 2025-04-15Updated 2026-06-22Reviewa few seconds read (About 30 words)

Pixtral 12B

Web: https://mistral.ai/news/pixtral-12b
Demo: https://chat.mistral.ai/chat
Finetune: https://github.com/2U1/Pixtral-Finetune
Model: https://huggingface.co/mistralai/Pixtral-12B-2409

Posted 2025-03-19Updated 2026-06-22Reviewa few seconds read (About 42 words)

ConceptGraphs= Open-Vocabulary 3D Scene Graphs for Perception and Planning

通过LLM来判断位置关系，以此构建scene graph

还是只能判断object-level空间关系，做不了part-level manipulation

Posted 2025-03-13Updated 2026-06-22Reviewa few seconds read (About 6 words)

From Pixels to Graphs= Open-Vocabulary Scene Graph Generation with Vision-Language Models

Posted 2025-03-11Updated 2026-06-22Reviewa few seconds read (About 0 words)

OMG-LLaVA

Posted 2025-02-15Updated 2026-06-22Review6 minutes read (About 919 words)

Scene-LLM

## Intro 尽管现有的视觉语言模型（VLM）在2D视觉语言的理解中取得了长足的进步，但与使用3D表示室内场景任务的人相比，它们对持续3D空间信息的掌握有限通常会使它们的有效性较小。最近的一些文章[[3D-LLM]]以文本和其他方式桥接3D视觉信息显示出3D视觉理解和推理的潜力。但是，它们主要处理静态3D场景，这对于涉及场景变化的互动计划的适应性较低。

本文提出的模型主要想解决3D密集标注和交互式规划。
结合

egocentric（crucial for immediate updates during object interactions and for localizing the agent within the scene）
comprehensive（provides temporal persistent and multi-view consistent details of the entire 3D scene）
scene-level的信息。

需要align the dense 3D visual information with the textual embedding space of a pre-trained LLM。3D点集由于其连续坐标系以及需要适应场景状态变化的表示形式而构成了一个独特的问题

3D-VQA
VLN(Visual-Language Navigation)

3D-Visual-Language Data Generation

和[[3D-LLM]]一样，都是多视角采集D-RGB信息然后整合为3D frame
标注信息来自于Mini-GPT-V2（capable of generating captions and object descriptions from images by using caption and grounded caption identifiers）。

3D-frame

Uses image frames and a 2D-VLM(Mini-GPT-V2) to generate frame descriptions

Scene Data

3D场景数据是通过基于其相机姿势汇总的3D帧来重建
使用Llama-2-Chat-70B [65]生成场景的语言注释

prompted with a mix of context data including generated frame captions, frame object descriptions, annotated object lists, and annotated bounding boxes. These prompts lead to diverse instruction-following data types like dense caption, object caption, task decomposition, functionality enhancement, question-answering, and human-robot dialogues

From Vision Studio 对于VLM生成内容使用的self-checking: [83]

Scene-LLM

场景-LLM是一种3D视觉语言模型（VLM），具有简单而有效的体系结构，旨在理解以基于本体和场景级别的3D视觉信息，使其能够成功执行交互式计划任务。本节概述了3D视觉特征提取过程，我们的模型的体系结构，3D视觉信息与数据集的对齐以及使用Scene-LLM进行推理。

Employ visual language semantic features [51] to represent 3D visual semantics

first extracting pixel-wise CLIP features from each image and then aggregating these into a 3D point set [[ConceptFusion]]

Tokenize 3D visual features for LLM input:

hybrid point-voxel representation (need for dense 3D visual information, support for interactive updates, and manageable token lengths for the LLM)

网络大体上分为两层：

Projection layer

To bridge 3D visual tokens(F) with the LLM’s tokenized space
FC(1030, 768)->GELU->FC(768,768)

LLM

Llama-2-7b as the foundational LLM backbone

训练

Stage 1: Pretraining for Feature Alignment

在两个坐标系统（camera和世界坐标）下使用3D帧数据，以确保场景-LLM理解以自我为中心和以场景为中心的观点。
在此阶段，仅训练了projection layer，可以有效地对齐具有文本特征的3D视觉特征，同时保持LLM参数（φ）不变。

Stage 2: Finetuning

优化Scene-llm，以准确响应用户说明。我们使用标识符令牌“我看到”将3D帧语言和3D场景语言数据合并到前言。文本描述分为指令（$T_{INST}$）及其相应的响应（$T_{ANS}$）。利用转换后的3D视觉令牌（$T_{3D}$）和指令令牌（$T_{INST}$），我们的目标是微调LLM（φ）以自动生成$T_{ANS}$.
在这里，我们共同微调了投影层和LLM，由θ= {ψ，φ}表示

BAGEL: Emerging Properties in Unified Multimodal Pretraining

研究背景

研究目标

核心概念

理解与生成之间的瓶颈（Bottleneck）

Mixture-of-Transformer-Experts (MoT)

研究方法

架构设计

训练范式

广义因果注意力（Generalized Causal Attention）

数据构���

数据规模

交错数据构建流程

推理增强数据（Reasoning-Augmented Data）

主要发现

涌现能力（Emerging Properties）

架构对比实验

实验结果

多模态理解（7B参数）

图像生成（GenEval）

智能编辑（IntelligentBench）

讨论

优势

局限性

相关工作

未来方向

参考文献

研究背景

研究目标

核心概念

Vision-Language-Action (VLA) 模型

双系统架构 (Dual-System Architecture)

数据金字塔 (Data Pyramid)

潜在动作 (Latent Actions)

研究方法

模型架构

System 2: Vision-Language Module

System 1: Diffusion Transformer Module

模块交互机制

异构数据训练策略

1. 数据金字塔组织

2. 潜在动作学习

3. 神经轨迹生成

4. 仿真数据自动生成

5. 具身特定编码器/解码器

6. 统一训练框架

主要发现

预训练泛化能力

仿真基准测试

真实世界部署

神经轨迹增强效果

定性分析

实验设计

仿真基准

真实世界基准

评估协议

训练配置

讨论

优势

局限性

相关工作

机器人基础模型

机器人数据集

合成数据生成

未来方向

参考文献

关键代码和资源

技术细节补充

动作空间标准化

辅助目标检测损失

推理性能

计算资源

Related Works

3D-Visual-Language Data Generation

3D-frame

Scene Data

Scene-LLM

网络大体上分为两层：

Projection layer

LLM

数据构��