n## 重要的日子
7/1:♥️糖醋羊排CP成立!!♥️
Track
- sunclientlogin发票报销到账
- 开固态硬盘发票
Routine
爱心屋签到: aixinwu.sjtu.edu.cn/products/asw-store
每日二GRISSO💊, 米诺地尔
Starting from 10/9:
| Time | Monday | Tuesday | Wednesday | Thursday | Friday | Saturday | Sunday |
|---|---|---|---|---|---|---|---|
| 08:00 | |||||||
| 09:00 | |||||||
| 10:00 | |||||||
| 11:00 | |||||||
| 12:00 | |||||||
| 13:00 | |||||||
| 14:00 | 攀爬机器人组会 | ||||||
| 15:00 | |||||||
| 16:00 | |||||||
| 17:00 | |||||||
| 18:00 | |||||||
| 19:00 | |||||||
| 20:00 | |||||||
| 21:00 | |||||||
| 22:00 | |||||||
| Credits: No need |
Non-routine
论文
Due
- 大论文
- 硕士论文的布局,参考已有的(journal paper)
- 实机试验,在工业环境/生活场景(难度更高)下,工具抓取
- 64G内存
- ICRA paper acceptance notification 1/31
- tzc233.github.io 一周年纪念日 2026/5/21
- 读书会吃饭 2026/3/23
- Nvidia GR00T Intern 3/1
No Due
- 保温杯
- “现在的贺卡好高级”
- 软考
- ccf csp
- Godot Learning [[Godot Learning Plan]]
- 琪琪水彩
- 流萤水彩
- 美罗城 云海肴 汽锅鸡
- 《涉过愤怒的海》
- 《被讨厌的勇气》读书会p16
- 《被寄生的家庭》读书会p18
- 《蛙》读书会 p21
- 《断舍离》读书会 p20
- 潮汕砂锅粥
- 想买…
- ipad(matebook e go)
- 欧珑无极乌龙
- bose大鲨2耳塞套
- 综合效果器 ..?
- 清音音箱
- 220V户外电源
有生之年系列
- 手工🎸
- 侍奉社
Archived
- 攀爬机器人 🔒Done! 2025-10-21 🕸️ Track > Routine > Non-routine > Due
- 群组建立
- 其他构型的机器人
- 数字样机调研
- 初步进度安排
- AI Lab 具身智能简历投递 10/11 🔒Done! 2025-10-21 🕸️ Track > Routine > Non-routine > Due
- 奖学金申请10/18 5p.m. 🔒Done! 2025-10-31 🕸️ Track > Routine > Non-routine > Due
- 电网论文修改(作为通讯) 🔒Done! 2025-11-08 🕸️ Track > Routine > Non-routine > Due
- 分类号加一下TN919.8,标识码A
- 公式精简,保持现有篇幅,加入测试图片,文章前部分的图片往后挪
- 合并一下1.2,1.3(2.1空间定位, 2.2分布推理机制,2.3预警方式), 第一章为系统总体架构设计,删除第一句话,不需要人机交互模块
- 性能测试(仅保留第一句话)
- 3.1 视觉检测模块分布推理的性能测试
- 3.2 参考bohan实验
- 把系统实现合并到系统设计,不需要系统实现章节
- 明确论文重点(low latency)
- 版面空间节省
- 对比试验设计
- 系统延迟表现
- model quantization
- layer pruning
- 整个系统的综合表现(survey,参考bohan论文)
- 系统延迟表现
- 对比试验设计
- 低光照’
- 电网验收 11/11 上午 🔒Done! 2025-12-02 🕸️ Track > Routine > Non-routine > Due
- hololens和手机开会议
- 预训练识别
- draumurvakna.github.io 一周年纪念日 2025/10/27 🔒Done! 2025-12-02 🕸️ Track > Routine > Non-routine > Due
- 攀爬机器人 🔒Done! 2026-01-02 🕸️ Track > Routine > Non-routine > Due
- 需要的数据
- 真实的角钢照片,问byy要
- 3D渲染生成照片
- 深度图生成(包括噪声)
- 更换背景
- moveit路径规划视频
- 测试塔需求文档(结构,工期,价格)
- 机器人URDF导入unity,演示基本步态,动作流
- 需要的数据
- 糖糖呵护指南 🔒Done! 2026-01-02 🕸️ Track > Routine > Non-routine > No Due
- 给糖糖补补 🔒Done! 2026-01-02 🕸️ Track > Routine > Non-routine > No Due
- 小鹏机器人实习 🔒Done! 2026-01-29 🕸️ Track > Routine > Non-routine > No Due
3D-Scene
Atlas
CLIP
CV
Chemistry
Contrastive-Learning
DINO
DT
Diffusion
DiffusionModel
Embodied-AI
FL
FPN
FoundationModel
Gated-NN
HRI
Hierarchical
HumanoidRobot
Image-Grounding
Image-Text
Image-generation
Image2Text
ImgGen
ImitationLearning
LLM
LatentAction
ML
MoE
MR/AR
Message-Passing
Multi-modal
Multi-view
MultiModal
NLP
NN
Object-Detection
Open-Vocabulary
Panoptic
Physical-Scene
PoseEstimation
QML
Quantum
RL
RNN
Real2Sim
Reconstruct
Representation-Learning
RobotLearning
Robotics
Scalability
Scene-graph
Scene-synthesis
Segmentation
Semantic
Sim2Real
Subgraph
Survey
Task-Planning
Transformer
Translation-Embedding
VAE
VLA
VLM
VLP
VQ-VAE
ViT
Visual-Relation
WorldModel
Unified-Multimodal
LingBot-VLA: A Pragmatic VLA Foundation Model
论文链接 | GitHub | Checkpoints
研究背景
视觉-语言-动作(Vision-Language-Action, VLA)基础模型是机器人操作领域的新兴方法,通过大规模预训练使机器人能够执行由自然语言指令引导的多样化操作任务。然而,目前存在以下问题:
- 缺乏关于真实机器人性能如何随预训练数据规模增长而变化的系统性实证研究
- 缺乏高效的训练代码库来支持大规模数据的扩展评估
- 缺乏跨多平台、多任务的系统性真实世界评估基准
研究目标
- 探索 VLA 模型在真实世界机器人数据上的扩展规律(Scaling Law)
- 建立跨多平台、多任务的系统性真实世界评估基准
- 开发高效的大规模 VLA 训练代码库
核心概念
Mixture-of-Transformers (MoT) 架构
将预训练的视觉语言模型(VLM)与动作生成模块(Action Expert)结合,通过共享自注意力机制实现跨模态统一建模。视觉-语言和动作模态通过独立的 Transformer 路径处理,既保留 VLM 的语义先验,又避免跨模态干扰。
Flow Matching
一种用于连续动作建模的生成方法,通过学习从噪声到目标动作的向量场来生成平滑的机器人控制信号。
Blockwise Causal Attention
将序列划分为图像-指令块、状态块和动作块,应用因果掩码防止信息泄露,确保动作预测只能访问当前和历史观测信息。
研究方法
模型架构
LingBot-VLA 采用 MoT 架构,整合 Qwen2.5-VL 作为视觉语言骨干网络,配合独立的 Action Expert 模块:
联合建模序列:
$$[O_t, A_t] = [I_t^1, I_t^2, I_t^3, T_t, s_t, a_t, a_{t+1}, \ldots, a_{t+T-1}]$$
其中 $I_t^{1,2,3}$ 为三视角图像,$T_t$ 为任务指令,$s_t$ 为机器人状态,$A_t$ 为动作序列(chunk length = 50)。
类似[[BAGEL-Unified-Multimodal-Pretraining]]
Flow Matching 目标函数
定义概率路径通过线性插值:
$$A_{t,s} = sA_t + (1-s)\epsilon, \quad \epsilon \sim \mathcal{N}(0, I)$$
训练目标:
$$\mathcal{L}{FM} = \mathbb{E}{s \sim U[0,1], A_t, \epsilon}|v_\theta(A_{t,s}, O_t, s) - (A_t - \epsilon)|^2$$
深度信息蒸馏
通过可学习查询 $Q_t$ 与 LingBot-Depth 模型的深度 token $D_t$ 对齐,增强空间感知:
$$\mathcal{L}{distill} = \mathbb{E}{Q_t}|Proj(Q_t) - D_t|$$
训练效率优化
- FSDP 分布式策略:采用混合分片数据并行(HSDP),为 Action Expert 模块构建专用分片组
- 算子级优化:使用 FlexAttention 优化稀疏注意力计算,torch.compile 进行算子融合
- 混合精度:reduction 使用 float32,存储和通信使用 bfloat16
主要发现
扩展规律验证
- 预训练数据从 3,000 小时扩展到 20,000 小时,下游任务成功率持续显著提升
- 在 20,000 小时数据量下仍未出现饱和迹象,表明 VLA 性能持续受益于数据量增加
- 首次提供了真实世界机器人学习中有利扩展特性的实证证据
数据效率
- 仅使用 80 个演示即可超越 π0.5 使用 130 个演示的性能
- 随着后训练数据量增加,与基线的性能差距进一步扩大
实验设计
预训练数据
- 规模:约 20,000 小时真实世界操作数据
- 来源:9 种双臂机器人平台(AgiBot G1、AgileX、Galaxea R1Lite/R1Pro、Realman Rs-02、Leju KUAVO、Qinglong、ARX Lift2、Bimanual Franka)
评估基准
- GM-100 基准:100 个操作任务,39,000 个专家演示
- 评估规模:3 个机器人平台,每任务 130 个后训练 episode,共 22,500 次试验
- 对比方法:π0.5、GR00T N1.6、WALL-OSS
真实世界评估结果
| 方法 | 平均成功率(SR) | 平均进度分(PS) |
|---|---|---|
| WALL-OSS | 4.05% | 10.35% |
| GR00T N1.6 | 7.59% | 15.99% |
| π0.5 | 13.02% | 27.65% |
| LingBot-VLA w/o depth | 15.74% | 33.69% |
| LingBot-VLA w/ depth | 17.30% | 35.41% |
仿真评估结果(RoboTwin 2.0)
| 方法 | Clean 场景 SR | Randomized 场景 SR |
|---|---|---|
| π0.5 | 82.74% | 76.76% |
| LingBot-VLA w/o depth | 86.50% | 85.34% |
| LingBot-VLA w/ depth | 88.56% | 86.68% |
训练吞吐量
- 实现 261 samples/s/GPU(8-GPU 配置)
- 相比 StarVLA、DexBotic、OpenPI 提升 1.5~2.8 倍
- 在 256 GPU 规模下仍保持接近线性扩展
讨论
优势
- 首次在大规模真实世界数据上验证 VLA 扩展规律
- 显著优于现有 SOTA 方法的多平台泛化能力
- 高效的训练代码库,支持大规模分布式训练
- 开源代码、模型和基准数据
局限性
- 目前仅支持双臂机器人配置
- 评估主要集中在桌面操作任务
- 深度信息蒸馏依赖额外的 LingBot-Depth 模型
相关工作
Foundation VLA
- π0:Vision-language-action flow model for general robot control
- π0.5:VLA model with open-world generalization
- GR00T N1.6:Open foundation model for generalist humanoid robots
Spatial VLA
- SpatialVLA:探索 VLA 模型的空间表示
- Spatial Forcing:通过对齐策略增强 VLA 空间理解
- GeoVLA:赋能 VLA 模型 3D 表示能力
高效训练框架
- OpenPI:支持 JAX 和 PyTorch 的 π 系列模型训练框架
- StarVLA:VLA 和 VLM 联合训练的模块化代码库
- DexBotic:统一高效��� VLA 开发生命周期解决方案
未来方向
- 扩展机器人类型:整合单臂和移动机器人数据,支持更多样化的操作能力
- 非约束环境:探索在非结构化环境中的移动操作能力
- 持续扩展:进一步扩大预训练数据规模,探索扩展规律的上限
参考文献
- Black et al. (2025). π0: A vision-language-action flow model for general robot control. RSS.
- Black et al. (2025). π0.5: A vision-language-action model with open-world generalization. CoRL.
- Bjorck et al. (2025). GR00T N1: An open foundation model for generalist humanoid robots. arXiv.
- Bai et al. (2025). Qwen2.5-VL technical report. arXiv.
- Lipman et al. (2022). Flow matching for generative modeling. arXiv.
- Wang et al. (2026). The Great March 100: 100 detail-oriented tasks for evaluating embodied AI agents.
人形机器人控制方法综述
Boston Dynamics | Tesla Optimus | 1X Technologies
概述
人形机器人控制是机器人学中最具挑战性的领域之一,需要处理高维状态空间、复杂动力学、多接触约束和实时性要求。当前主流方法可分为基于模型的控制、学习方法以及两者的混合方案。
主流控制方法
1. 基于模型的控制 (Model-Based Control)
全身动力学控制 (Whole-Body Control, WBC)
- 原理:通过优化求解器实时计算关节力矩
- 目标:满足接触约束和任务目标
- 优势:物理可解释性强,稳定性有保证
- 应用:Boston Dynamics Atlas、ANYmal
模型预测控制 (Model Predictive Control, MPC)
- 原理:预测未来状态轨迹,优化控制序列
- 特点:滚动优化,只执行第一步控制
- 优势:可处理约束,具有前瞻性
- 详见:[[MPC-and-Learning-Integration]]
零力矩点控制 (Zero Moment Point, ZMP)
- 原理:确保 ZMP 在支撑多边形内
- 特点:经典方法,理论成熟
- 局限:假设平坦地面,无法处理动态运动
- 应用:早期人形机器人(ASIMO、HRP 系列)
质心动量控制 (Centroidal Momentum Control)
- 原理:控制质心轨迹和角动量
- 优势:降维表示,计算效率高
- 应用:多足机器人步态规划
2. 强化学习 (Reinforcement Learning)
端到端策略学习
- 输入:传感器原始数据(视觉、IMU、关节状态)
- 输出:关节控制指令
- 优势:无需手工设计特征和控制器
- 挑战:样本效率低,sim-to-real gap
分层强化学习 (Hierarchical RL)
1 | 高层策略: 任务规划、步态选择 |
- 优势:解耦决策层次,提高学习效率
- 代表:DeepMind 的分层控制架构
Sim-to-Real 迁移
- Domain Randomization:随机化仿真参数
- Domain Adaptation:使用真实数据微调
- System Identification:辨识真实系统参数
- 成功案例:MIT Mini Cheetah、Unitree Go1
3. 模仿学习 (Imitation Learning)
行为克隆 (Behavior Cloning)
- 数据来源:人类演示、专家策略
- 方法:监督学习拟合状态-动作映射
- 局限:分布偏移问题
远程操作数据 (Teleoperation Data)
- 流程:
- 人类通过遥操作控制机器人
- 记录传感器数据和动作序列
- 训练神经网络策略
- 代表:Tesla Optimus、1X NEO
动作捕捉 (Motion Capture)
- 方法:使用人类运动数据训练策略
- 技术:Retargeting(运动重定向)
- 挑战:人类和机器人动力学差异
4. 混合方法
学习 + 优化
1 | # 神经网络预测参考轨迹 |
学习残差 (Residual Learning)
$$
u_{total} = u_{model} + u_{learned}
$$
- $u_{model}$:传统控制器输出
- $u_{learned}$:神经网络学习的补偿项
- 优势:结合两者优点,提高鲁棒性
视觉-运动策略 (Visuomotor Policy)
- 输入:RGB/深度图像 + 本体感受
- 输出:运动控制指令
- 架构:CNN 特征提取 + RNN/Transformer 序列建模
最新趋势
基础模型 (Foundation Models)
Vision-Language-Action (VLA)
- 代表:RT-2、OpenVLA、PaLM-E
- 能力:
- 理解自然语言指令
- 视觉场景理解
- 生成机器人动作
- 优势:零样本泛化、多任务学习
扩散策略 (Diffusion Policy)
- 原理:将动作生成建模为去噪过程
- 优势:
- 多模态动作分布
- 生成平滑轨迹
- 避免模式崩溃
- 应用:灵巧操作、复杂任务
Transformer-based 方法
- Decision Transformer:序列决策建模
- Trajectory Transformer:轨迹生成
- 优势:长期依赖建模、上下文学习
方法对比
| 方法类别 | 优势 | 劣势 | 适用场景 |
|---|---|---|---|
| 基于模型控制 | 稳定性强、可解释 | 需要精确模型、泛化性差 | 结构化环境、已知任务 |
| 强化学习 | 适应性强、端到端 | 样本效率低、训练困难 | 复杂环境、探索任务 |
| 模仿学习 | 数据效率高、快速部署 | 受限于演示质量 | 有专家数据的任务 |
| 混合方法 | 结合优点、鲁棒性好 | 系统复杂度高 | 工业应用、实际部署 |
工业界实践
Boston Dynamics Atlas
- 方法:MPC + 优化 + 学习补偿
- 特点:高动态运动(后空翻、跑酷)
- 核心:接触力优化、全身协调
Tesla Optimus
- 方法:端到端神经网络 + 全身控制器
- 数据:大规模遥操作数据
- 目标:通用人形机器人
Unitree H1
- 方法:强化学习 + MPC
- 特点:快速行走、动态平衡
- 开源:部分算法和仿真环境
实现建议
选择控制方法的考虑因素
任务复杂度
- 简单任务:基于模型控制
- 复杂任务:学习方法或混合方案
数据可用性
- 有专家数据:模仿学习
- 无数据:强化学习或基于模型
实时性要求
- 高实时性:MPC、WBC
- 可离线计算:学习方法
安全性要求
- 高安全性:混合方法(学习 + 约束优化)
- 探索性任务:纯学习方法
开源资源
仿真环境
- MuJoCo:高效物理引擎
- Isaac Gym:GPU 加速并行仿真
- PyBullet:轻量级、易用
控制库
- Pinocchio:刚体动力学库
- TSID:任务空间逆动力学
- Crocoddyl:最优控制库
学习框架
- Stable Baselines3:RL 算法库
- RLlib:分布式 RL
- LeRobot:机器人学习框架
未来方向
- 大规模预训练模型:类似 GPT 的机器人基础模型
- 物理信息神经网络:融合物理先验的学习方法
- 可微分仿真:端到端优化仿真和控制
- 多模态感知融合:视觉、触觉、力觉的统一表示
- 人机协作:人类反馈驱动的在线学习
参考资源
模型预测控制 (MPC) 与学习方法的融合
MuJoCo MPC | MPPI | Diffusion Policy
概述
模型预测控制 (Model Predictive Control, MPC) 是一种基于优化的控制方法,通过预测未来状态并优化控制序列来实现目标。将 MPC 与现代学习方法(VLA、Diffusion Policy)结合,可以同时获得学习方法的感知能力和 MPC 的物理可行性保证。
MPC 基础
核心思想
MPC 采用滚动优化 (Receding Horizon) 策略:
- 测量当前状态 $x(t)$
- 预测未来 $N$ 步的状态轨迹
- 求解优化问题得到控制序列
- 只执行第一步控制 $u(t)$
- 下一时刻重复上述过程
数学形式
离散时间 MPC 优化问题:
$$
\begin{align}
\min_{u_0, \ldots, u_{N-1}} \quad & \sum_{k=0}^{N-1} \left( |x_k - x_{ref}|^2_Q + |u_k|^2_R \right) + |x_N - x_{ref}|^2_P \
\text{subject to} \quad & x_{k+1} = f(x_k, u_k) \quad \text{(动力学约束)} \
& x_k \in \mathcal{X} \quad \text{(状态约束)} \
& u_k \in \mathcal{U} \quad \text{(控制约束)} \
& x_0 = x(t) \quad \text{(初始条件)}
\end{align}
$$
符号说明:
- $x_k$:第 $k$ 步的状态
- $u_k$:第 $k$ 步的控制输入
- $Q, R, P$:权重矩阵
- $\mathcal{X}, \mathcal{U}$:可行域
MPC 在人形机器人中的应用
1. 步态规划 MPC
简化模型:线性倒立摆模型 (Linear Inverted Pendulum Model, LIPM)
$$
\ddot{x} = \frac{g}{h}(x - p)
$$
- $h$:质心高度
- $p$:支撑点位置(落脚点)
- $g$:重力加速度
控制变量:
- 足部落脚点位置
- 接触力分布
状态变量:
- 质心位置和速度
- 机器人姿态
目标:
- 跟踪期望速度
- 保持平衡稳定性
预测时域:通常 0.5-2 秒
2. 接触力优化 MPC
Boston Dynamics Atlas 使用的方法:
1 | # 优化问题 |
3. 全身运动 MPC
- 同时优化质心轨迹和关节运动
- 考虑动力学耦合
- 处理多接触场景(双足、手足并用)
MPC 与学习方法的融合架构
架构 1: 分层控制
1 | ┌────────────────────────────────┐ |
优势:
- 高层处理感知和决策
- 低层保证物理可行性
- 解耦复杂性
Diffusion Policy → MPC 集成
方案 A: 轨迹级集成
1 | class DiffusionMPCController: |
关键点:
- Diffusion Policy 提供长期规划
- MPC 提供短期精确控制
- 异步更新:Diffusion 可以较慢运行
方案 B: 目标级集成
1 | # Diffusion Policy 输出高层目标 |
优势:
- 更高层次的抽象
- MPC 有更大优化自由度
- 减少 Diffusion Policy 的输出维度
VLA → MPC 集成
典型流程
1 | ┌──────────────────────────────┐ |
代码示例
1 | class VLAMPCController: |
技术挑战与解决方案
1. 时间尺度不匹配
问题:
- Diffusion Policy 生成:50-200 ms
- VLA 推理:100-500 ms
- MPC 求解:1-10 ms
解决方案:
异步运行
1 | import threading |
预测更长时域
- Diffusion Policy 预测 2-5 秒
- MPC 消耗预测轨迹
- 分摊计算成本
快速采样方法
- 使用 DDIM (Denoising Diffusion Implicit Models)
- 减少扩散步数:50 步 → 10 步
- 牺牲少量质量换取速度
2. 可行性保证
问题:学习模型输出可能违反物理约束
解决方案 A: MPC 作为投影算子
1 | def project_to_feasible(x_ref_infeasible): |
解决方案 B: 软约束
$$
\min \sum |x_k - x_{ref}|^2_Q + |u_k|^2_R + \lambda \cdot \text{constraint_violation}
$$
- 允许轻微违反约束
- 通过权重 $\lambda$ 平衡跟踪和可行性
解决方案 C: 约束感知训练
1 | # 训练时加入物理约束损失 |
3. 反馈闭环
问题:学习模型需要知道 MPC 的实际执行结果
解决方案:
1 | class ClosedLoopController: |
实际案例
MIT Cheetah 3
架构:
1 | 卷积网络 (地形感知) |
成果:盲走、跑跳、楼梯攀爬
Tesla Optimus (推测)
架构:
1 | 神经网络策略 (遥操作数据训练) |
DeepMind 的工作
论文:Learning Agile and Dynamic Motor Skills for Legged Robots
方法:
- 强化学习策略输出高层指令
- MPC 作为安全层过滤不可行动作
- 在线适应环境变化
高级话题
1. 可微分 MPC
将 MPC 作为神经网络层:
1 | import torch |
优势:
- 端到端训练
- 梯度可以反向传播到策略网络
- 联合优化感知和控制
2. 学习 MPC 参数
1 | class LearnedMPC: |
应用:
- 任务自适应
- 环境自适应
- 个性化控制
3. 隐式 MPC
思想:神经网络直接学习 MPC 的最优解映射
$$
u^* = \pi_\theta(x, x_{ref})
$$
训练:
1 | # 生成训练数据 |
优势:
- 推理速度快(无需在线优化)
- 保留 MPC 的结构
- 可处理高维问题
实现建议
选择集成方式
| 场景 | 推荐方案 | 理由 |
|---|---|---|
| 高动态运动 | MPC 主导 + 学习补偿 | 需要精确动力学控制 |
| 复杂感知任务 | VLA 主导 + MPC 安全层 | 感知是瓶颈 |
| 灵巧操作 | Diffusion Policy + MPC 跟踪 | 需要多模态动作 |
| 实时性要求高 | 隐式 MPC | 避免在线优化 |
| 数据充足 | 端到端学习 + 可微分 MPC | 联合优化 |
调试技巧
- 分别验证:先确保 MPC 和学习模型各自工作
- 可视化参考轨迹:检查学习模型输出是否合理
- 监控约束违反:记录 MPC 约束满足情况
- 渐进式集成:从简单场景开始,逐步增加复杂度
开源实现
MPC 库
- MuJoCo MPC: Google DeepMind 的 MPC 实现
- MPPI: Model Predictive Path Integral
- acados: 快速非线性 MPC 求解器
学习框架
- Diffusion Policy: 官方实现
- OpenVLA: 开源 VLA 模型
- LeRobot: Hugging Face 机器人学习库
集成示例
1 | # 安装依赖 |
未来方向
- 世界模型 + MPC:学习环境动力学,用于 MPC 预测
- 多模态 MPC:处理接触模式切换的不确定性
- 分布式 MPC:多机器人协同控制
- 神经符号融合:结合符号推理和神经网络
- 终身学习:持续改进 MPC 参数和模型
参考资源
论文
- “Learning Agile and Dynamic Motor Skills for Legged Robots” (DeepMind, 2019)
- “Diffusion Policy: Visuomotor Policy Learning via Action Diffusion” (Columbia, 2023)
- “RT-2: Vision-Language-Action Models” (Google, 2023)
课程
代码
相关笔记
- [[Humanoid-Robot-Control-Methods]]:人形机器人控制方法综述

解决了什么问题:如何压缩数据,并从压缩后的特征中重新生成数据。







