Chen Yulin's BlogChen Yulin's Blog
HomeArchivesCategoriesTagsAbout
  • Tags
  • WorldModel
DREAM TO CONTROL= LEARNING BEHAVIORS  BY LATENT IMAGINATION
Posted 2025-11-22Updated 2025-11-28Review2 minutes read (About 233 words)

DREAM TO CONTROL= LEARNING BEHAVIORS BY LATENT IMAGINATION

框架

论文使用**RSSM(Recurrent State Space Model)**:使用encoder来编码环境和动作生成latent state, 预测未来latent state,最后基于latent state预测奖励。

优势:

  • 网络可以在 latent 中快速 roll-out 数千条 imagined trajectories
  • 不用预测 pixel → 速度极快
  • 潜在空间的 Markov 性保证了规划时的可微分性

重参数化 Reparameterization Trick

Dreamer 最关键的地方:

动作必须是可微的随机变量,这样梯度才能从 value 反传到 actor。

如果我们直接写 $a \sim \mathcal{N}(\mu, \sigma)$, 那么采样是不可微的 → 梯度断掉 → Actor 无法学习。
重参数化技巧的做法:$a=\mu+\sigma\cdot\epsilon$, $\epsilon\sim\mathcal{N}(0,1)$
现在:

  • ε 是随机的
  • μ 和 σ 是可微的网络输出
    所以动作对 actor 参数有梯度, 这就是可微规划(differentiable planning)的基础。
奠定世界模型= Intelligence without representation
Posted 2025-11-21Updated 2025-11-28Review4 minutes read (About 643 words)

奠定世界模型= Intelligence without representation

目前学界广泛认为,世界模型是通往AGI的正确道路。而世界模型这一理念可以追溯到这篇1991年的文章。

寓言

1890 年代的人想造飞机,却只能根据他们零碎的观察去猜。他们看到现代飞机巨大、复杂,于是做了一个错误类比:
“现代飞机又大又重 → 所以重量不是问题。”
这当然荒唐。真正让飞机能飞的前提是升力、功率重量比、材料强度等关键工程指标的平衡。但他们只看到了表象,所以:

  • 座椅用实心钢
  • 完全不关心重量控制
  • 座舱设计完全按马车或汽车类比
  • 控制系统用汽车方向盘、油门
  • 甚至把“看地面”和“开窗透气”当成关键需求

寓言中的团队觉得项目太大,所以分专业化研究,但他们犯了一个致命错误: 没有系统架构,没有统一指标,没有工程指导思想。
因此:

  • 每个小组各做各的
  • 没有协调
  • 没有明确目标
  • 没有性能指标
  • 完全不知道“重量、升力、结构”是耦合的
    这其实是现代大型项目失败的典型原因。

论文的核心思想:AI 不应依赖内部表征,世界就是模型

Brooks 的核心观点用一句话总结就是:

智能不是“建模世界 + 推理”的结果,而是“直接在世界中行动”的结果。世界本身就是模型,不需要额外的表征。

传统 AI(symbolic AI)强调:

  1. 先感知世界形成表征
  2. 用表征进行内部推理
  3. 规划行动

Brooks 强烈反对。他认为:

  • 显式表征只会拖慢系统、增加错误来源
  • 真正的智能首先来源于“行动”而非“思考”
  • 复杂智能应从简单行为逐层堆叠,而非从复杂推理开始

这种思想后来直接催生了:

  • 行为式机器人学
  • Embodied AI
  • Subsumption Architecture
  • 深度强化学习中“end-to-end from pixels to actions”的理念
  • 现代多模态 agent 的行为驱动架构
    Brooks 的方法强调直接耦合感知与动作,由多个独立行为层并行运行,无中心控制,无统一世界模型。
Chen Yulin

Chen Yulin

SJTU student

Manchester by the Sea

Posts

292

Categories

10

Tags

203

Follow

Archives

  • November 20256
  • October 20253
  • September 20253
  • August 20256
  • July 20255
  • June 20256
  • May 202510
  • April 202517
  • March 202545
  • February 202512
  • January 202513
  • December 202412
  • November 20244
  • October 202418
  • September 202416
  • August 202413
  • July 20243
  • June 20245
  • May 202413
  • April 202417
  • March 20241
  • January 20241
  • December 20231
  • May 202346
  • August 20221
  • May 20226
  • April 20229

Recents

ChemGPT

2025-11-27

ChemGPT

Review

Lec8

2025-11-24

Lec8

Note

DREAM TO CONTROL= LEARNING BEHAVIORS  BY LATENT IMAGINATION

2025-11-22

DREAM TO CONTROL= LEARNING BEHAVIORS BY LATENT IMAGINATION

Review

奠定世界模型= Intelligence without representation

2025-11-21

奠定世界模型= Intelligence without representation

Review

2025-11-12

ROS2 Basic

Note

Tags

3D-Scene4
6-D3
AI12
AIGC1
API1
AR2
Academic1
Algorithm1
Aliyun1
App2
Atlas1
BS41
Beautify1
Behaviorism1
Business1
C1
CADC1
CD1
CLIP5
CNN1
CV30
Capstone10
Chemistry1
Communication2
Contrastive-Learning3
Control2
Csharp9
Css1
Cuda3
DD1
DINO4
DT1
Dataframe1
Debate5
Debugger1
Diffusion1
Discrete-Mathematics1
Disney1
Docker1
Docs2
Dynamic-programming1
ESP322
Education1
Embeded-System9
Embodied-AI10
Emoation1
Emotion13
Ethic1
Experiment2
FL1
FPN2
Family1
Federated-Learning1
Foundation1
Functional programming1
GPT3
Game5
Gated-NN2
Git7
Github1
Godot3
Graph1
HPC1
HRI2
Haskell1
Health2
Hexo10
Hierarchical1
Html5
Humanism1
Hyprland2
IK1
Image-Grounding1
Image-Text5
Image-generation1
ImitationLearning3
Jolt1
Json1
LLM14
LSP2
Latex2
Lego1
Life4
LinearAlgebra1
Linux22
Live2d1
Love4
Lua1
MBTI1
ML8
MR/AR3
Mason1
Math6
Meme1
Message-Passing1
MindPlus1
Mod3
Motivation1
Moveit1
Movie1
Multi-Agent1
Multi-modal6
Multi-view1
Music5
NLP4
NN7
Network2
Nodejs5
Numpy1
Nvim9
Object-Detection4
Open-Vocabulary9
OpenCV1
Oral1
PHD1
PSY5
Pandas2
Panoptic1
Path1
Philosophy3
PhysX1
Physical-Scene4
Physics-engine1
Pio2
Planning1
Plugin8
PoseEstimation3
Postgraduate1
Prefab1
Probability1
Python29
Pytorch1
QML1
Quantum1
RAG1
RL1
RNN4
ROS6
Reading19
Real2Sim1
Reconstruct9
Regex2
Reinforcement-learning1
Repository5
Representation-Learning1
Research-paper89
Robot4
Robotics18
SJTU-Lecture1
SQL2
SSH3
Scene-graph31
Scene-synthesis1
Science-fiction1
Scrap1
Script2
Segmentation7
Semantic12
Shader3
Shell4
Signals and Systems1
Sim2Real1
Sklearn1
Snippets1
Society4
Star-rail1
Subgraph1
Submodule1
Supervised-learning2
Survey3
TC1
TOEFL1
Task-Planning6
Tasks5
Tech Communication1
Torch5
Transformer11
Translation-Embedding2
Travel5
Unity20
Unsupervised-learning1
VLM6
VLP2
Version-management1
ViT4
VideoEditing2
Vim1
Visual-Relation20
WSL1
Waybar1
Wayland1
Web1
Website1
Well-being1
Window-manager2
WorldModel2
YKLL3
Zen2
♥️2
🍢1
🍰1
🐱2
🧀1
Chen Yulin's BlogChen Yulin's Blog

© 2025 Chen Yulin  Powered by Hexo & Icarus

×