Posted 2025-11-22Updated 2025-11-28Review2 minutes read (About 233 words) visits

DREAM TO CONTROL= LEARNING BEHAVIORS BY LATENT IMAGINATION

框架

论文使用**RSSM(Recurrent State Space Model)**：使用encoder来编码环境和动作生成latent state, 预测未来latent state，最后基于latent state预测奖励。

优势：

Dreamer 最关键的地方：

动作必须是可微的随机变量，这样梯度才能从 value 反传到 actor。

如果我们直接写 $a \sim \mathcal{N}(\mu, \sigma)$, 那么采样是不可微的 → 梯度断掉 → Actor 无法学习。
重参数化技巧的做法：$a=\mu+\sigma\cdot\epsilon$, $\epsilon\sim\mathcal{N}(0,1)$
现在：

DREAM TO CONTROL= LEARNING BEHAVIORS BY LATENT IMAGINATION

Chen Yulin

2025-11-22

2025-11-28