强化学习

少于 1 分钟阅读

#笔记 #AI-assisted

动手学习强化学习

强化学习和有监督学习的区别：有监督学习的训练数据来自于从给定的数据分布中采样得到的训练数据集上，通过优化在训练数据集中设定的目标函数（如最小化预测误差）来找到模型的最优参数。这里，训练数据集背后的数据分布是完全不变的。

在强化学习中，数据是在智能体与环境交互的过程中得到的。如果智能体不采取某个决策动作，那么该动作对应的数据就永远无法被观测到，所以当前智能体的训练数据来自之前智能体的决策结果。因此，智能体获得的训练数据分布是随着其策略的改变而改变的。

进而，强化学习和监督学习的优化目标不同：

监督学习： $\theta^* = \arg\min_\theta \mathbb{E}_{(x,y)\sim D} [L(f_\theta(x), y)]$

强化学习： $\theta^* = \arg\max_\theta \mathbb{E}_{(s,a)\sim \mathcal{E}} [R(s,a)]$

两者都是优化在某一个数据分布上的某一函数的期望，但监督学习中的数据分布是固定的，要优化的是损失函数 $f_{\theta}$；而强化学习中的数据分布是随着智能体的策略改变而改变的，要优化的是策略（进而影响数据分布 $\mathcal{E}$）

[[Multi-armed-Bandit]]

[[Markov-Decision-Process]]

猜您还喜欢