原创AI笔记笔记 AI

强化学习

发表于2026-05-18更新于2026-05-18

字数总计:420阅读时长:1分钟阅读量: 北京

AI笔记笔记 AI

强化学习

flowwalker2026-05-182026-05-18

强化学习(Reinforcement Learning)

Agent 与 Environment 交互–试错→奖励惩罚→学习

Reward → Policy

理论基础

问题建模

环境

初始状态 $$S_0$$
当前玩家 C
动作 A : 每个状态下智能体可以选择的合法动作集合
状态转移 P : $$P(S_{t+1} \mid S_t , A_t)$$
奖励 R : $$R_t \leftarrow S_t , A_t$$
终止状态 $$S_T$$ : 达到状态后, 任务终止

衡量环境复杂度的两个关键空间:

state space : 所有可能到达状态的集合
action space : 所有状态下可采取的动作集合

注意: 状态转移的不确定性 既可能来自于环境本身,也可能来源于策略
转移概率P的内在随机性
( 环境反馈的不确定性, 即使同一环境和动作也可能返回不同的结果)
P依赖于动作的选择分布
(动作中含有stochastic policy成分, 带来转移的不确定性)

智能体

Policy

核心

A_t \leftarrow \pi(S_t)

\pi$$ 表示智能体在**各个状态**下**选择动作的规则或者映射关系** - 必须**全局定义** : 每一个可能状态都需要给出一个动作选择 - **确定性策略** : 对于每个状态 $$ s \in S$$, 总是返回一个确定的动作 $$ a \in A

目标

寻找最优策略 $$ \pi^* $$ , 使从初始状态 $$ S_0 $$ 到终止状态 $$ S_T $$ 所得到的总奖励最大:

即 $$G=E [\sum_{i=1}^{T} R_i]$$ 最大

我们假定:
敌人采用确定性策略
可以通过多次对弈学习到更优的对策策略
(因为敌人可能犯错, 而我们可以据此调整和修改)

flowwalker

行走于万流浮动之境 | 技术与生活的求索者

原创强化学习

打赏作者

感谢你赐予我前进的力量

微信
Thank you!

赞赏者名单

因为你们的支持让我意识到写文章的价值🙏

本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自浮境听风亭！

喜欢这篇文章的人也看了

使用numpy实现反向传播算法示例

AI课程笔记-1

Pratical Deep Learning for Coders

评论

匿名评论隐私政策

博客快捷键

shift K

关闭快捷键功能

shift A

打开/关闭中控台

shift M

播放/暂停音乐

shift D

深色/浅色显示模式

shift S

undefined

shift R

随机访问

shift H

返回首页

shift F

undefined

shift L

友链页面

shift P

关于本站

shift I

undefined