博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
《中国人工智能学会通讯》——8.13 强化学习
阅读量:6856 次
发布时间:2019-06-26

本文共 505 字,大约阅读时间需要 1 分钟。

8.13 强化学习

强化学习[27]通过与环境交互,学习决策策略,对于每一步决策,环境反馈一个奖赏值,强化学习的目的是学得最大化长期累积奖赏的策略。例如在下棋中,强化学习的策略对于棋盘状态给出走子决策,直到分出胜负时强化学习获得长期奖赏,并通过胜负结果调整策略,提高策略的胜率。可见强化学习面临的优化问题比监督学习更加复杂。

演化强化学习[28]借助演化算法的优化能力对策略进行有效搜索。当策略模型可以参数化表示时,例如使用一组规则或神经网络作为策略模型,演化算法被用于直接搜索策略,以优化策略获得的长期累积奖赏[29] 。相较于其他强化学习方法,演化算法在处理状态空间大小的可扩展性、状态信息的不完备性以及环境的不确定性上具有明显的优势。比如文献 [30] 提出了一种演化神经网络方法 CoSyNE,实验结果表明 CoSyNe 比其他 15 种常用强化学习方法要显著的好。文献 [31] 提出在基于偏好的强化学习中,利用一种演化算法对模型超参数进行优化。文献 [32] 对强化学习和黑箱优化进行了有趣的深入讨论,并通过移植演化算法的扰动和更新方法,在路径积分基础上提出黑箱路径积分,提高了收敛速率和策略质量。

转载地址:http://lpiyl.baihongyu.com/

你可能感兴趣的文章
Python 性能优化
查看>>
设计的网页 如何在ie8中 避免 兼容性视图 的按钮出现?
查看>>
我的友情链接
查看>>
(转) eclipse下导入android源码
查看>>
解决embed标签设置z-index无效
查看>>
1.3 保持最后N个元素
查看>>
我的友情链接
查看>>
Python的运算符
查看>>
resin安装
查看>>
我的友情链接
查看>>
Windows Server 2008 将计算机加入到指定组织单元
查看>>
设置域用户帐户密码策略
查看>>
C语言for循环的一些注意细节
查看>>
linux下top命令参数解释
查看>>
输出100000以内的质数,并计算时间 学习笔记
查看>>
我的友情链接
查看>>
我的友情链接
查看>>
hadoop+hbase+zookeeper+spark+phoenix相关实施报错处理
查看>>
.Net连接Oracle数据库的实现代码
查看>>
Unity3D客户端实时同步
查看>>