图书汇采平台

好评度:

(100% reviews)

深度强化学习原理与实践(异步图书出品) deepseek教程

￥99

京东库存 :

ISBN : 9787115505323

商品基本信息：

作者：陈仲铭，何明
出版社：人民邮电出版社
出版时间：2019-05-01
所属分类：计算机与互联网\人工智能
服务：京东发货并提供售后服务

加入购物车

Tags : Fast, Gaming, Strong

详细信息

内容简介

本书构建了一个完整的深度强化学习理论和实践体系：从马尔可夫决策过程开始，根据价值函数、策略函数求解贝尔曼方程，到利用深度学习模拟价值网络和策略网络。书中详细介绍了深度强化学习相关算法，如Rainbow、Ape-X算法等，并阐述了相关算法的具体实现方式和代表性应用（如AlphaGo）。此外，本书还深度剖析了强化学习各算法之间的联系，有助于读者举一反三。
本书分为四篇：初探强化学习、求解强化学习、求解强化学习进阶和深度强化学习。涉及基础理论到深度强化学习算法框架的各方面内容，反映了深度强化学习领域过去的发展历程和研究进展，有助于读者发现该领域中新的研究问题和方向。

第一篇　初探强化学习

第　1章强化学习绪论　3
1．1　初探强化学习　4
1．1．1　强化学习与机器学习　5
1．1．2　强化学习与监督学习的区别　6
1．1．3　历史发展　8
1．2　基础理论　10
1．2．1　组成元素　11
1．2．2　环境模型　12
1．2．3　探索与利用　12
1．2．4　预测与控制　13
1．2．5　强化学习的特点　14
1．3　应用案例　14
1．4　强化学习的思考　18
1．4．1　强化学习待解决问题　18
1．4．2　强化学习的突破点　23
1．5　小结　25
第　2章数学基础及环境　26
2．1　简介　27
2．2　马尔可夫决策过程　27
2．2．1　马尔可夫性质　27
2．2．2　马尔可夫决策过程　27
2．3　强化学习的数学基础理论　29
2．3．1　策略　30
2．3．2　奖励　30
2．3．3　价值函数　31
2．4　求解强化学习　31
2．4．1　贝尔曼方程　31
2．4．2　最优值函数　32
2．4．3　最优策略　32
2．4．4　求解最优策略　33
2．5　示例：HelloGrid迷宫环境　36
2．5．1　初识OpenAI Gym库　37
2．5．2　建立HelloGrid环境　38
2．6　小结　43

第二篇　求解强化学习

第3章　动态规划法　47
3．1　动态规划　48
3．1．1　动态规划概述　48
3．1．2　动态规划与贝尔曼方程　48
3．2　策略评估　49
3．2．1　策略评估算法　49
3．2．2　策略评估算法实现　50
3．3　策略改进　54
3．4　策略迭代　56
3．4．1　策略迭代算法　57
3．4．2　策略迭代算法实现　58
3．5　值迭代　60
3．5．1　值迭代算法　61
3．5．2　值迭代算法实现　62
3．6　异步动态规划　64
3．6．1　In-Place动态规划　65
3．6．2　加权扫描动态规划　65
3．6．3　实时动态规划　66
3．7　讨论　66
3．8　小结　67
第4章　蒙特卡洛法　68
4．1　认识蒙特卡洛法　69
4．1．1　经验轨迹　69
4．1．2　蒙特卡洛法数学原理　74
4．1．3　蒙特卡洛法的特点　74
4．2　蒙特卡洛预测　74
4．2．1　蒙特卡洛预测算法　75
4．2．2　蒙特卡洛预测算法的实现　76
4．3　蒙特卡洛评估　80
4．4　蒙特卡洛控制　81
4．4．1　蒙特卡洛控制概述　82
4．4．2　起始点探索　84
4．4．3　非起始点探索　85
4．4．4　非固定策略　90
4．5　小结　96
第5章　时间差分法　98
5．1　时间差分概述　99
5．2　时间差分预测　99
5．2．1　时间差分预测原理　99
5．2．2　TD(λ)算法　101
5．2．3　时间差分预测特点　104
5．2．4　CartPole游戏　104
5．3　时间差分控制Sarsa算法　106
5．3．1　Sarsa算法原理　106
5．3．2　Sarsa算法实现　108
5．4　时间差分控制Q-learning算法　114
5．4．1　Q-learning算法原理　114
5．4．2　Q-learning算法实现　115
5．5　扩展时间差分控制法　121
5．5．1　期望Sarsa算法　121
5．5．2　Double Q-learning算法　121
5．6　比较强化学习求解法　123
5．7　小结　126

第三篇　求解强化学习进阶

第6章　值函数近似法　129
6．1　大规模强化学习　130
6．2　值函数近似法概述　131
6．2．1　函数近似　131
6．2．2　值函数近似的概念　133
6．2．3　值函数近似的类型　133
6．2．4　值函数近似的求解思路　134
6．3　值函数近似法原理　135
6．3．1　梯度下降算法　135
6．3．2　梯度下降与值函数近似　137
6．3．3　线性值函数近似法　138
6．4　值函数近似预测法　139
6．4．1　蒙特卡洛值函数近似预测法　139
6．4．2　时间差分TD(0)值函数近似预测法　140
6．4．3　TD(λ)值函数近似预测法　141
6．5　值函数近似控制法　142
6．5．1　值函数近似控制原理　143
6．5．2　爬山车游戏　143
6．5．3　Q-learning值函数近似　145
6．6　小结　156
第7章　策略梯度法　157
7．1　认识策略梯度法　158
7．1．1　策略梯度概述　158
7．1．2　策略梯度法与值函数近似法的区别　159
7．1．3　策略梯度法的优缺点　160
7．2　策略目标函数　161
7．2．1　起始价值　162
7．2．2　平均价值　162
7．2．3　时间步平均

深度强化学习原理与实践(异步图书出品) deepseek教程

内容简介

目录

相关书籍

TPM全面生产维护推进实务

深度学习的数学(图灵出品) deepseek教程

深度强化学习原理与实践(异步图书出品) deepseek教程

特征工程入门与实践(图灵出品) deepseek教程

语音信号处理（第3版）/人工智能科学与技术丛书 deepseek教程

深度学习之图像识别：核心技术与案例实战 deepseek教程

统计强化学习：现代机器学习方法

人工智能十万个为什么：热AI 冷知识

深度学习之TensorFlow工程化项目实战(博文视点出品) deepseek教程

MXNet深度学习实战：计算机视觉算法实现

推荐书籍

数学物理方法

地球的红飘带小说京东超级618

中国文化要义

弱传播：舆论世界的哲学

金字塔原理一个原理即可解决学习、思考、表达的全部难题！麦肯锡用了40年的内训教材！

日本蜡烛图技术（珍藏版）

数论：概念和问题京东超级618

乌托邦精装空想社会主义奠基之作

【京东自营】无人作战时代：人工智能和未来战场