重磅经典教材R.Sutton《增强学习导论》最新版( 二 )


9.10Kernel-basedFunctionApproximation
9.11LookingDeeperatOn-policyLearning:InterestandEmphasis
9.12总结
10.用近似法控制on-policy在策略
10.1插入式的半梯度控制
10.2n-step半梯度Sarsa
10.3平均回馈:连续任务中的新问题设定
10.4“打折”的设置要考虑可用性
10.5n-step差分半梯度Sarsa
10.6总结
11.使用近似法的离策略方法
11.1半梯度的方法
11.2Barid的反例
11.3Thedeadlytriad
11.4LinearValue-functionGeometry
11.5GradientDescentintheBellmanError
11.6TheBellmanErrorisNotLearnable
11.7Gradient-TDMethods
11.8Emphatic-TDMethods
11.9ReducingVariance
11.10总结
12.合格性追踪
12.1λ-返回
12.2TD(λ)
12.3n-stepTruncatedλ-returnMethods
12.4RedoingUpdates:TheOnlineλ-returnAlgorithm
12.5真实的在线TD(λ)
12.6蒙特卡洛学习中的DutchTraces
12.7Sarsa(λ)
12.8Variableλandγ
12.9Off-policyEligibilityTraceswithControlVariates
12.10Watkins’sQ(λ)toTree-Backup(λ)
12.11StableOff-policyMethodswithTraces
12.12ImplementationIssues
12.13结论
13.策略梯度方法
13.1策略近似及其优势
13.2策略梯度的原理
13.3增强:蒙特卡洛策略梯度
13.4使用基准增强
13.5评估-决策方法(Actor-Critic)
13.6连续问题中的策略梯度(平均回馈率)
13.7连续行动中的策略参数化
13.8总结
更深层的展望
14.心理学
14.1预测和控制
14.2经典的调节
14.2.1BlockingandHigher-orderConditioning
14.2.2rescorlawagner方法
14.2.3TD模型
14.2.4TD模型模拟
14.3有用条件
14.4延迟的增强
14.5认知图
14.6习惯和目标导向的行为
14.7总结
15.神经科学
15.1神经科学基础
15.2回馈信号、价值、预测误差和增强信号
15.3回馈预测误差假设
15.4回馈预测误差假设的实验支持
15.6TD误差/多巴胺对应
15.7神经评估-决策
15.8评估-决策的学习规则
15.9快乐主义的神经元
15.10集体增强学习
15.11大脑中基于模型的方法
15.12上瘾
15.13总结
16.应用和案例分析
16.1TD-Gammon
16.2Samuel的西洋棋玩家
16.3Watson的Daily-Double
16.4优化记忆控制
16.5人类水平的电子游戏
16.6下围棋
16.6.1AlphaGo
16.6.2AlphaGoZero
16.8个性化网页服务
16.9热气流滑翔
17.前沿
17.1GeneralValueFunctionsandAuxiliaryTasks
17.2TemporalAbstractionviaOptions
17.3ObservationsandState
17.4DesigningRewardSignals
17.5RemainingIssues
17.6ReinforcementLearningandtheFutureofArtificialIntelligence
参考文献
说明
书中部分插图
重磅经典教材R.Sutton《增强学习导论》最新版
文章图片
重磅经典教材R.Sutton《增强学习导论》最新版
文章图片
重磅经典教材R.Sutton《增强学习导论》最新版
文章图片
《强化学习导论》电子书地址:返回搜狐 , 查看更多
重磅经典教材R.Sutton《增强学习导论》最新版】责任编辑: