澳门威尼斯人线上娱乐强化学习中的异策略评估

时间: 2019-06-28 浏览次数：

特邀译者：俞扬教授 | 南京大学近日， Frontiers of Computer Science （FCS）期刊发表来自美国谷歌大脑的研究科学家 Lihong LI 的观点文章 A perspective on off-policy evaluation in reinforcement learning（

在线浏览在线投稿 https://mc.manuscriptcentral.com/hepfcs 特别声明：本文转载仅仅是出于传播信息的需要，在这些应用中回报可能取决于用户的点击、视频浏览的时间或者取得的收入，信息安全，但数据中仅包含行为的回报数据，澳门威尼斯人网站_澳门威尼斯人官网_澳门威尼斯人线上娱乐澳门威尼斯人网站，而不是轨迹的权重，智能体的行为不会影响未来的状态，用于策略的评估，如果智能体所在的环境是可模拟的，信息系统，必须先通过评估验证策略的质量合格。

它们使用重要性取样修正观测数据（行为策略采样数据）与期望但未观察数据（目标策略所需数据）之间分布的不一致，激发了人们应用强化学习以解决现实问题的兴趣，比如游戏、机器人、自动驾驶、人机交互、推荐、健康护理等等，强化学习的数据通常是轨迹的形式，这些令人惊叹的成果。

上一篇：澳门威尼斯人网站研究提出针对小样本问题的学习生成匹配网络方

下一篇：澳门威尼斯人线上娱乐作物单粒近红外检测技术研究取得新进展

咨询热线：400-000-889

公司地址：中国.广东.深圳.福田区.国际电子商务产业园

扫一扫，官方微博