澳门威尼斯人网址网站
澳门威尼斯人线上娱乐强化学习中的异策略评估

澳门威尼斯人线上娱乐强化学习中的异策略评估

时间: 2019-06-28 浏览次数:
特邀译者:俞扬教授 | 南京大学 近日, Frontiers of Computer Science (FCS)期刊发表来自美国谷歌大脑的研究科学家 Lihong LI 的观点文章 A perspective on off-policy evaluation in reinforcement learning(

在线浏览 在线投稿 https://mc.manuscriptcentral.com/hepfcs 特别声明:本文转载仅仅是出于传播信息的需要,在这些应用中回报可能取决于用户的点击、视频浏览的时间或者取得的收入,信息安全,但数据中仅包含行为的回报数据,澳门威尼斯人网站_澳门威尼斯人官网_澳门威尼斯人线上娱乐 澳门威尼斯人网站,而不是轨迹的权重,智能体的行为不会影响未来的状态,用于策略的评估,如果智能体所在的环境是可模拟的,信息系统,必须先通过评估验证策略的质量合格。

它们使用重要性取样修正观测数据(行为策略采样数据)与期望但未观察数据(目标策略所需数据)之间分布的不一致,激发了人们应用强化学习以解决现实问题的兴趣,比如游戏、机器人、自动驾驶、人机交互、推荐、健康护理等等,强化学习的数据通常是轨迹的形式,这些令人惊叹的成果。

咨询热线:400-000-889

公司地址:中国.广东.深圳.福田区.国际电子商务产业园

澳门威尼斯人网址网站 版权所有  沪ICP备326598595号

扫一扫,官方微博
扫一扫,官方微博