新闻内容

航宇娱乐场贵宾厅,142页"ICML会议"强化学习笔记整理,值得细读
作者:匿名 2020-01-11 13:25:32 热度:3642

航宇娱乐场贵宾厅,142页

航宇娱乐场贵宾厅,作者 | david abel

编辑 | deeprl

来源 | 深度强化学习实验室(id: deep-rl)

icml 是 international conference on machine learning的缩写,即国际机器学习大会。icml如今已发展为由国际机器学习学会(imls)主办的年度机器学习国际顶级会议。其中强化学习便是该会议很重要的一个话题,每年都有非常多的投稿。本文整理了david abel总结的icml2018、2019两年的深度强化学习笔记,详看正文。

icml-2019-rl-note

作者整理简介:我在本次会议的rl分场上度过了大部分时间(可惜错过了所有主题演讲), 所以我的大部分反思(和笔记)都集中在rl:

元学习&元强化学习

元学习算法通用方法

为什么元强化学习有用?

几乎所有问题都与现有方法的样本效率低下有关。将trpo应用于真正的机器人时,机器人需要花费数天或数周的时间才能开始取得任何进展(学习步行)。

通常情况下,智能体的目标是学习一个策略最大化累计期望奖励。

而且,rl目标的元学习问题是学习

,因此,元rl问题如下:

其优化过程如下:

当然元学习有它的优势,也有对应的挑战。

挑战1:超量配置:元学习需要任务分配,一些元学习方法可能会过度适合这些任务分配。

挑战2:任务设计:通常必须手动选择这些任务分配,或者它们的多样性不足以鼓励正确的行为。很难以正确的方式选择任务分配!

挑战3:了解哪种算法过度拟合:许多不同的方法(黑盒,基于优化的非参数方法),但是我们不知道哪种算法最容易遭受元过度拟合。

图强化学习

图模型最近在深度学习中特别的人们,然而在强化学习中也是独领风骚:tibgm: a graphical model approach for rl

还有包括分布式强化学习,理论等相关内容,详见文末pdf2019

icml-2018-rl-note

github查看(欢迎star仓库):

https://github.com/neurondance/deeprl/tree/master/drl-conferencepaper/icml/source

(*本文为 ai科技大本营转载文章,转载请联系原作者)

2019 中国大数据技术大会(bdtc)再度来袭!豪华主席阵容及百位技术专家齐聚,15 场精选专题技术和行业论坛,超强干货+技术剖析+行业实践立体解读,深入解析热门技术在行业中的实践落地。

即日起,限量 5 折票开售,数量有限,扫码购买,先到先得!

© Copyright 2018-2019 padikkal.com 马跑信息门户网 Inc. All Rights Reserved.