DeepMind的AI自动生成强化学习算法

导读 新时代,高科技越来越发达。朋友们读了很多关于科技的重要新闻。我们也应该在生活中使用很多这些高科技的东西。朋友应该注意什么?今天,我

新时代,高科技越来越发达。朋友们读了很多关于科技的重要新闻。我们也应该在生活中使用很多这些高科技的东西。朋友应该注意什么?今天,我想和大家分享一条关于科技的知识。我希望你会喜欢它。

在Arxiv.org预印服务器上发表的一项研究中,DeepMind研究人员描述了一种强化学习算法生成技术,该技术发现了预测的内容以及如何通过与环境交互来学习。他们声称,生成的算法在一系列具有挑战性的雅达利视频游戏中表现出色,并取得了“非凡”的性能,表明该技术具有普适性。

强化学习算法(一种使软件代理能够使用反馈通过反复试验在环境中学习的算法)根据几个规则之一更新代理的参数。这些规则通常是通过多年的研究发现的,从数据中自动发现可能会产生更有效的算法,或者算法更适合特定的环境。

DeepMind的解决方案是一个元学习框架,它可以共同发现特定代理应该预测什么,以及如何使用这些预测来改进策略。(在强化学习中,“策略”定义了学习主体在给定时间的行为。他们的框架——学习策略梯度(LGP)——允许更新规则(即元学习者)来决定受试者的行为。当框架通过多个学习代理发现规则时,输出应该是预测性的,并且每个学习代理与不同的环境交互。

在实验中,研究人员在复杂的雅达利游戏(包括图坦卡蒙、突破和亚尔斯的复仇)上直接评估了液化石油气。他们发现,与现有算法相比,它可以“合理地”扩展到游戏中,尽管训练环境是由基础任务比雅达利游戏简单得多的环境组成的。此外,经过液化石油气培训的特工在14场比赛中成功实现了“超人”表现,而无需依赖手工设计的强化学习组件。

合著者指出,液化石油气仍然落后于一些先进的强化学习算法。然而,在实验过程中,随着训练环境数量的增加,其泛化性能迅速提高,这表明一旦有更多的环境可用于元训练,发现通用强化学习算法可能是可行的。

“通过以数据驱动的方式自动化发现过程,所提出的方法有可能大大加速发现新的强化学习算法的过程。如果提出的研究方向成功,这将改变研究范式,从人工开发强化学习算法转向构建合适的环境集,从而使获得的算法高效。”研究人员写道。“此外,所提出的方法还可以作为一种工具,帮助强化学习研究人员开发和改进他们手工设计的算法。在这种情况下,根据研究人员提供的输入架构,我们可以使用建议的方法来了解好的更新规则的外观。

本文就为大家讲解到这里了。
版权声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。