当前位置:热帖财经资讯网 >> 科技 >> 文章正文

DeepMind再推MuZero:不需要讲规则 观察学习就能掌握游戏

发布于:2020-12-25 被浏览:3032次

MuZero不仅可以学习环境模型,还可以成功地将其用于规划,这证明了强化学习算法和通用人工智能算法的巨大进步。

新智元报道

来源:DeepMind

编者:问。

【新智元导读】看过美剧《后翼弃兵》的观众会惊叹于女主的棋艺才华。他们看了几遍就能掌握规则,可以在脑子里重复游戏,反复训练。现在AI可以了!

DeepMind的使命是证明AI不仅可以掌握游戏,甚至可以在不知道规则的情况下做到。最新的MuZero就达到了这个目的。

在象棋和围棋游戏中,它为但MuZero完全不需要提供规则手册,通过自己试验,就学会了象棋围棋游戏和各种Atari游戏,其通过考虑游戏环境的各个方面来评估是否重要,并可通过复盘游戏在自身错误中学习。的人工智能提供了一套不变且为人所知的游戏规则

2016年,DeepMind推出首个人工智能程序AlphaGo,在围棋游戏中击败人类。两年后,他的继任者AlphaZero从零开始学习围棋、象棋和象棋。

现在,在《自然》杂志上发表的一篇论文中,DeepMind带来了MuZero,这是搜索通用人工智能算法的重要一步。

因为它可以在未知环境中规划制胜策略,所以穆泽罗可以在不被告知游戏规则的情况下掌握围棋、象棋、松木和雅达利。

多年来,研究人员一直在寻找学习模型的方法,解释他们的环境,然后使用模型来计划最佳的行动计划。到目前为止,大多数方法很难在不同的领域之间进行有效的规划,例如雅达利,其中的规则或动态通常是未知和复杂的。

MuZero在2019年的一篇初步论文中首次提出,通过学习一个只关注规划环境最重要方面的模型解决了这个问题。将该模型与AlphaZero强大的前瞻树搜索相结合,MuZero在雅达利基准上实现了SOTA,同时,它在围棋、象棋和国际象棋的经典规划挑战中的表现与AlphaZero相当。通过这样做,MuZero在强化学习算法的能力上表现出了巨大的飞跃。

对未知模型的泛化

计划能力是人类智力的重要组成部分,它使我们能够解决问题并对未来做出决定。例如,如果我们看到乌云正在形成,我们可能会预测会下雨,并决定在出门前带上雨伞。人类学习这种能力很快,可以推广到新的场景。这是DeepMind一直希望算法具备的特性。

研究人员试图通过两种主要方法来解决人工智能中的这一重大挑战:前瞻搜索和基于模型的规划。

使用前瞻搜索的系统,如AlphaZero,在经典游戏如跳棋、象棋和扑克中取得了显著的成功,但问题是它们需要了解动态环境,如游戏规则或精确的模拟器。这使得它们很难应用于混沌的现实世界问题,而这些问题通常很复杂,很难归结为简单的规则。

基于模型的系统旨在通过学习动态环境的精确模型来解决这个问题,然后将其用于规划。但是建模环境各个方面的复杂性使得这类算法无法在一些视觉丰富的领域使用,比如Atari。到目前为止,雅达利的最佳结果来自于无模型系统,如DQN、R2D2和代理商57。顾名思义,无模型算法不使用已知的模型,而是估计下一步要采取的最佳行动。

MuZero使用不同的方法来克服以前方法的局限性。MuZero并不试图对整个环境进行建模,而只是对Agent决策过程的重要方面进行建模。毕竟知道伞能让你保持干爽,比模拟空气中雨滴的形状更有用。

具体来说,MuZero 模拟了对规划至关重要的三个环境要素:

价值:当前职位的好坏

Policy:所能达到的最佳程度

最后一个动作是好是坏

所有这些都是通过深层神经网络来学习的,而MuZero需要知道当它采取一定的行动时会发生什么,并据此制定计划。

上图是用MUZERO神经网络来规划蒙特卡洛树搜索的。从游戏中的当前位置开始(顶部示意图),MUZERO使用表示函数(h)将观察映射到神经网络使用的嵌入(S0)。利用动态函数(g)和预测函数(f),MUZERO可以考虑未来可能的动作序列(a),选择最佳动作。

MUZERO利用其在与环境互动时收集的经验来训练其神经网络。这种体验包括来自环境的观察和奖励,以及在决定最佳行动时进行的搜索的结果。

在培训过程中,模型与收集的经验一起开发。在每个步骤中,预测先前保存的信息:的价值函数vPrediction和观察奖励的和(u),策略估计(p)预测先前的搜索结果(),奖励估计(r)预测最终的观察奖励(u)。

这种方法的另一个主要优势是, MuZero可以重用它所学习的模型来改进其计划,而不是从环境中收集新数据。比如在雅达利套件的测试中,这个变种叫做MuZero Reanalyze,它用模型90%的时间重新规划过去的经验中应该做什么。

性能

深度思维选择了四个不同的领域来测试穆泽罗斯的能力。围棋、象棋和国际象棋用于评估其在具有挑战性的规划问题上的表现,而我们使用雅达利套件作为更复杂的视觉问题的基准。在所有情况下,MuZero的强化学习算法都达到了新SOTA,在雅达利套件上的性能优于以往所有算法,与围棋、象棋、象棋的AlphaZero的超人性能相匹配。

DeepMind的研究人员还更详细地测试了MuZero如何使用它学会的模型来规划。

从围棋中精准规划的经典挑战开始,一招就能决定胜负。为了证明更多的计划应该会带来更好的结果的直觉,衡量一下当给予更多的时间来计划每一个行动时,一个训练有素的MuZero版本会变得多么强大(见下图)。结果表明,当每个动作的时间从0.1秒增加到50秒时,游戏强度增加了1000埃洛(衡量玩家相对技能的指标)。这类似于业余和专业的区别。

为了测试该计划是否也会在整个训练过程中带来好处,研究人员在雅达利游戏“Pac-Man女士”(上图右)上进行了一系列实验,使用了一个单独训练的MuZero实例。每个动作允许考虑不同数量的规划模拟,范围从5到50。结果表明,增加每个动作的规划量可以使MuZero学习更快,获得更好的最终性能。

有趣的是,当MuZero被允许一次只考虑6到7个模拟时,它不能覆盖Pac-Man中所有可用的动作,但它仍然取得了良好的性能。这说明MuZero可以在动作和情境之间进行归纳,不需要为了有效学习而不遗余力地寻找一切可能。

MuZero不仅可以学习环境模型,还可以成功地将其用于规划,这证明了强化学习算法和通用人工智能算法的巨大进步。

它的前身AlphaZero已经应用于化学、量子物理等领域的一系列复杂问题。MuZero强大的学习和规划算法背后的想法可能会为应对混乱的现实环境中的新挑战铺平道路,在这个环境中,机器人、工业系统和其他游戏规则仍然未知。

参考链接:

https://deep mind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-not-rules

标签: 模型 算法 环境
最新文章
猜你喜欢
本类推荐
TOP 10