通用alphago诞生?

关注:65 发布时间:2021-10-26 19:02:01

导语本文整理了通用alphago诞生?经验知识,帮助您全面了解,小白也能成为高手,跟随小编一起来看一看吧!

deep mind的一项研究提出了muzero算法,该算法在没有底层动态知识的情况下,在雅达利2600游戏中取得了sota的表现,甚至在国际象棋、日本象棋和围棋中超过了alphazero。

muzero算法在象棋、日本象棋、围棋、雅达利游戏训练中的评价结果。横坐标表示训练步数,纵坐标表示elo分数。黄线代表alphazero(代表人类在雅达利游戏中的表现),蓝线代表muzero。

基于前向搜索的规划算法在人工智能领域取得了巨大的成功。在围棋、象棋、跳棋、扑克等游戏中,人类一次次被算法打败。此外,规划算法已经在物流和化学合成等许多现实领域产生了影响。然而,这些规划算法都依赖于环境的动态变化,如游戏规则或精确模拟器,这导致它们在机器人、工业控制、智能助手等领域的应用有限。

基于模型的强化学习旨在通过以下步骤解决这个问题:首先,学习一个动态环境模型,然后根据学习的模型进行规划。一般来说,这些模型要么侧重于重建真实的环境状态,要么侧重于完整观测结果的序列。但是之前的研究在视觉丰富的领域还没有达到sota水平,比如雅达利2600游戏。

比较流行的方法是基于无模型强化学习,它直接从代理和环境之间的相互作用来估计优化策略和/或成本函数。然而,在那些需要精确和复杂的前向搜索的领域(如围棋和象棋),这种无模型算法远远落后于sota。

研究人员在57款不同的雅达利游戏中对穆泽罗进行了评估,发现该模型在雅达利2600游戏中达到了sota的表现。此外,他们在不给出游戏规则的情况下,对象棋、日本象棋和围棋中的木泽罗模型进行了评估,发现这种模型可以媲美alphazero超越人类的表现。而且在这个实验中,他的前任alphazero提前学会了规则。

muzero算法概述

muzero基于alphazero强大的搜索和基于搜索的策略迭代算法,但它也将一个学习良好的模型集成到训练步骤中。muzero还将alphazero扩展到更广泛的环境,包括单个代理域和中间阶段的非零奖励。

该算法的主要思想是预测与规划直接相关的未来行为(如下图1所示)。该模型以接收到的观察结果(如围棋棋盘图像或雅达利游戏截图)为输入,然后转换成隐藏状态。接下来,通过循环过程迭代地更新隐藏状态,循环过程接收先前的隐藏状态和假定的下一个操作。

在每一步,模型预测策略(如玩动作)、价值函数(如预测的赢家)和即时奖励。模型端到端训练的唯*目标是精确地估计这三个重要的量,以匹配改进的策略估计和通过搜索和观察奖励产生的值。

对于隐藏状态,没有直接的约束和要求捕捉重建原始观测结果所需的信息,大大减少了模型维护和预测的信息量;不要求隐藏状态与环境中未知真实状态相匹配。对状态语义没有其他约束。

相反,隐藏状态可以以与预测当前和未来的价值和政策相关的方式来表示状态。直观来说,代理可以在内部创建规则和动态,以实现比较准确的规划。

图1:用一个经过训练的模型来计划、行动和训练。(一)a)muzero使用其模型进行规划的方式;(b)b)muzero在环境中的工作方式;(c)c)muzero训练模型的方式。

muzero算法详解

研究人员更详细地解释了muzero算法。在每个时间步长t,对每个k=1进行预测.k步进一个参数为的模型_ ,在以往观测结果o _ 1的条件下,o _ t和未来行为a _ t1,a _ tk。该模型预测了三个未来量:战略

,价值函数

和即时奖励

,其中u .代表观察到的正确奖励,代表用于选择实时动作的策略,代表环境的折扣函数。

在每个时间步长t,muzero模型都具有表征函数、动态函数和预测函数的特征。在这篇论文中,研究者准确地刻画了动态函数。策略和价值功能是通过预测功能实现的

按照内部状态s k计算,类似alphazero的联合策略和价值网络。

给定这样一个模型,就有可能找到未来的轨迹a 1,基于过去观测值o _ 1的假设的k,例如,一个简单的搜索就可以很容易地选择出使成本函数比较大化的k步动作序列。更一般地说,我们可能能够将mdp(马尔可夫决策过程)编程算法应用于从动态函数导出的内部奖励和状态空间。

对于每一个假设的时间步长k,模型的所有参数都接受联合训练,这样在k个实际的时间步长之后,策略、价值和回报都与其对应的目标值精确匹配。类似于alphazero,推广的战略目标是通过蒙特卡洛树(mcts)搜索生成的。第一个目标是比较小化预测策略p k _ t和搜索策略_ t _ k之间的误差;第二个目标是比较小化预测值v k _ t与目标值z_t k之间的误差;第三个目标是比较小化预测报酬r k _ t和观测报酬u _ t k之间的误差。比较后,加上l2正则项,得到以下总损失:

实验结果

在实验中,研究人员将muzero算法应用于围棋、象棋和日本象棋等经典棋盘游戏,作为挑战规划问题的基准。同时应用于雅达利游戏环境下的57款游戏,作为视觉复杂强化学习领域的标杆。

下图2展示了muzero算法在每次游戏训练中的表现。围棋游戏中,虽然搜索树中每个节点的计算量比alphazero小,但是muzero的性能还是比alphazero略好。这表明,muzero可能会在搜索树中缓存自己的计算,并使用动态模型的每个附加应用程序来更深入地了解位置。

图2:象棋、日本象棋、围棋、雅达利游戏训练中2:muzero算法的评价结果。在象棋、日本象棋、围棋等游戏中,横坐标代表训练步数,纵坐标代表elo分数。

表1:穆泽罗与之前雅达利游戏中代理的对比。研究人员展示了在大规模(表的上半部分)和小规模(表的下半部分)数据设置下穆泽罗和其他代理之间的比较结果,并展示了穆泽罗在五个评估指标(红框)上取得了新的sota结果,即平均分数、中值分数、环境分数。框架,训练时间,训练步骤。

为了了解模型在木泽罗中的作用,研究人员还在围棋和吃豆人雅达利中进行了以下实验。他们首先在围棋的典型规划问题上测试了规划的可扩展性(见下图3a)。此外,他们还研究了所有雅达利游戏中规划的可扩展性(下图3b)。然后,他们将基于模型的学习算法与其他类似的无模型学习算法进行了比较(见下图3c)。

图3: muzero对go、57款雅达利游戏、pac-man游戏的评价结果。

(原文来自机心编辑部,论文链接:web链接)

猜你喜欢

热门互联网经验

360微商频道查询入口