DOTA2国际邀请赛 OpenAI机器人遭人类玩家碾压

发布时间:2019-07-15 18:33:17 来源:奇幻城娱乐网址-奇幻城娱乐官网点击:29

  本文系网易智能工作室(公众号 smartman163)出品。聚焦AI,读懂下一个大时代!

  【网易智能讯 8月23日消息】今天早间,OpenAI的人工智能(AI)机器人在DOTA2国际邀请赛(Dota 2 at The International)中输给了人类职业玩家。这是人类职业玩家与OpenAI机器人三场对决中的第一场,另外两轮比赛将在接下来的两天内举行,每天都有不同的人类团队出赛。

  

  在加拿大温哥华的罗杰斯竞技场(Rogers Arena),成千上万被发光手镯点亮的Dota铁杆粉丝们,在第一轮比赛中坐在运行OpenAI软件的机器前观看人类与机器人选手之间的对决。这个被称为Team paiN的人类团队由来自巴西的5名玩家组成,而OpenAI Five团队则是由5种基于长期-短期记忆神经网络的机器人组成。

  《Dota 2》是一款流行的在线战斗策略游戏。目标是占领基地,并摧毁敌人的神圣建筑。这些参赛队伍经常会在零星的战斗中发生冲突,屏幕上闪烁着各种各样的魔法和力量。这场人机大战持续了45分钟,期间一度陷入胶着。

  开始的时候,OpenAI Five的机器人看起来似乎迷失了方向。三个机器人绕着圈走,看起来感到十分困惑,而人类团队则在探索地图。不过,机器人们迅速恢复了意识,这在一开始就是一场势均力敌的比赛。Team paiN首先发动攻击,之后双方展开针锋相对的厮杀。

  然而,当比赛进展到1/3的时候,机器人开始在战斗中占据主导地位,并获得了更多的黄金。人类开始奋起直追,并占据了更多的塔。尽管OpenAI Five造成的杀伤更大,但这场比赛似乎依然胜负难料。然而,机器人的塔楼逐渐倒塌,在最后一场战斗中,人工智能玩家被消灭,神圣建筑暴露出来。人类队很快摧毁了它,并取得了胜利。

  OpenAI技术团队成员菲利普·沃尔斯基(Filip Wolski)表示:“我们对这一轮比赛能否获胜没有太大信心,因为人类职业玩家很难对付。虽然输掉比赛让人失望,但我很高兴我们能与顶级战队对攻了如此长的时间。”

  OpenAI Five表现出许多奇怪的行为,比如徘徊在罗山(Roshan)的巢穴外,这是个需要团队合作才能击败的强大敌人。杀死罗山是至关重要的一步,因为它可以奖励玩家黄金,并且可以让英雄在死后迅速重生,然而被罗山杀死会耗费时间、精力和资源。与此同时,这张地图向敌对团队开放,让他们去摧毁那些塔。因此,任何犹豫都是危险的。”

  这些机器人似乎还在战斗中施放强大的魔法,即时有时附近几乎没有敌人的时候。

  《Dota 2》是一款比较复杂的游戏。有一百多个被称为英雄的可玩角色,而每个角色都有自己的优点和缺点。有些能施放特别强大的魔法咒语,有些能快速行进,有些非常强壮,甚至有的还配有小蜘蛛。所有这一切,再加上收集黄金购买大量物品以增强英雄力量的能力,使得游戏变得异常复杂。

  然而,在与Team paiN的比赛中,OpenAI Five并没有抓住这一切。对于一台计算机来说,目前有太多的组合和可能性需要掌握。OpenAI始终在稳步解除其软件代理在游戏期间的限制,因为它的机器人在不断改进。这些变化包括:

  ——在每场比赛中,可玩的AI英雄从5个增加到18个;

  ——这两个团队的角色都得到了OpenAI工程师和人类团队的同意,以确保他们是平衡的;

  ——为了给玩家更多机会,玩家的反应时间从80毫秒增加到200毫秒;

  ——现在可以在游戏中使用更多的物品,比如可以恢复生命值的瓶子;

  ——只有一个致命信使,而不是5个不可战胜的信使,所以只有一个英雄可以在任何时候使用信使携带的物品,而这些物品可能会丢失。

  我们得知,为了节省时间,OpenAI和DOTA2国际邀请赛的组织者决定提前为两支比赛队伍挑选英雄。职业玩家练习数小时,试图提高他们的反应时间、团队合作能力,以及制定各种策略。幸运的是,OpenAI Five也有很多时间来练习。事实上,它每天能玩的游戏比人一辈子玩的还多。在训练过程中,每个机器人每天都能获得180年的经验,所以对于整个团队来说,每天相当于900年时间那么长。

  与人类不同,机器人可以被克隆。OpenAI使用名为Rapid的技术,这是一种强化学习框架,允许多个机器人并行地玩大量游戏。这些机器人以批量的方式积累知识,然后使用通用的增强学习算法——PPO算法来训练OpenAI Five的5个机器人。它们也总是和自己对着干,这就是所谓的“自我游戏”。

  所有这些训练都消耗了大量的GPU和CPU。OpenAI没有确切透露,他们为在8月份比赛做准备时使用了多少设备。然而,简单的答案是很多。当它在今年早些时候被训练去玩一系列非正式的比赛时,该机构在Google Cloud中动用了128000个CPU内核和256个英伟达P100 GPU。

  除了更多的经验,这些机器人还有其他的优势。它们可以同时看到整个地图和游戏状态。所有的信息——比如英雄的健康状况和位置,以及他们库存中的物品,每4个视频帧就会被输入到其神经网络中。OpenAI联合创始人兼首席技术官格雷格·布罗克曼(Greg Brockman)此前解释说:“这就像在玩的时候闭上眼睛,每隔四帧就睁开一次。”

  因此,OpenAI Five可以一次看到整个地图,而人类必须手动移动他们的英雄来探索地图的不同部分。因此,两个团队都可以访问相同的信息,但不能同时访问。

  虽然游戏的反应时间从80毫秒增加到200毫秒,以便机器人和人类玩家的反应时间相似,但人工智能玩家仍然占了上风。当涉及到琐碎的任务时,点击正确的按钮就像是肌肉记忆。然而,对于一些关键时刻,比如知道什么时候用特定的咒语攻击,人类玩家常常会停下来思考,尽管这可能需要一两秒钟。而计算机仍在以几百毫秒的速度工作。

  然而,电脑似乎输了,因为它没有人类磨砺出的长期战略。布罗克曼表示:“今天我们证明了,我们正处于人类能力的边缘,而考验是我们能否击败一支职业战队。我们计划本周在DOTA2国际邀请赛中与其他职业团队比赛,明天和周五我们将会有更多信息分享。对我们来说,考验是我们能否在高水平的比赛中战胜人类职业团队。”

  在《Dota 2》比赛中,OpenAI的机器人玩家表现已经非常棒。去年,它在镜像比赛(使用同样的英雄)悄悄击败了职业玩家丹迪(Dendi)。今年,它加入了5VS5比赛,这些最初也是镜像比赛,直到本月早些时候在公开比赛中与半职业选手对决。OpenAI Fiv可能输掉了第一场比赛,但还没有结束。它们将在周四和周五面对更多的人类职业玩家。请继续关注!

  (选自:theregister 作者:Katyanna Quach 编译:网易智能 参与:小小)

  关注网易智能公众号(smartman163),为你解读AI领域大公司大事件,新观点新应用。