腾讯AI在星际2完整对战中击败“作弊级”内建Bot

腾讯AI在星际2完整对战中击败“作弊级”内建Bot

2019-07-29 11:55:21

原文:论智(ID:jqr_AI)

量子位 获授权编辑转载 | 公众号 QbitAI

编者按:19日,来自腾讯AI Lab、罗切斯特大学和西北大学的研究人员发表了一个预印本《TStarBots: Defeating the Cheating Level Builtin AI in StarCraft II in the Full Game》,文章介绍了两个AI:TStarBots1和TStarBots2,它们首次在完整的虫族VS虫族比赛中击败了星际争霸Ⅱ的内置AI Bot,是研究史上的又一大壮举。虽然不是严格意义上的“自学”,AI还高度依赖人为归纳的信息,但迄今为止,这是我们在星际Ⅱ项目上见到的最有建树的成果,值得期待。

译者注:星际2的内置AI难度分为“新手”“简单”“普通”“困难”“艰难”“极难”“专家”“作弊一(拥有全视野)”“作弊二(后期全视野+额外资源)”“作弊三(全视野+额外资源)”十个等级,越高越难。论文中会出现等级1~10的AI,请对照分辨。此外,下文涉及的人口单位称呼以玩家习惯为准。

简介

近年来,深度学习和强化学习的结合为学界带来了诸多进展。从头训练、只提供游戏原始特征,这些尝试为我们带来了无数令人称奇的“自学”AI,比如围棋、各种雅达利游戏、Dota2等等。但是,作为RTS游戏难度标杆的星际2还未被AI攻陷。

星际2截图

上图是星际2游戏内的截图。就资源来看,星际2有晶体矿(蓝色晶柱)和气矿(晶柱两侧绿色建筑)两种,不同建筑需要的资源数不同;从人口单位上看,图中有工蜂(农民)、王虫(房子)、跳虫(小狗)、毒爆虫、蟑螂、火蟑螂。

这还只是刚开局的情形,比起控制5个英雄的OpenAI Five,这个时间点星际2 AI需要控制的单位已经高达35个,随着局势逐渐展开,它还要开矿、攀科技树、建造更多建筑、孵化更高级的虫子,最终操作上百人口拉扯阵型、和敌方交换战损并最终依靠混合策略获得胜利。

图片左下角是玩家拥有的视野,这时除了基地,地图其他区域都是黑的,这意味着如果想要“刺探敌情”,AI就得派遣农民/房子/狗等单位进行战略性侦查,面对未知环境中的各种可能性,所有决定都必须是实时做出的。

巨大的观察空间、庞大(连续的、无穷的)的动作空间、受限的观察视野、多人同步游戏模型、长期决策……这些因素使星际2成为现在最具挑战性的AI游戏目标,没有之一。

去年,为了推动AI研究迈向新的前沿,DeepMind联合暴雪发布了星际2 AI学习环境SC2LE——一个用于设计复杂决策系统的测试平台。虽然它提供了不少迷你游戏,比如MoveToBeacon、CollectMineralShards和DefeatRoaches(对应“放置信标”“拾取晶体矿”和“消灭蟑螂”等基础游戏操作),部分AI也在游戏中达到了职业级玩家水平,但它们都没法真正打赢一局完整游戏。

为了对完整游戏做一些初步研究和探索,腾讯携美国两所大学的研究人员开发了两个AI:基于扁平化动作结构的深度强化学习智能体TStarBots1和基于分层动作结构规则控制器的智能体TStarBots2。经过多次实验,现在,这两个AI都能在完整对战中击败等级1~10的游戏内置机器人(1v1虫族对抗,地图:深海暗礁