知行编程网知行编程网  2022-04-28 13:00 知行编程网 隐藏边栏 |   抢沙发  101 
文章评分 0 次,平均分 0.0

AI玩转「吃鸡」游戏,会避障导航、帮队友望风,这是强化学习训练的猎户座α

转自 | 机器之心
吃鸡类游戏很多人都玩过,但你在里面遇见过 AI 吗?最近,西山居正在研发一款名为《荣耀之海》的吃鸡类游戏,针对这款游戏,超参数科技研发了一款 3D 生存类 AI——猎户座α它通过从零开始的强化学习训练,具备了复杂 3D 环境感知、物资搜索/使用、作战、团队配合等能力。该团队的创始人是原腾讯 AI Lab 总经理刘永升,团队其他部分成员之前也参与过腾讯「绝艺」、「绝悟」游戏 AI 的研发。
AI玩转「吃鸡」游戏,会避障导航、帮队友望风,这是强化学习训练的猎户座α


《荣耀之海》是一款什么游戏?


《荣耀之海》是西山居自主研发的新一代多人在线战术竞技游戏。游戏主打时下最火热的「吃鸡」玩法,百名玩家通过海上与陆上的大逃杀决出胜者。


在游戏中,25 支四人小队通过跳伞降落到某个区域,玩家需要在海洋与岛屿间搜集武器、防具、道具等各种资源。随着游戏的进行,地图上的安全区域将逐渐缩小,战斗爆发得也更加频繁,玩家需要配合队友,通过灵活多变的海陆策略,击杀其他队伍的玩家、生存到最后。


AI玩转「吃鸡」游戏,会避障导航、帮队友望风,这是强化学习训练的猎户座α


对于 AI 来说,《荣耀之海》在环境复杂度、AI 拟人度等方面对智能体的设计提出了很大挑战。


在环境复杂度方面,目前 AI 已攻克的游戏,大部分是运行在 2D 空间内。即使是 3D 空间的 DeepMind 雷神之锤 3 AI,也是基于上世代的游戏内核,地图简单、智能体数量少。相比之下,《荣耀之海》的 3D 环境较为复杂,地图较为庞大,玩家也比较多。


在 AI 拟人度方面,从开发商和玩家的角度,AI 并不只是越强越好,还要求越像人越好。作为一款吃鸡类游戏的 AI,猎户座α必须足够像人才能激发玩家的兴趣。


猎户座α表现如何?


现阶段,超参数团队的研究聚焦于一个迷你对局(mini-game)——在 230 米*230 米岛屿上、时限 6 分钟内、组队 2V2,最终存活的一方获胜。除这些限制外,其他游戏元素与完整游戏完全相同。


研究人员发现,在这个迷你对局中,猎户座α从零开始逐渐学会了在 3D 环境中生存所需的全方位能力。


1)AI 学会了通过搜集物资和跑毒来照顾好自己:


AI玩转「吃鸡」游戏,会避障导航、帮队友望风,这是强化学习训练的猎户座α
AI 出生后会快速搜集物资,观察到毒圈外有高级物资时,选择快速出去拾取后再尽快返回安全区。


AI玩转「吃鸡」游戏,会避障导航、帮队友望风,这是强化学习训练的猎户座α
AI 具有避障导航能力,可以通过翻窗快速进出房屋搜集物资。


2)AI 也学会了通过寻找掩体、灵活走位、武器使用等方式,以及记忆等认知能力,在竞争对抗中提升自己的生存能力:


AI玩转「吃鸡」游戏,会避障导航、帮队友望风,这是强化学习训练的猎户座α
AI 在对战中会合理利用掩体,并保持灵活的走位躲避攻击。


AI玩转「吃鸡」游戏,会避障导航、帮队友望风,这是强化学习训练的猎户座α
进入肉搏后,AI 会切换为近战武器,拉开距离后再切换回远程武器。


3)AI 还学会了发挥团队配合的力量,与队友互相掩护,在不同的战斗环境中采取针对性的战略战术,最大化自身优势:


AI玩转「吃鸡」游戏,会避障导航、帮队友望风,这是强化学习训练的猎户座α
某个 AI 被击倒后,AI 队友立刻实施救援,救活后会帮忙望风等队友打药。


AI玩转「吃鸡」游戏,会避障导航、帮队友望风,这是强化学习训练的猎户座α
在团队作战中,AI 分散站位并拉开枪线,集中火力优先消灭单个敌人。


AI玩转「吃鸡」游戏,会避障导航、帮队友望风,这是强化学习训练的猎户座α
消灭敌人取得人数优势后,AI 强势冲锋,依次经过楼梯进入房间,击杀剩余敌人。



在 AI 的训练过程中,研究者还观测到了许多与人类生存进化过程相似的地方。


人类在进化过程中,先学会采集食物补充能量、应对恶劣天气,然后学会各种工具的使用,掌握记忆等高级认知能力,进而学会与族群内同伴分工合作、与其他族群竞争对抗。AI 通过多智能体的自我训练的方式,也表现出了类似的进化现象。随着训练局数的增加,AI 逐渐涌现出了物资搜集、物资使用、空间感知、认知能力和复杂策略等智能行为。

AI玩转「吃鸡」游戏,会避障导航、帮队友望风,这是强化学习训练的猎户座α
AI 的进化过程

AI 玩转「吃鸡」类游戏难在哪儿?


《荣耀之海》作为一款 3D 游戏,复杂度相比一般 2D 游戏已经上了一个台阶,而吃鸡类游戏的超大地图、百人同局等要素又进一步增加了技术难度。


总体来说,猎户座α在《荣耀之海》中面临的挑战包括以下几个方面:


实时性与长期性


玩家不仅要做出实时的操作决策,还要做出长期的规划决策,平衡兼顾两者。具体到《荣耀之海》来说,为了最终获胜,整局游戏通常需要进行 30 分钟以上,对应的决策步数在 7000 步以上。


非完美信息


围棋等棋类游戏虽然也很难,但玩家能看到完整的棋局,也就能获取决策所需的完美信息。但在这种多人竞技非完美信息游戏中,玩家只能看到一定视角范围内的信息,无法看到被障碍物遮挡住的部分。因此,玩家需要有效探索不可见的信息,并具备记忆能力。


复杂的状态空间


《荣耀之海》中的 3D 环境比 2D 环境包括更多的信息,例如带深度的复杂空间结构庞大的地图(10 公里*10 公里)、众多的玩家(100 人)、丰富的元素(大量建筑、障碍、物资等),对环境感知和探索提出了巨大挑战。


复杂的动作空间


要玩转这种「吃鸡」类游戏,猎户座α需要同时操作移动方向、视角方向、攻击、姿态(站、蹲、趴、跳)、交互(拾取、打药、换弹)等一系列操作,产生复杂的组合动作空间。据估算,离散化后的可行动作数量可以达到 10^7。


战略与战术


玩家需要对瞬息万变的环境和局势做出快速准确的判断,采取丰富的战略和战术,例如火力掩护、拉枪线、抢点、卡毒圈、封烟救援等等。


多人博弈


玩家不仅需要与队友进行密切的合作和通信,还需要与其他队伍在资源搜集、武装交火时进行对抗。与两人博弈相比,多人博弈的情况会更加复杂多变。


猎户座α是怎么做的?


不使用人类玩家数据,完全自我学习


「猎户座α」采用了深度强化学习方法,从零开始,通过与环境的交互和试错,学会观察世界、执行动作、合作与竞争策略。AI 没有使用任何人类玩家的对战数据,完全基于自我对战(self-play)的方式进行学习

使用非完美信息


AI 观测的状态信息包括玩家/物资的实体信息、深度图、雷达图、小地图,以及宏观标量信息。与人类一样,AI 观测到的状态是非完美的——即只能看到一定视角范围内的信息,看不到视野外或是被障碍物遮挡住的信息。


与直接用 RGB 图像作为特征相比,研究人员采用的方式省去了图像目标检测和识别的过程,专注在 AI 的决策过程。此外,雷达图和小地图相当于自动驾驶中的高精度地图,深度图相当于深度摄像机捕捉到的信息。

限制 AI 手速


AI 的动作输出分为移动方向、水平/俯仰朝向、身体姿态、物资拾取/使用、武器切换、攻击等任务,多个任务可以同时执行,形成巨大的复合动作空间。


人类玩家在操作时,会存在反应时间的限制,APM(每分钟操作次数)也会有上限。为了与人类一致,研究人员对 AI 也进行了相应限制。


考虑到网络传输延时、特征提取和模型预测的耗时,AI 从「观测到 1 帧状态」到「产生 1 次动作」需要 120ms 的延时。在此基础上,他们额外增加了 100ms 延时。同时,AI 每秒最多执行 4 次动作、每次最多包含 3 个动作

多个深度模型共同协作


每个智能体是一个深度神经网络模型,输入状态信息,输出预测的动作指令。研究者通过 Transformer 模型处理玩家、物资等实体信息,通过 ResNet 处理深度图、雷达图、小地图等图像信息,通过 MLP 模型处理宏观标量信息,然后通过 LSTM 模型实现记忆能力。


为实现多智能体合作,猎户座α采用了分布式的策略网络和中心式的价值网络,并引入了策略网络之间的通信机制。


AI玩转「吃鸡」游戏,会避障导航、帮队友望风,这是强化学习训练的猎户座α
AI 模型结构示意图

自研通用分布式强化学习引擎 Delta


「猎户座α」的训练在超参数自研的通用分布式强化学习引擎 Delta 上进行。该引擎通过大量弹性 CPU 资源产生训练数据,通过 GPU 资源更新神经网络模型参数,并且可以通过监控组件监控 AI 的训练过程。在该项目中,「猎户座α」训练一天相当于人类玩家打了 10 万年。该引擎可以部署在任何公有云上,目前已经支持了多款游戏的 AI 训练。


AI玩转「吃鸡」游戏,会避障导航、帮队友望风,这是强化学习训练的猎户座α
分布式强化学习引擎 Delta 架构示意图


需要指出的是,虽然猎户座α已经取得了一些进展,但目前的方案还存在诸多限制和待解决的问题。例如,AI 只能在单个岛屿上进行陆战对抗;AI 仅在 2 支队伍之间进行博弈;AI 掌握的物资和武器还比较有限。


研究人员表示,他们将逐步克服以上难题,最终让 AI 在完整地图上进行 100 人的吃鸡对战。


超参数科技是一家怎样的公司?


超参数科技是一家专注于游戏 AI 探索的初创公司,主攻机器学习、强化学习、大系统工程等领域,为游戏公司提供 AI 解决方案。获晨兴资本、 高榕资本 A 轮融资。


该公司创始人刘永升是原腾讯 AI Lab 总经理、T4 技术专家。同时,他也是腾讯围棋 AI「绝艺」、王者荣耀 AI「绝悟」团队负责人。「绝艺」曾在今年 8 月斩获世界智能围棋公开赛冠军,而「绝悟」也在今年 8 月份的吉隆坡王者荣耀最高规格电竞赛事 KPL 世冠杯半决赛中击败职业玩家联队,晋升王者荣耀电竞职业水平。


AI玩转「吃鸡」游戏,会避障导航、帮队友望风,这是强化学习训练的猎户座α
超参数科技创始人刘永升。


除了创始人之外,超参数科技的其他团队成员也有多位来自腾讯 AI Lab 和 IEG 游戏的人工智能科学家、技术骨干以及海内外顶尖院校的精英伙伴。


AI玩转「吃鸡」游戏,会避障导航、帮队友望风,这是强化学习训练的猎户座α


该公司坚信 AGI 的产生来自于对生物智能进化过程的仿真模拟,而非截面式的复制。为了更逼真地实现这种模拟,他们选择电子游戏作为实验环境,并在此过程中反哺游戏本身。


他们致力于将 AI 能力和游戏场景进行深度结合,为游戏公司提供人工智能解决方案,帮助游戏厂商提升开发效率、开启全新玩法,在游戏设计、开发、运营等多个环节创造价值。

<pre style="letter-spacing: 0.544px;"><section style="margin-right: 8px;margin-left: 8px;white-space: normal;color: rgb(0, 0, 0);font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;text-align: center;widows: 1;line-height: 1.75em;"><strong><span style="letter-spacing: 0.5px;font-size: 14px;"><strong style="font-size: 16px;letter-spacing: 0.544px;"><span style="letter-spacing: 0.5px;">—</span></strong>完<strong style="font-size: 16px;letter-spacing: 0.544px;"><span style="letter-spacing: 0.5px;font-size: 14px;"><strong style="font-size: 16px;letter-spacing: 0.544px;"><span style="letter-spacing: 0.5px;">—</span></strong></span></strong></span></strong></section><section style="white-space: normal;font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;text-align: center;widows: 1;color: rgb(255, 97, 149);"><section powered-by="xiumi.us"><section style="margin-top: 15px;margin-bottom: 25px;opacity: 0.8;"><section><section style="letter-spacing: 0.544px;"><section powered-by="xiumi.us"><section style="margin-top: 15px;margin-bottom: 25px;opacity: 0.8;"><section><section style="margin-right: 8px;margin-bottom: 15px;margin-left: 8px;padding-right: 0em;padding-left: 0em;color: rgb(127, 127, 127);font-family: sans-serif;font-size: 12px;line-height: 25.5938px;letter-spacing: 3px;"><span style="color: rgb(0, 0, 0);"><strong><span style="font-size: 16px;font-family: 微软雅黑;caret-color: red;">为您推荐</span></strong></span></section><p style="margin-right: 8px;margin-bottom: 5px;margin-left: 8px;padding-right: 0em;padding-left: 0em;min-height: 1em;color: rgb(127, 127, 127);font-family: sans-serif;font-size: 12px;line-height: 1.75em;letter-spacing: 0px;">AI有假?普林斯顿计算机教授炮轰“伪AI”<br  /></p><p style="margin-right: 8px;margin-bottom: 5px;margin-left: 8px;padding-right: 0em;padding-left: 0em;min-height: 1em;color: rgb(127, 127, 127);font-family: sans-serif;font-size: 12px;line-height: 1.75em;letter-spacing: 0px;">网传饶毅举报多位学者论文造假?官方回应了<br  /></p><p style="margin-right: 8px;margin-bottom: 5px;margin-left: 8px;padding-right: 0em;padding-left: 0em;min-height: 1em;color: rgb(127, 127, 127);font-family: sans-serif;font-size: 12px;line-height: 1.75em;letter-spacing: 0px;">阿里如何抗住90秒100亿?看这篇你就明白了!<br  /></p><p style="margin-right: 8px;margin-bottom: 5px;margin-left: 8px;padding-right: 0em;padding-left: 0em;min-height: 1em;color: rgb(127, 127, 127);font-family: sans-serif;font-size: 12px;line-height: 1.75em;letter-spacing: 0px;">深度学习必懂的13种概率分布<br  /></p><p style="margin-right: 8px;margin-bottom: 5px;margin-left: 8px;padding-right: 0em;padding-left: 0em;min-height: 1em;color: rgb(127, 127, 127);font-family: sans-serif;font-size: 12px;line-height: 1.75em;letter-spacing: 0px;">担心美国政府限制,Github考虑在华设立子公司<br  /></p></section></section></section></section></section></section></section></section>

本篇文章来源于: 深度学习这件小事

本文为原创文章,版权归所有,欢迎分享本文,转载请保留出处!

知行编程网
知行编程网 关注:1    粉丝:1
这个人很懒,什么都没写

发表评论

表情 格式 链接 私密 签到
扫一扫二维码分享