AI已经成为许多电子游戏的关键元素,它让非人类玩家的盟友和对手能够根据玩家的行动进行智能决策和行动,从而让人类玩家能够体验更精彩的游戏感觉。
但随着游戏变得越来越复杂——融入了越来越逼真的物理效果,复杂的游戏机制,以及玩家对非人类的人工智能的高期望——AI已经很难跟上那些更真实场景和行为的游戏世界。这个问题对于像《Gran Turismo》系列这样的游戏来说尤其严重(这是一款赛车游戏系列,标榜自己是一款“逼真的驾驶模拟器”,并且是最畅销的PS游戏。)
现在,索尼和Polyphony Digital(《GT赛车》系列的开发者)发布了一款经过深度强化学习训练的复杂人工智能“索菲”(Sophy),经过两年的练习,它可以超越世界上最熟练的人类《GT赛车》车手。
电子赛车游戏的困难之处是什么?
与《马里奥赛车》这类卡通游戏相比,强调真实性的《Gran Turismo》给AI带来了特别的困难。在GT中,从基本的物体交互到道路状况,再到汽车和轮胎类型,真实世界驾驶的精确物理过程都被精心复制。这就给GT的AI带来了问题,这与我们在现实世界中设计AI时所面临的问题如出一辙。
赛车本质上是控制边缘驾驶汽车。估计制动点,找到最佳路线,寻找赛道上的抓地力以最大化速度和控制本身都是非常有趣的机器学习问题,但比赛意味着你不是一个人在赛道上飞驰。其他司机影响汽车的动力学,让情况更加复杂。
还有战术上的问题:在赛道上找到超越对手的路线,并考虑对手可能的反应。赛车手还需要遵守关于滑出赛道和碰撞的规则(如果个别选手被发现有过错,他们可能会受到计时处罚)。在赛车比赛中有一个公平竞争的概念——碰撞不应该被用作赢得比赛的工具,但这一原则必须与赢得比赛所必需的侵略性水平相权衡。找到正确的平衡是一个真正的挑战。
AI必须在整个比赛过程中做出那些实时决定。
该项目始于2020年4月,当时索尼成立了人工智能部门,目的是“加快人工智能的基础研究和开发,提高人类的想象力和创造力,特别是在娱乐领域。”从一开始,索尼AI就与Polyphony Digital合作开发AI驱动程序。
索尼人工智能研究人员在登上《自然》杂志封面的一篇论文中解释说:“我们使用一种新的深度RL(强化学习)算法。这种方法学习了一个策略,该策略根据情况观察选择一个行动,并评估每个可能行动的未来回报的价值函数。根据在跑道上前进的速度得到一份进度奖励,如果越界、撞墙或失去牵引力就会受到处罚。这些成形的奖励让AI能够快速地收到积极的反馈,保持在赛道上并快速驾驶。“
但“索菲“一开始并不是一名优秀的驾驶员——事实上,索尼表示,一开始人工智能几乎不能保持在赛道上的直线。不过,随着时间的推移,人工智能能够了解轨迹曲率、速度、车轮旋转和其他变量的组合会带来更好的结果。研究人员写道:“值得注意的是,‘索菲’在短短几个小时内就学会了绕跑道跑,而且比我们参考数据集里95%的人类都快。”
这一过程在数千个模拟中反复进行。这些模拟是在索尼的硬件上运行的,这些硬件通常用于云游戏(用户通过访问极低延迟的数据中心来玩游戏,而不是在本地硬件上运行游戏)。
研究人员写道:“每个GT‘索菲’在PlayStation上控制多达20辆汽车,这加快了数据收集。我们通常使用10-20台playstation从头开始训练‘索菲’,使用相同数量的计算实例和一台GPU机器来异步更新神经网络。”
由于任务的复杂性,训练过程出现了一些问题。“仅靠进程奖励不足以激励AI赢得比赛。如果对手足够快,就需要学会跟随,也能积累大量的奖励,而不会有潜在灾难性碰撞的风险。”
研究人员还必须引入不可预测的驾驶员——索菲不能只和自己比赛,否则它就无法应对不可预测的人类对手。例如,当一个人进入一个困难的弯道时,他们可能会比AI提前几分之一秒刹车。即使是在错误的时刻的一个小碰撞,也会导致对手失去对汽车的控制。
遇到困难
最终,是时候让“索菲”面对它的目标——人类了。2021年7月,索菲的研发开始一年多后,索菲与人类驾驶员之间举行了第一场比赛。在单人训练中,它已经表现出了超常的圈速——它就会超越它后面的人类。但当比赛越来越激烈时,人工智能难以处理与其他车手频繁互动的复杂性,总的来说,四人人类车队以86比70击败了索菲车队。
在第一场比赛之后,研究人员改进了训练机制,增加了网络的规模,修改了特征和奖励。
几个月后,又进行了一场比赛。这一次,结果大不相同——学习的成果得到了回报,索菲击败了对手,获得了两倍的分数(人类52分,人工智能104分)。Polyphony团队指出,AI在一场比赛中取得了惊人的成就:彻底击败对手。这与7月的比赛相比是一个巨大的进步。
当然,Sophy仍然面临着挑战。尽管Sophy展示了足够的战术技能,可以在面对面的比赛中击败人类专家,但仍有许多方面有待改进,尤其是在战略决策方面。
这有什么意义呢?
Polyphony谨慎地强调,Sophy并不是为了取代人类玩家,而是为了引导人类玩家,提升玩家与非玩家之间的竞赛,目标最终还是娱乐大众。
索尼互动娱乐设想,在未来,人工智能可以向开发者和创造者展示更多创新,并打开未被想象的机遇之门。用户粘性也会提升,并带来更好的游戏体验,吸引新一代玩家进入游戏世界。例如一名人类车手曾谈起观看“索菲”的比赛是如何激励她在赛道上尝试她之前没有考虑过的新策略的。