它还挑战了关于自动驾驶汽车的某些假设
为了在不失控的情况下沿着最快的“赛马线”在拐角处疾驰,赛车手必须按精确的顺序刹车、转向和加速。这个过程取决于摩擦的极限,它们受已知物理定律的约束——这意味着自动驾驶汽车可以学会以尽可能快的速度完成一圈(正如一些人已经做的那样)。但当自动司机不得不与其他汽车共享空间时,这就变成了一个棘手的问题。现在,科学家通过训练人工智能计划,在超现实的赛车游戏Gran Turismo Sport上击败人类竞争对手。这些发现可能会为自动驾驶汽车研究人员指明,以新的方式使这项技术在现实世界中发挥作用。
人工智能已经征服了某些电子游戏中的人类玩家,如《星际争霸II》和《Dota 2》。但Sony AI America总监、本周发表在《自然》杂志上的新研究的合著者Peter Wurman说,Gran Turismo与其他游戏有很大不同。他解释说:“在大多数游戏中,环境定义了规则,并保护用户相互伤害。”“但在赛车中,汽车非常接近,[AI]特工必须学习和部署一种非常精致的礼仪感。为了获胜,他们必须尊重对手,但他们还必须保留自己的驾驶路线,并确保他们不会只是让步。”
索尼人工智能研究人员使用了一种名为深度强化学习的技术。他们奖励人工智能的某些行为,例如留在赛道上,继续控制车辆和尊重赛车礼仪。然后,他们放宽了程序,尝试不同的赛车方式,使其能够实现这些目标。索尼人工智能团队训练了多个不同版本的人工智能,称为Gran Turismo Sophy(GT Sophy),每个版本都专门在一条特定轨道上驾驶一种特定类型的汽车。然后,研究人员将该项目与人类Gran Turismo冠军对立起来。在去年7月进行的第一次测试中,人类的总体得分最高。在2021年10月的第二次运行中,人工智能突破了。它单独或作为一个团队击败了人类敌人,实现了最快的圈速。
有些人喜欢将自己的智慧与人工智能对立起来。Sony AI战略和伙伴关系总监Erica Kato Marcus说:“我们也从司机那里听到的一些事情是,他们也从Sophy的策略中学到了新东西。”“人工智能使用的线路太棘手了,我可能可以做一次。但这是很困难的——我永远不会在比赛中尝试它,”Emily Jones说,她是国际汽联认证的2020年Gran Turismo锦标赛的世界决赛选手,后来与GT Sophy比赛。尽管琼斯说,与人工智能竞争让她感到有点无能为力,但她形容这次经历令人印象深刻。
Jones说:“像许多运动一样,赛车都是为了尽可能接近完美的路径,但你永远无法真正到达那里。”“有了Sophy,看到完美路径的东西真是太疯狂了。没有办法走得更快。”
索尼团队目前正在进一步开发人工智能。Wurman说:“我们为每个车道组合训练了一名特工,GT Sophy的版本。”“我们正在研究的一件事是:我们是否可以训练一项可以在游戏中任何赛道上在任何汽车上运行的单一规则?”在商业方面,索尼人工智能还与索尼互动娱乐子公司Polyphony Digital Gran Turismo的开发商合作,以潜在地将GT Sophy的版本纳入游戏的未来更新中。为此,研究人员需要调整人工智能的表现,使其成为一个具有挑战性的对手,但不是无敌的——即使对于比迄今为止测试过人工智能的冠军技能较低的玩家来说也是如此。
由于Gran Turismo提供了特定汽车和特定轨道的逼真的近似值——以及管辖每个轨道的独特物理参数——这项研究也可能在电子游戏之外有应用。人工智能研究公司OpenAI的软件工程师、在Dota 2击败人类的OpenAI Five项目的合著者Brook Chan说:“我认为其中一件有趣的作品确实将此与Dota游戏区分开来,是在基于物理的环境中。”OpenAI Five项目击败了人类。“它不在现实世界中,但仍然能够模仿现实世界的特征,以便我们训练人工智能来更多地了解物理世界。”(Chan没有参与GT Sophy研究。)
J说:“Gran Turismo是一个非常好的模拟器——它通过几种方式进行游戏化,但它确实忠实地代表了不同汽车和不同轨道的许多差异。”Christian Gerdes,斯坦福大学机械工程教授,没有参与这项新研究。“在我看来,这是与发表论文的人最接近的事情,该论文说人工智能可以在赛车环境中与人类面对面。”
然而,并非每个人都完全同意。加州大学伯克利分校运输研究所加州高级运输技术合作伙伴(California PATH)项目的研究工程师Steven Shladover说:“在现实世界中,你必须处理骑自行车的人、行人、动物、从卡车上掉下来和掉进你必须避免的事情、恶劣的天气、车辆故障等。”他也没有参与《自然》论文。“这些东西都不是出现在游戏世界中。”
但Gerdes说,GT Sophy的成功仍然有用,因为它颠覆了关于自动驾驶汽车必须编程方式的某些假设。自动飞行器可以根据物理定律或其人工智能训练做出决定。Gerdes说:“如果你看看文献中的内容——以及在一定程度上人们在路上放的东西——运动规划器在优化中往往基于物理,感知和预测部分将是人工智能。”然而,对于GT Sophy来说,人工智能的运动规划(例如决定如何在不造成崩溃的情况下接近其性能上限的拐角)是基于公式的人工智能方面。他说:“我认为自动化汽车开发商的教训是:这里有一个数据点,也许我们一些先入为主的概念——这个问题的某些部分最好在物理上完成——需要重新审视。”“人工智能可能也能在那里玩。”
Gerdes还表示,GT Sophy的成就可以为人类和自动化系统相互作用的其他领域提供经验教训。他指出,在Gran Turismo中,人工智能必须在实现赛道最快路线的难题与通常不可预测的人类平稳互动的难题之间取得平衡。Gerdes说:“如果我们确实有一个人工智能系统,可以在这种环境中做出一些复杂的决定,这可能具有适用性——不仅适用于自动驾驶,还适用于机器人辅助手术或帮助家庭周围的机器等互动。如果你的任务是人类和机器人一起移动某物,那么在某些方面,这比机器人试图自己移动要棘手得多。