AI书房
用书来读懂AI
这里收录金京镇律师的AI、法律、产业、历史、政治、文化主题在线书。每本书都按目录、序言、章节、尾声整理,方便连续阅读。
[AI书房] 第11章 数千万次虚拟死亡
人工智能战斗机,人工智能空军
第三部 AI如何学习战斗
第11章 数千万次虚拟死亡
金京镇
高度两万五千英尺。模拟器中的虚拟天空里,一架AI操控的F-16急速俯冲。它调转机头朝敌机扑去,但速度丢得太快。机体陷入失速,随即一头栽向地面。屏幕上跳出「击坠」二字,仿真系统重置。这架AI刚刚死了。
一秒之后,它重新出现在同一片天空。再一次朝敌机猛冲过去。这回角度稍有不同,时机也略作调整。这个过程一天要重复数百万次。
一名人类飞行员要成为老手,需要数千小时的飞行积累。从空军军官学校毕业,完成基础飞行训练,通过战斗机改装教育,分配到作战部队服役几年,才算「能独当一面」。而这位飞行员一辈子能飞的时间,充其量不过两千到三千小时。身体有极限,服役期有极限,最要命的是生命有极限。摔一次,就全完了。
AI没有这些限制。在虚拟空间里,AI可以死无数次,也可以重生无数次。
2020年8月,美国国防高级研究计划局(DARPA)举办的AlphaDogfight大赛上,夺冠的Heron Systems公司AI在赛前已经打了大约40亿场虚拟空战。换算成人类飞行员的经验,相当于31年的飞行时长。Heron Systems的工程师Ben Bell这样说:「我们的AI与102个不同的智能体对战训练过,所以不管碰到什么对手,它都足够坚韧,不会崩盘。」
强化学习的原理出乎意料地简单。就像婴儿学走路一样。
没有哪个父母会对婴儿说「把膝盖弯到这个角度,重心往前移」。婴儿就是站起来摔倒、再站起来再摔倒,反反复复几百次。某个瞬间迈出了一步,父母一鼓掌,婴儿就明白了:「哦,这样做是对的。」摔了会疼,走了有人夸。AI的强化学习也是同样的道理。
刚被扔进虚拟世界的AI连飞机是什么都不知道。操纵杆怎么动、导弹什么时候发射,它一无所知。只是随机地乱试。把操纵杆往左扳一下,推一推油门,按一下机炮发射按钮。绝大多数时候不是坠毁就是被敌机击落。每当如此,系统就给AI扣分。反过来,如果咬住了敌机尾巴、机炮命中目标、或者击落了敌机,就加分。AI的目标只有一个:把总分尽可能拉高。
这里的关键在于奖励函数(Reward Function)的设计。
如果只告诉它「击落敌机」,AI可能学会不要命地猛冲、同归于尽的神风式打法。
所以工程师们必须构建非常精细的奖励体系。击落敌机的同时自己要活下来;咬住敌机六点钟方向能拿额外加分;做过激机动浪费能量要扣分;闯入民用区域要扣大分。一层一层,规则嵌套。
洛克希德·马丁公司的AlphaDogfight参赛团队请了一位退役F-16飞行员做顾问,以此设计奖励体系。飞行员几十年的实战经验,被翻译成了公式和权重。
AlphaDogfight决赛中,Heron Systems的AI以5比0完胜人类飞行员「Banger」。其中有一幕令人震惊:AI与人类正面对冲,迎头开炮。
这种机动叫「迎头炮击(Head-on Gunshot)」。人类飞行员因为对碰撞的本能恐惧,下意识就会回避这种打法。训练条例也明令禁止。可AI通过数千万次虚拟死亡,自己摸索出了答案:「在碰撞前0.1秒精确开火,我能在自己死之前先打掉对方。」这不是人类教的战术。是AI在无穷无尽的试错之后,自己找到的制胜方程式。
这个过程叫「课程学习(Curriculum Learning)」。一开始就跟老手飞行员硬碰硬,AI什么也学不到,只会不停地死。所以先从最基本的开始,学会保持平飞。然后学瞄准静止靶标。对手的难度逐步提升。到了末段,它和自己打,或者和过去的自己打。这叫「自我博弈(Self-Play)」。AlphaGo征服围棋时用的就是这
个方法。昨天的我用过的必胜策略,今天的我去破解它;明天的我再反过来利用那个破解法。如此循环,无限进化。
强化学习归根到底,起点是「可以失败的自由」。现实中的飞行员,一次失败就意味着死亡。而虚拟世界里的AI,通过数千万次死亡,蜕变为不死的存在。人类一代人才能积累的经验,AI几天就压缩完了。在时间法则截然不同的世界里受训的存在,降临到了现实。这才是AlphaDogfight中AI能碾压老牌飞行员的真正原因。AI不只是算得快,而是通过数千万次死亡,积攒了人类一辈子都不可能经历的经验总量。
