AI书房
用书来读懂AI
这里收录金京镇律师的AI、法律、产业、历史、政治、文化主题在线书。每本书都按目录、序言、章节、尾声整理,方便连续阅读。
[AI书房] 第11章 Atari冲击
德米斯·哈萨比斯,谷歌人工智能之父
德米斯·哈萨比斯,谷歌人工智能之父
第11章 Atari冲击
金京镇
用游戏学习的AI。2013年伦敦深夜,DeepMind狭小的办公室里弥漫着一种紧张与疲惫交织的气息。窗外是伦敦冰冷的夜色街景,但德米斯·哈萨比斯和同事们的目光,全部锁定在显示器上那些闪烁跳动的粗糙像素上。屏幕里运行的,是一台1970年代的遗物,Atari 2600游戏机。
没有华丽的画面,没有宏大的音效,只是一块粗朴的8位像素屏幕。但他们盯着看的,绝不是一款普通的复古游戏。那是人工智能的历史,不,是人类制造工具的方式发生根本性转变的瞬间。他们创造的这个人工智能代理,后来被称为DQN(Deep Q-Network),当时就像一个刚出生的婴儿。
研究团队没有教给这个AI哪怕一条游戏规则。哪个是敌机哪个是友军,分数怎么获得,甚至通关需要做什么,统统没有告诉它。AI得到的只有两样东西:一是充当人眼角色的屏幕像素信息(视觉数据),二是游戏分数(奖励)上升或下降的信号。
「把分数搞高。」这是给AI的唯一本能,唯一的指令。早期阶段的AI表现简直一塌糊涂。
屏幕里的球拍乱晃一气,飞来的球它躲都来不及,只会毫无意义地狂按按钮。比第一次摸到游戏手柄的三岁小孩还不如。但哈萨比斯和研究团队并不失望。
他们在等,等秩序从这团随机的混沌中生长出来的那个瞬间。深度学习这颗人工智能的大脑,与强化学习这套胡萝卜加大棒的机制结合到一起,他们屏息凝视,等待它真正运转起来。时间一点点过去,不可思议的事情发生了。
经过成千上万次试错,AI开始自行识别屏幕上像素的规律。「这个白点(球)往
下落的时候,把我的白色长条(球拍)移到它下面,那个叫分数的数字就会往上涨。」AI在没有任何人教导的情况下,自己推断出了因果关系。这和过去那种执行预设指令的计算机程序完全不在一个层次上。
那是「学习」。人类认识世界的方式,也就是通过经验自行领悟的过程,正在被机器重现。这一刻,哈萨比斯长久以来梦想的「通用学习算法」的可能性,得到了验证。
下国际象棋就只会国际象棋,下围棋就只会围棋,为某个特定游戏硬编码规则的AI,离开那个游戏就什么都不会。打败国际象棋冠军的深蓝,让它玩井字棋,它连规则都理解不了。但DQN不一样。玩「太空侵略者」的那套代码,不做任何修改,就能玩「Pong」,就能玩「Breakout(打砖块)」。
只是把屏幕的像素给它看,AI就自己掌握了那个世界的物理规律和游戏规则。这是人工智能从封闭世界的专家,迈向开放世界的学习者的第一步。在「打砖块(Breakout)」中,AI自己发现的穿隧策略,成了整个项目的高光时刻。
2013年,就在Google收购DeepMind之前,哈萨比斯需要通过这个演示,向拉里·佩奇和Google高管们证明DeepMind的价值。而证明的那一刻,连AI研究者自己都始料未及。训练开始大约十分钟后,DQN已经能相当熟练地接住球了。换作人类,算是个水平不错的业余玩家。
球来了稳稳接住,一块一块地敲掉砖墙。研究人员点了点头。「运行得不错,达到人类水平了。」
他们觉得这已经是足够好的成果了。但AI没有停下来。训练进行到两小时,屏幕里AI的动作出现了微妙的变化。
它不再满足于把球接住就好,而是开始用球拍边缘精准地将球弹出特定角度。四小时过后,谁都没有教过、谁都没有预料到的
画面出现了。AI执拗地集中攻击砖墙的一侧边缘。反反复复把球往同一个位置送,终于在墙壁最边上凿穿了一条垂直通道。
通道一打开,AI立刻把球送进那条窄缝。球进入砖墙背后的空间,开始在墙壁和顶部天花板之间疯狂弹射。伴随着密集的碰撞声,大片砖块瞬间哗啦啦塌落,分数呈指数级暴涨。
这就是「穿隧(Tunneling)」策略。据说只有高手才懂的秘技,AI自己摸索了出来。目睹这一幕的研究人员先是沉默,随即爆发出欢呼。
这不是在刷分。这是AI进行了「战略思考」的证据。「眼前老老实实接球更安全,但冒着风险去凿穿一侧的墙,之后能拿到巨大的回报。」
这么复杂的因果关系和长远规划,AI仅凭像素的运动和记分板的变化就领悟到了。哈萨比斯回忆这一刻时说:「就好像亲眼看到了AI在思考。」那不是程序员写进去的代码,而是数据和经验催生出的涌现式智能。
这次「穿隧」事件给了DeepMind团队坚定的信念。确信自己走的路是对的,也相信终有一天,这种智能不只能在游戏里凿穿砖墙,还能在科学难题这堵巨大的高墙上凿出一条隧道。2013年,这项成果在NIPS(现NeurIPS)深度学习工作坊上首次公开,经过补充完善后,于2015年登上了世界级科学期刊『Nature』的封面。
论文的标题是『Human-level control through deep reinforcement learning(通过深度强化学习实现人类水平的控制)』。科学界,尤其是AI圈受到的冲击,只能用「震撼」来形容。在那之前,AI学术界的主流仍然习惯于由人类精心设计规则的方式。
还有一种流行的看法认为,深度学习在图像识别这类静态任务上表现出色,但在游戏这种需要连续决策的动态环境中很难奏效。
强化学习在理论上很漂亮,但要解决现实中的复杂问题,太不稳定了。这是当时的定论。然而伦敦一家小小的创业公司,把所有成见都打碎了。这篇论文之所以令人震惊,关键在于「通用性(Generality)」。
他们做出的同一个算法网络(DQN),在Atari 2600的49款游戏中,有29款超过了人类专家的水平。拳击、弹球、太空侵略者,规则和目标完全不同的游戏,同一颗大脑全学会了。这是一个强烈的信号:AI有可能从专用工具进化为通用工具。
一篇计算机科学论文,而且是关于玩游戏的AI的论文,竟然登上『Nature』封面,这件事本身就不同寻常。它标志着AI研究已经超越了工程试验的范畴,进入了探究智能本质的自然科学领域。全世界的研究者争相分析DQN的源代码,Google则为了抢先占据这个方向,押下了巨额赌注。
Atari冲击终结了AI研究的寒冬,成为点燃深度学习黄金时代的引爆器。而这一切的中心,是哈萨比斯那句「我要破解智能」的执拗追寻。为什么是游戏? 对游戏难度与象征意义的计算。游戏不只是娱乐。
它是人类为了测量和训练智能而发明的,精巧至极的「实验室」。他常说:「游戏是现实世界的微缩模型(Microcosm)。」现实世界太复杂,噪声太多,结果出来得太慢。在现实中让AI去学炒股,或者让机器人学走路,代价高昂且充满风险。但游戏不同。安全,可以无限重复,而且目标明确(胜利或得分)。
哈萨比斯用数学方法衡量游戏的难度,据此设计了AI的进阶路线。Atari游戏是处理二维平面像素信息的阶段,用来验证视觉皮层早期的信息处理能力。
围棋(Go)是「完全信息博弈(Perfect Information Game)」的顶峰。棋盘上没有任何隐藏信息。双方看着彼此所有的落子,比拼的是纯粹的算计、直觉和模式识别能力。围棋的可能局面数比宇宙中的原子还多,因此
这是在考验AI能否征服超越计算能力的「直觉」领域。哈萨比斯的目光投向了围棋之后。现实世界不像棋盘,不会把所有信息都摊开给你看。
对方在想什么,明天天气怎样,帘子后面藏着什么,全都不知道,却必须做出决策。这就是「不完全信息博弈(Imperfect Information Game)」。扑克和星际争霸就属于这一类。哈萨比斯的计划是:用Atari证明「感知」,用AlphaGo证明「直觉」,末尾把AI推入最接近现实的不确定世界,也就是「星际争霸II」。
这不只是做一个会玩游戏的AI,而是一套必要的训练过程,目标是打造出能在充满不确定性的现实世界中提出科学假说、设计实验的AI,即「科学家AI」。征服星际争霸II(AlphaStar):不完全信息环境下的实时策略。2019年1月,DeepMind再次震动了世界。这回的舞台不是棋盘,而是即时战略模拟游戏(RTS)「星际争霸II」。
如果说AlphaGo是静态回合制游戏的王者,那么「AlphaStar」必须成为在瞬息之间做出数百个决策的动态战场指挥官。星际争霸II对AI来说堪称噩梦级课题。第一,存在「战争迷雾(Fog of War)」。
玩家只能看到自己单位所在的区域。对手在建什么,兵力往哪调,一概看不见。所以AI必须不断通过侦察(Scouting)收集情报,对看不见的对手行为进行预测和推理。这是一种在信息不足的条件下建立假说并加以验证的高级智能行为。
第二,「实时(Real-time)」的压力。围棋允许你思考下一步,星际争霸却一刻不停地推进。第三,长时间跨度(Long time horizon)的问题。开局多造一个农民的决定,可能在二十分钟后左右一场大规模战斗的胜负。
AI必须看到数千、数万帧之后的未来,计算当前行为可能引发的蝴蝶效应。
AlphaStar以压倒性的优势击败了职业选手TLO(Dario Wünsch)和MaNa(Grzegorz Komincz)。人们猜测AlphaStar是靠惊人的鼠标点击速度(APM)取胜的,但DeepMind把AI的点击速度限制在了人类水平。AlphaStar展现出来的不是反应速度。
而是令人脊背发凉的「判断力」。AlphaStar通过侦察掌握对手的体系,随即灵活调整兵种搭配。劣势时果断撤退,一旦发现对手破绽就毫不犹豫地扑上去。
与MaNa对局中展现的「闪烁追猎者」操作精准到人类无法模仿,但更惊人的是它对整个战场的战略视野。当然也有局限。MaNa在AlphaStar视野之外持续骚扰时,AlphaStar一度显得手忙脚乱。
但DeepMind很快做了修正,AlphaStar最终达到了宗师(Grandmaster)级别。对哈萨比斯而言,AlphaStar的胜利是一个有力的证据:AI能够在不确定、复杂且瞬息万变的环境中,也就是「现实世界」中,制定复杂战略并达成目标。Atari Breakout(打砖块)游戏画面
人工智能专家 金京镇律师
AI法律政策专家 · 前国会议员 · 著有多部专著
如果这本书曾在你身边短暂停留,请支持我们,让下一个故事也能与世界见面。
(自愿赞助账户:农协 302-1096-0948-81 户名:金京镇)
