AI书房
用书来读懂AI
这里收录金京镇律师的AI、法律、产业、历史、政治、文化主题在线书。每本书都按目录、序言、章节、尾声整理,方便连续阅读。
[AI书房] 第14章 AlphaGo Zero与AlphaZero
德米斯·哈萨比斯,谷歌人工智能之父
德米斯·哈萨比斯,谷歌人工智能之父
第14章 AlphaGo Zero与AlphaZero
金京镇
不看棋谱、自主学习的AlphaGo Zero,从一张白纸开始,仅用三天就以100比0碾压了AlphaGo。2017年,伦敦国王十字车站附近的DeepMind总部,David Silver的显示器前弥漫着一种诡异的寂静。就在一年前,在首尔与李世石九段展开世纪对决的AlphaGo Lee,是一个吞噬了数十万张人类棋谱才成长起来的庞大智能体。然而此刻,Silver和哈萨比斯正注视着的新版本「AlphaGo Zero」,它的起点是彻底的「无」。
他们不需要人类的帮助。不,应该说,他们提出了一个大胆的假设:人类的知识反而可能成为限定人工智能上限的杂质。哈萨比斯在批准这个项目时,向研究团队下达了一条指令:不要输入哪怕一条数据。
AlphaGo Zero被给予的,只有棋盘大小和胜负条件这些最基本的规则。就好比一个从出生起从未见过围棋的孩子,第一次坐到了棋盘前。第一颗棋子落下了。
毫无章法。它把棋子下在毫无意义的位置,自己筑起棋形又亲手拆掉。初始阶段的AlphaGo Zero,表现还不如一个围棋初学者。
这个随机落子、连输赢都判断不了的粗糙神经网络,真的能超越击败过人类最强棋手的前辈模型吗?怀疑在所难免。学习启动三小时后,令人吃惊的变化出现了。原本随机落子的系统,开始渐渐领悟如何将棋子连接起来。
人类花了数千年才确立的定式基础,它自己发现了。36小时过去,气氛变了。因为AlphaGo Zero已经超越了那个曾以4比1击败李世石九段的版本的实力。它没有学过任何人类的知识,
仅仅通过与自己的对弈,就突破了人类围棋的巅峰。最令人震惊的结果出现在学习开始后72小时,也就是第三天。DeepMind研究团队让学习了三天的AlphaGo Zero与李世石版本对阵。
结果是残酷到极点的一边倒。100比0。一盘都没有输。而且AlphaGo Zero使用的计算资源,远远少于那个为了与李世石九段对局而训练和调优了数月的旧版本。
旧版本使用48块TPU进行分布式运算,AlphaGo Zero只用了4块TPU。用更少的资源、更短的时间、不借助一条人类数据,却取得了完胜。这件事堪称「智能的独立宣言」。
此前的人工智能,停留在模仿人类已有数据模式的水平。ChatGPT之类的语言模型,归根结底也是在学习互联网上的文本。但AlphaGo Zero走出了人类经验世界的边界。
哈萨比斯后来回顾说:「我们一直被困在人类知识的边界之内。」让AI学习人类棋谱,意味着连人类犯的错误和偏见也一并灌输进去。抛弃了人类数据之后,AlphaGo Zero得以更加逼近人类未曾触及的真理,或者说更接近「棋神」的落子。
三天,这个时间本身就充满象征意味。人类发明围棋后用三千年堆砌起来的智慧之塔,硅芯片中的算法仅用72小时就重建并超越了。这成为哈萨比斯通往AGI之路上的一座关键里程碑。
因为它证明了一种可能性:在人类数据稀缺甚至完全缺失的领域,比如发现新材料、破解疑难疾病的蛋白质结构,AI也能自行找到解决方案。100比0这块记分牌,是一声信号弹,宣告智能的范式已从「模仿」转向「发现」。自我对弈(Self-play)达到超人水平的意义。解释AlphaGo Zero成就的核心关键词,是「自我对弈(Self-play)」。
可以将它比作一位孤独的修行者,不停地与镜中映出的自己交锋。传统的机器学习方式,即
监督学习(Supervised Learning),好比老师把正确答案告诉学生。「在这种局面下,落在这里比较好」,人类高手的棋谱就是这样教的。但自我对弈不同。没有老师,也没有教科书。
存在的只有「赢」这一个目标。这个展示了强化学习(Reinforcement Learning)精髓的过程,残酷得近乎朴素。A号AlphaGo执黑,被复制出的B号AlphaGo执白。两者激烈厮杀。胜负分出后,赢方的策略被强化,输方的策略被修正。
变得更聪明一点的AlphaGo再次与自己对弈。这个过程重复几百万次、几千万次。今天的我击败昨天的我,明天的我又将击败今天的我,在这种螺旋式的竞争中不断拔高实力。这种方式蕴含的哲学意义是深沉的。
哈萨比斯称之为「白板(Tabula Rasa)」,即从一块空白石板开始的学习。正如约翰·洛克主张人的心灵生来如同白纸,AlphaGo Zero也是从白纸状态出发的。这使得AI不受人类习惯和固有观念的束缚,能够建立独创性的策略。
AlphaGo Zero在学习过程中确实发现了人类视为定式的着法,但一旦超过某个水平,它就抛弃了那些定式,开始下出全新的棋。人类数千年来断定「那是恶手」的着法,事实上被证明是更高维度的妙手。从技术角度看,AlphaGo Zero实现了将两个神经网络合而为一的创新。
之前的版本将预测下一手的「策略网络(Policy Network)」和判断当前局势的「价值网络(Value Network)」分开训练。但AlphaGo Zero把两者整合成了一个巨大的神经网络。这与人类顶尖棋手大脑的运作方式类似:直觉与计算并非分离,而是同时发生。
通过一次思考过程同时判断落子位置和自身优劣,效率被推到了极致。
蒙特卡洛树搜索(MCTS)这一搜索算法也与神经网络结合得更加紧密。此前需要大量运行随机模拟,而AlphaGo Zero的神经网络直觉极为出色,不必下到终局就能预测胜负。这与人类棋手「一眼看出这里是急所」的感觉,在数学层面几乎等价。
自我对弈达到超人水平这件事,给科学界带来的冲击远不止「出现了一台会下棋的机器」。它看起来像是在预告「数据时代的终结」。大数据时代里,人们说数据是新石油。
Google和Facebook这样的企业深信,垄断数据就是权力。但AlphaGo Zero证明了:在没有数据的地方,智能同样可以爆发。只要规则明确,AI就能自行生成数据,用这些数据训练自己,直至超越人类。
这对那些人类终极想要解决的科学问题来说是一个振奋人心的信号,比如新药研发或核聚变控制。这些领域要么缺乏优质数据,要么实验成本极其高昂。如果AI仅凭在虚拟环境中的自我模拟就能找到最优分子结构或等离子体控制方法,科学进步的速度将呈几何级数加快。AlphaGo Zero的自我对弈虽然发生在棋盘上,但它的回响远远越过了实验室和研究所的围墙,成为一场探测人类智能延展可能性的宏大实验。
AlphaZero:一套系统掌握多个领域。2017年末,DeepMind实验室的气氛再次被一种安静的兴奋所笼罩。AlphaGo Zero征服围棋之后,哈萨比斯和David Silver提出了一个根本性的问题:「这个算法是不是只对围棋有效?」如果是,那就不算真正意义上的智能。
真正的智能必须具备通用性(Generality)。要能用一套原理解决多种问题。他们开始从AlphaGo Zero的算法中剥离「围棋」这一特殊性。
棋盘的旋转对称性、围棋特有的规则,统统从代码中删除。空出来的位置被填入更抽象、更通用的学习结构。由此诞生的,就是「AlphaZero」。
这一次的挑战对象,是被称为棋盘游戏「三巨头」的围棋、国际象棋和日本将棋。这三种棋的性质截然不同。围棋是落子游戏,国际象棋和将棋是走子游戏。将棋允许重新使用吃掉的棋子,变化数比国际象棋更为复杂。
过去的AI需要为每种棋分别调优算法。国际象棋引擎要嵌入国际象棋的专属知识,围棋程序要内置围棋的目数计算法。但AlphaZero宣告:仅用一套算法、一种神经网络架构,就要拿下这三种棋。
实验开始了。结果不只是惊叹,几乎令人恐惧。AlphaZero从白纸状态开始学习,仅四个小时,就超越了当时世界上最强的国际象棋引擎「Stockfish」。
Stockfish是人类开发者历经数十年,将国际象棋的所有知识精心打磨成代码的产物,是名副其实的「国际象棋机器」。面对每秒计算7000万步棋的Stockfish,AlphaZero每秒只计算8万步,却赢了。不是靠蛮力计算(Brute-force),而是凭直觉和战略判断力碾压了对手。
将棋也一样。世界冠军程序「Elmo」在两小时内被击败。围棋方面,AlphaZero用八小时就超越了前作AlphaGo Zero。
不到24小时,人类创造的三种最复杂的棋盘游戏,被同一套算法征服了。这足以载入人工智能史上最重要的时刻之列。它证明了:即使不由人类手工设计特征(Feature Engineering)去适配某个问题,AI仅凭通用学习能力就能成为该领域的最强者。
哈萨比斯如此形容:「这就像用同一套算法在不同的宇宙间旅行。」围棋的宇宙、国际象棋的宇宙、将棋的宇宙,AlphaZero在每一个宇宙中自行领悟了各自的物理法则,并成为那个世界的统治者。传奇国际象棋冠军加里·卡斯帕罗夫看了AlphaZero的棋谱后感叹不已:「我们以为机器下的棋一定是冰冷的、机械的。
但AlphaZero下出的棋,像是外星人在下,充满创造力,有时甚至带着浪漫气息。」
AlphaZero不像传统引擎那样看重棋子的分值,而是为了获取长期的位置优势,大胆弃子。这是人类直觉与机器精确度的融合,或者说是超越了两者的全新智能形态。AlphaZero不只是赢了棋,它重写了下棋的「方法」本身。
通往AGI的试验台(Test-bed)。世界为AlphaGo和AlphaZero的胜利欢呼,但德米斯·哈萨比斯的目光一直投向棋盘之外。在媒体采访和演讲中,他几乎不厌其烦地反复说:
「我们的目标不是做一个擅长下棋的AI。游戏只是试验台(Test-bed)。」这句话最能体现DeepMind的本质。为什么偏偏选游戏?对哈萨比斯来说,游戏是现实世界的缩影,是最安全、最高效的实验室。
现实世界太复杂,噪音太多。结果难以衡量,实验也不可能无限重复。让机器人在真实环境中学习摔倒,机器人会摔坏。为了测试气候模型,总不能把地球搞垮吧。
游戏规则明确、胜负目标清晰,更关键的是,可以在虚拟空间中进行无限快速的模拟。哈萨比斯从自己少年时代做国际象棋冠军和电子游戏开发者的经历中,本能地知道游戏是测量和训练智能的最佳工具。AlphaZero完美验证了这个「试验台」理论。
围棋、国际象棋、将棋是三种规则各异的复杂系统。如果一套算法能够解读这些迥然不同的系统并找到最优解,那么这套算法也应当能应用于游戏之外的其他复杂系统。这正是通向AGI的核心钥匙。
哈萨比斯确信,AlphaZero所展现的「通用学习能力」,可以直接应用于蛋白质折叠(Protein Folding)和新材料发现等科学难题。AlphaZero项目圆满收官后,DeepMind的核心人才大批转入了科学项目。
曾经解读棋盘棋形的神经网络,开始阅读氨基酸序列。曾经预测棋子走法的搜索算法,被用来模拟蛋白质在三维空间中如何折叠。没有AlphaGo和AlphaZero,带来诺贝尔奖的「AlphaFold」就不可能诞生。在游戏中积累的强化学习与蒙特卡洛树搜索技术,以及「不借助人类知识也行」的信心,被迁移到了科学领域。
许多人记住AlphaGo时,只把它当作「会下围棋的机器」。哈萨比斯看到的却是「通用问题求解器」的原型。他将DeepMind的使命定义为「破解智能(Solve Intelligence)」,而AlphaZero从数学和实证两个层面证明了:该使命的第一步,即「通用算法」,是可行的。游戏结束了。
但从这些游戏中锤炼出的智能,已经开始走出实验室,去应对现实世界中真正的难题。MuZero: 连规则都自己学的AI,自主构建环境模型的基于规划的学习。AlphaGo Zero和AlphaZero取得了惊人的成就,却始终有一个致命的局限,那就是「已知规则」这一前提。围棋、国际象棋、将棋,游戏规则都被完整地定义好了。
棋子能落在哪里、棋子怎么走,这些都提前告诉了AI。这叫做「完全信息博弈(Perfect Information Game)」。但哈萨比斯眼中的现实世界不是这样的。我们活了一辈子,没有人递给过我们一本规则说明书。
股市的涨跌、天气的变化、人际关系的微妙博弈,统统没有明确的规则手册。在不知道规则的情况下依然能学习、能做规划,这才是真正的AGI。2019年,DeepMind为了攻克这道难关,向世界推出了「MuZero」。
MuZero最大的特点是:连游戏规则都不告诉它。给它看棋盘,但不说棋子该怎么下、怎样才算赢,甚至连这是围棋还是国际象棋都不透露。MuZero只能看着屏幕上的像素(Pixel)信息,自己去领悟这个世界运转的道理。
这之所以成为可能,是因为MuZero开辟了「基于模型的强化学习(Model-Based Reinforcement Learning)」的新境界。过去的AI看到眼前的画面就直接做出行动决策。MuZero不一样,它像人一样会「想象」。
人到了一个陌生的地方,不会去计算所有的物理定律。而是在脑子里跑一个简化的模型:「往这边走应该有路吧?」「下雨的话地面会滑吧?」MuZero也是一样。它不去处理环境中所有复杂的信息,而是把决策所需的核心要素抽象出来,构建属于自己的「内部模型(Internal Model)」。在这个内部模型里,MuZero自问自答三个问题。
第一,「现在的状态是什么?」(State)。第二,「我做某个动作之后,状态会怎么变?」(Dynamics)。第三,「那个状态对我来说有多好?」(Value)。令人震惊的是,MuZero学到的这个内部模型并不需要和真实的游戏规则完全一致。比如玩雅达利(Atari)游戏时,背景里的云怎么飘和分数毫无关系。MuZero只关注对得分至关重要的信息,比如「角色的位置」和「障碍物」,其余的一概忽略。
这和人类认知世界时过滤掉无关信息的方式如出一辙。靠着自学规则,MuZero不仅在围棋、国际象棋、将棋上表现超群,还在57款雅达利电子游戏中展现了超人级的水准。一个算法同时征服了需要战略规划的棋盘游戏和依赖视觉反应的电子游戏,这件事本身就令人震撼。
在这之前,擅长「规划(Planning)」的算法(AlphaGo系列)和擅长「反应(Reacting)」的算法(DQN系列)是分开的两条路,MuZero把它们合二为一了。在规则未知的混沌中找到秩序、模拟未来,这种能力最接近智能的本质,一种必须在野生环境中求存的智能。
Nature论文发表与通用学习的新地平线。2020年12月,世界顶级科学期刊《Nature》刊登了关于MuZero的论文,题为《Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model》。这篇论文在人工智能研究者中间获得了「找到了强化学习的圣杯(Holy Grail)」的评价。这篇论文的意义在于:它宣告AI已经成为可以应用于「现实世界(Real World)」的最强工具。
哈萨比斯一直说:「现实比游戏要混乱(messy)得多。」优化YouTube视频压缩算法,或者让自动驾驶汽车穿过复杂的十字路口,这些问题不像围棋那样有明确的规则。在瞬息万变的环境里,得先推断出规则,再从中规划最优路径。
MuZero恰好在这一点上大放异彩。Google将MuZero的算法应用到了YouTube的视频传输系统中。在网络状况不稳定的真实互联网环境下,MuZero无需学习任何规则,就自行优化了流量分配,成功提升了视频画质并减少了缓冲。
这是为游戏开发的AI被用来应对真实产业场景中不确定性的第一批重大案例之一。MuZero还展示了「表征学习(Representation Learning)」的进化。人看到苹果时不会去看它的分子结构,而是用「红色的圆形水果」这个概念来认知。MuZero也一样,它不直接使用输入的原始数据(像素),而是将其转化为对决策有用的「隐状态(Hidden State)」加以存储。
这被认为是为AI具备人类式的抽象思维能力铺平了道路。对哈萨比斯来说,MuZero既是AlphaGo系列的终章,也是一个全新的起点。AlphaGo展示了「直觉」,AlphaGo Zero展示了「原创性」,AlphaZero展示了「通用性」,而MuZero展示的是「适应性」。
无论被丢到多么陌生的环境里,都能自己学会规则、活下来、达成目标。这一刻,DeepMind在其「破解智能」的使命中,揭示了「智能的核心机制」。MuZero的成功给DeepMind注入了巨大的信心。蛋白质结构预测、气候变化预测、核聚变控制,乃至数学难题的求解,规则未知
的未知领域,也就是「自然(Nature)」这张巨大的棋盘,DeepMind已经准备好踏上去了。MuZero不是Game Over,而是Science Start的信号弹。在那条路的尽头,2024年的诺贝尔奖正等候着他们。AI与国际象棋: AlphaZero的世界
人工智能专家 金京镇律师
AI法律政策专家 · 前国会议员 · 著作等身
如果这本书曾在你身边短暂停留,请支持我们,让下一个故事得以问世。
(自愿赞助账户: 农协 302-1096-0948-81 户名: 金京镇)
