AI书房
用书来读懂AI
这里收录金京镇律师的AI、法律、产业、历史、政治、文化主题在线书。每本书都按目录、序言、章节、尾声整理,方便连续阅读。
[AI书房] 第3章 智力运动的冠军
德米斯·哈萨比斯,谷歌人工智能之父
德米斯·哈萨比斯,谷歌人工智能之父
第3章 智力运动的冠军
金京镇
1997年夏天,伦敦南岸的皇家节日大厅(Royal Festival Hall)弥漫着一种陌生的紧张气氛。国际象棋棋手、围棋高手、桥牌冠军和黑白棋大师齐聚一堂。这是第一届心智运动奥林匹克(Mind Sports Olympiad, MSO)的开幕式。
在打造一场人类智力竞技奥运会的雄心之下,国际象棋大师兼人工智能研究者大卫·利维(David Levy)、记忆训练大师托尼·布赞(Tony Buzan)以及著名国际象棋作家雷蒙德·基恩(Raymond Keene)联手策划了这场赛事。总奖金高达十万英镑,设有数十个比赛项目,来自世界各地的数百名游戏高手云集于此。其中就有二十一岁的德米斯·哈萨比斯。大赛的核心是五项全能世界锦标赛(Pentamind World Championship)。
正如奥运会田径有五项全能(pentathlon),心智运动奥林匹克也设有智力五项全能。参赛者从奥林匹克期间举办的数十个项目中选择五项进行角逐,以综合得分排定名次。但有一个条件。
不能重复选择同类游戏,而且至少必须包含一项长时间比赛项目。也就是说,不能只下五盘国际象棋,也不能只挑纸牌游戏。这一设计的目的,是为了甄选出真正的「智力全能选手」。
在五项全能中,让哈萨比斯有别于其他国际象棋选手的,不是棋艺本身,而是他每次转换到另一个项目时展现出的适应速度。围棋所要求的思维方式与国际象棋截然不同。
如果说国际象棋比的是战术计算的深度,那么围棋比的是纵览全局的形势判断和直觉。这项东方游戏的可能走法比宇宙中的原子数量还多,而哈萨比斯在围棋上达到了相当高的水准。在日本将棋(Shogi)上也是如此。将棋有一条独特的规则:
吃掉的对方棋子可以作为己方棋子重新投入棋盘,这赋予了它与国际象棋不同类型的战略复杂性。哈萨比斯在这套陌生的规则体系中也迅速跻身高手行列。扑克是在看不到对手底牌的不完全信息环境下,需要同时解读概率与心理的游戏;而外交棋(Diplomacy)则是一款没有骰子、没有纸牌,完全依靠玩家之间的谈判、结盟和背叛来决定胜负的外交策略游戏。
在外交棋的桌上,比起数学计算,读懂对手意图、赢取信任、有时又策略性地打破信任的社交智能才是关键。哈萨比斯在2004年赢得了外交棋锦标赛冠军,2006年个人锦标赛中获得第四名。从纯粹逻辑的世界到人类心理的领域,他的游戏能力谱系宽得惊人。
1998年,哈萨比斯成为第一届五项全能世界冠军。1999年、2000年、2001年,他连续卫冕。2002年因专注于自己创办的游戏公司Elixir Studios的经营而未能参赛,但2003年一回归便再次登顶。
六年间五次夺冠。这项纪录保持了二十多年未被打破。爱沙尼亚的安德烈斯·库斯克(Andres Kuusk)在2024年达成第六次夺冠,才终于超越了这一纪录。但哈萨比斯在二十多岁时取得的成就,在心智运动史上仍然占据着传奇地位。哈萨比斯五项全能夺冠的意义,不在于金牌的数量,而在于它证明了一件事:人类的智能可以不被束缚在单一领域。
国际象棋世界冠军是国际象棋之王,围棋世界冠军是围棋之王。但五项全能冠军,是无论面对哪种问题都能找到高水平解答的人。横跨逻辑游戏、概率游戏、心理游戏、策略游戏的这种能力,与哈萨比斯日后追求的通用人工智能(AGI)概念精确重合。不是只擅长一件事的狭义智能,而是可以应用于任何领域的通用思维能力。哈萨比斯用自己的身体率先证明了这种可能性。2003年,当哈萨比斯第五次举起五项全能奖杯时,心智运动奥林匹克
组委会授予了他一个称号:「史上最杰出的游戏玩家(The best games player in history)」。这并不意味着他的国际象棋最强或围棋最厉害。
这个称号的含义是:在规则各异、所需智力类型各不相同的多种游戏中,他展现出了最高水准的综合思维能力。BBC Radio 4的国际象棋节目「Across the Board」邀请哈萨比斯出席时,主持人多米尼克·劳森(Dominic Lawson)这样介绍他:「国际象棋、外交棋、将棋、扑克等众多游戏的专家」。ChessBase对他的评价是:「维基百科称他为'英国人工智能研究者、神经科学家、电脑游戏设计师、世界级游戏选手',但这些头衔仍然无法完整呈现他的真实面貌。」
证明这一评价并非夸张的,是哈萨比斯在不同项目间切换时表现出的自如。大多数游戏高手会在一个领域深耕数十年。国际象棋特级大师突然达到围棋职业水平的情况极为罕见,因为每种游戏所需的认知能力类型不同。国际象棋要求深度的战术计算(tactical calculation),围棋要求读懂全局的形势判断(positional judgment),扑克要求概率计算和心理判读,外交棋则以说服与谈判为核心。
哈萨比斯能在这些不同的认知领域之间快速切换,并在每个领域都保持高水准。这就好比在奥运会上同时让100米短跑、马拉松和游泳都进入奖牌争夺圈。哈萨比斯本人曾用「元认知(metacognition)」这个概念来解释这种能力的秘诀。
不是在玩游戏,而是在观察自己玩游戏时的思维过程。不是练习如何赢得国际象棋,而是练习如何快速吸收新游戏的规则并提炼出核心策略。在BBC采访中,有人问哈萨比斯为什么放弃了国际象棋,他这样回答:「大概是十一二岁的时候。
我知道国际象棋是一项了不起的游戏,对训练头脑很有帮助,但我觉得把一辈子倾注在国际象棋这样一个狭窄的领域里,有一种自我沉溺的感觉。我想把游戏当作'头脑的健身房(gym for the mind)',然后把在那里训练出来的技能迁移到科学或商业等其他领域。」这番话
贯穿了哈萨比斯整个智识历程的核心哲学。游戏不是目的,而是手段。游戏是探究智能运作原理的实验室。
在棋盘上预判五步、十步之后的能力本身就有价值,但理解这种能力背后「识别模式并模拟未来的机制」,对哈萨比斯来说是更大的奖赏。人脑学完国际象棋之后能不能紧接着学会围棋?为什么扑克打得好的人谈判也往往在行?在不同游戏中运作的智能,其共同结构到底是什么?这些问题在他脑中越来越清晰。心智运动奥林匹克的参赛同伴在描述哈萨比斯时,共同提到了两个特征。第一是他学习新游戏的速度。
奥林匹克每年都会新增比赛项目,哈萨比斯即使在初次接触的游戏中也能以惊人的速度跻身前列。据组委会介绍,2003年的奥林匹克上,哈萨比斯曾亲自教一位参赛者玩一款叫做Entropy的游戏。这款游戏由英国化学工程师埃里克·所罗门(Eric Solomon)发明,是从第一届开始每届都入选的唯一一个项目。第二个特征,是他对游戏的严肃分析态度。
他不仅仅享受胜利,而是不断追问:为什么这一步是好棋,为什么这个策略在这款游戏中行得通。2010年创立DeepMind时,在投资人面前宣称「我要打造通用人工智能」的这位年轻创业者,增加其可信度的不只是论文清单。「世界顶级游戏玩家要打造一个能破解游戏的AI」,这个叙事对硅谷投资者产生了强大的说服力。
彼得·蒂尔(Peter Thiel)和埃隆·马斯克(Elon Musk)决定对DeepMind进行早期投资的背后,除了哈萨比斯的学术实力,还有一份信念:这个人通过数千局对弈,已经从体验层面理解了智能的本质。奥林匹克的金牌不是履历上的装饰,而是一份证明,,「这个人懂得什么是智能」。从世界扑克系列赛(WSOP)到十项全能夺冠:不完全信息下的决策。拉斯维加斯的里约全套房酒店(Rio All-Suite Hotel),每年夏天都汇聚着全世界最敏锐的扑克头脑。
世界扑克系列赛(World Series of Poker, WSOP)始于1970年,是扑克界的奥运会,也是全球规模最大的纸牌盛事,奖金高达数百万美元。德米斯·哈萨比斯坐到了牌桌旁。
这位国际象棋大师、五项全能五届冠军,踏入了充斥着虚张声势和「bad beat」的扑克世界。扑克与哈萨比斯此前征服的游戏在根本性质上截然不同。
国际象棋和围棋是完全信息博弈(perfect information game)。两位玩家都能看到棋盘上所有棋子的位置,没有任何隐藏信息。理论上,只要有足够的计算能力,就能推导出最优解。
扑克恰恰相反。你看不到对手的牌。对手可能拿着强牌却装作很弱地下注,也可能拿着弱牌却虚张声势。
在信息不完全的情况下,必须同时进行概率推理和心理判读。哈萨比斯的扑克成绩远超业余水平。根据扑克数据库Hendon Mob的记录,他一生参加了11次现场锦标赛并获得入围奖金,累计奖金为107,902美元。
仅在世界扑克系列赛中就六次进入奖金圈(in the money),其中包括被誉为WSOP之花的主赛事(Main Event)。2008年,他还在伦敦举办的WSOP欧洲赛(WSOP Europe)中入围。单次锦标赛的最高奖金为27,192美元。
与以扑克为生的职业选手相比,这算不上一笔巨款。但一边经营游戏公司、一边从事学术研究,还能跨越六个赛季在WSOP中稳定产出成绩,这本身就证明了他的游戏智能并不局限于某一领域。哈萨比斯从扑克中获得的,是比奖金更珍贵的洞察:现实世界比起棋盘,更像扑克牌桌。
股市里的投资者无法完全知晓其他投资者的策略。医生不可能掌握患者体内正在发生的所有信息。外交官必须判断对方国家的真实意图,但对方抛出的话语就像扑克玩家的下注一样,真话与假话交织在一起。
如果智能真要做到「通用」,就不能只解决信息完备的干净问题,还必须在信息不足、对手可能欺骗的浑浊环境中做出最佳判断。哈萨比斯还挑战了比五项全能更极端的智力试炼场,,十项全能(Decamentathlon)。
必须在短短4小时内完成10项不同的测试:桥牌、国际象棋、创造性思维、西洋跳棋、围棋、智力测试、珠玑妙算(Mastermind)、记忆力、心算、黑白棋。每项满分100分,总分上限1000分。只要有一个环节薄弱,就是致命伤。
背完一副扑克牌的记忆力测试刚结束,紧接着就要解围棋题;复杂的心算做完,马上又要坐到创造性思维的试题面前。哈萨比斯在2003年和2004年连续两年赢得十项全能冠军。第一届赛事曾设有一万英镑奖金,在奥林匹克初期,这个项目甚至比五项全能更受重视。
因为它在短短四小时内同时考验人类智能的几乎所有维度:逻辑推理、记忆力、计算能力、空间感知、战略判断、创造性思维。在这样一场全方位的竞赛中登顶,说明哈萨比斯的大脑具备一种不偏向任何一端的均衡结构。经历了扑克的不确定性和十项全能的全方位挑战,这一时期成为哈萨比斯智识历程中的重要转折点。在国际象棋神童时代,他学到的是深度的力量,,
把一个问题钻研到底的专注力。在五项全能时代,他学到的是广度的力量,,快速适应不同类型问题的灵活性。而经历扑克和十项全能之后,他学到的是在不确定性中果断抉择的能力,也就是即使信息不完美也必须采取行动的勇气。这三种素质,后来在他带领DeepMind迎接一个又一个挑战时,,从雅达利游戏到围棋,从围棋到蛋白质折叠问题,,反复成为他的核心竞争力。
2014年,BBC Radio 4的主持人多米尼克·劳森问哈萨比斯:「你为什么放弃了国际象棋?」哈萨比斯想了想,回答道:
「大概十一二岁的时候吧。当时等级分比我高的只有朱迪特·波尔加(Judit Polgár),而且她的Elo等级分只比我高35分。你问我能不能成为世界第一?也许可以。但是把一个人全部的头脑和才华都用来击败另一个人,这让我觉得像是一种自我沉溺。」这段自白将哈萨比斯的整个游戏生涯压缩成了一句话。
赢得游戏对他来说从来不是终点。游戏是观察和实验智能运作原理的最高效实验室。他在那间实验室里发现的第一条原理,是强化学习(Reinforcement Learning)的核心思想。
学国际象棋时,与其死记教科书,不如亲自下棋、输棋、分析为什么输、下次尝试不同的走法,这样提升实力要快得多。在扑克中,这条原理表现得更为极端,,因为同样的局面不会出现第二次,每时每刻都必须从自己的决定中获取反馈并调整策略。这就是后来DeepMind开发的DQN(Deep Q-Network)和AlphaGo自我对弈(self-play)系统的骨架。
不是由老师告诉正确答案,而是AI自己经历无数次试错,朝着「奖励(reward)」最大化的方向学习。哈萨比斯想把自己在数万盘对局中体验到的学习过程移植给机器。第二条原理,是迁移学习(Transfer Learning)的可能性。在五项全能中,哈萨比斯体验到的是:在国际象棋中训练出的模式识别能力,在围棋中也能发挥一定作用。
国际象棋的实力当然不会自动转化为围棋的实力。但「快速理解一款新游戏的规则、从中提炼核心策略、比对手多看一步」的能力,确实可以在不同游戏之间迁移。哈萨比斯认为这就是人类智能的核心。
下过国际象棋的大脑马上就能学开车,学过外语的大脑也能学编程,,这种灵活性。将这种通用性赋予机器,成了他的终极目标。当AlphaZero用同一套算法征服了国际象棋、围棋和将棋时,那正是哈萨比斯在五项全能赛桌上萌生的梦想的机械实现。
第三条原理是「不完全信息环境下的决策」。扑克经历播下的这颗种子,在DeepMind的研究方向上留下了深深的印记。直到AlphaGo为止,DeepMind的AI处理的大多是完全信息博弈。
但现实世界的问题,,预测蛋白质的三维结构、分析气象模式、估算新药疗效,,全都建立在不完全信息之上。不可能知道所有变量,自然界就像扑克玩家一样把答案藏了起来。哈萨比斯在扑克牌桌上体验到了这一本质,而这段经历延续到了DeepMind征服「星际争霸II」的AlphaStar项目。星际争霸是一款必须在看不到对手基地的「战争迷雾(fog of war)」中实时制定策略的游戏,和扑克一样要求在不完全信息环境下做出决策。
第四条原理出乎意料,,「社交智能」的重要性。在外交棋中夺得世界团体冠军的哈萨比斯深知,有些问题光靠计算能力是解决不了的。
人与人之间的信任、合作与背叛,其动态远非数学优化所能涵盖。这段经历影响了DeepMind的组织文化和协作方式,但更根本的是,它塑造了哈萨比斯对AI局限性的认知。再强大的算法,要在人类社会复杂的博弈中运转,就必须理解人。DeepMind与NHS(英国国民健康服务)合作时陷入数据隐私争议,在谷歌这个庞然大物内部为保住研究所的自主权反复谈判协商,,说这些时刻都用得上他在外交棋局桌上磨练出的直觉,并不牵强。如果把哈萨比斯的游戏生涯画成一张图,横轴是时间,纵轴是游戏的复杂度和不确定性。
四岁开始的国际象棋,是规则清晰、信息完备的世界。Pentamind把规则的种类大幅拓宽。扑克则加入了一个全新的维度:不确定性。
外交棋引入了人类这个最难预测的变量。这条轨迹与DeepMind AI的演进路径惊人地吻合:从Atari打砖块起步,征服围棋这种完全信息博弈,再迈向星际争霸的不完全信息环境,最终挑战蛋白质折叠这一自然界的难题。哈萨比斯把自己人生中先走过的路,又让DeepMind的AI重新走了一遍。
伦敦奥林匹亚赛场、拉斯维加斯的扑克牌桌、外交棋的谈判会场,,数万小时的积累,成了设计DeepMind这个宏大工程的底层经验。哈萨比斯在2003年退出了竞技游戏,但严格来说,他并没有放下游戏。他只是换了一张更大的棋盘。
从64格的国际象棋棋盘,到19×19线的围棋棋盘,再到生命蓝图,,蛋白质结构。棋盘的尺寸变了,核心问题没变:「在这个复杂的系统里,怎样才能找到最优解?」Pentamind的奖杯和WSOP的奖金筹码,是对这个问题的第一批回答;DeepMind的算法,则是那些回答的机械延伸。童年的德米斯·哈萨比斯,手里握着棋子。
人工智能专家 金京镇 律师
AI法律政策专家 · 前国会议员 · 著有多部作品
如果这本书曾在您身边短暂停留,请支持我们,让下一个故事也能与世界见面。
(自愿赞助账户:农协 302-1096-0948-81 户名:金京镇)
