AI书房

用书来读懂AI

这里收录金京镇律师的AI、法律、产业、历史、政治、文化主题在线书。每本书都按目录、序言、章节、尾声整理，方便连续阅读。

书籍式阅读

Codex 37个具体使用案例

金京镇律师

从晨间简报到智能体群：37个真实工作自动化案例

这份指南汇集了37个把Codex和AI智能体接入真实工作的做法，覆盖个人事务、数据处理、营销、销售、文档、开发和浏览器控制。

从目录开始阅读

16篇公开

2026北京：两个巨人的危险之舞

金景珍律师

特朗普-习近平峰会，以及其中发生的事. 目录、序言、13章、结语

本书从霍尔木兹、稀土、台湾、波音、大豆、AI芯片这些场景，追踪特朗普的北京之行。

从目录开始阅读

27篇公开

把工作交给AI，然后离开座位

金京镇律师

YOLO模式完全入门. 目录和26章

一本面向初学者的在线书，讲解Claude Code和Codex中的YOLO模式。它说明如何让AI读取文件、编写代码、执行命令，并把回退、Docker沙盒和安全检查放在手边。

12篇文章

《AI向人类提出的10个问题》

金京镇

目录、序言、10章

《AI向人类提出的10个问题》是金京镇在AI书房公开的在线书。本书围绕AI责任、全球监视、人工智能武器、深度伪造、工作消失、能源、数据和人类身份，整理人工智能正在逼问人类的十个问题。

26篇文章

《人工智能AI走上法庭》

金京镇律师

目录、序言、21章、3篇附录

《人工智能AI走上法庭》是金京镇律师在AI书房公开的在线书。本书从生成式AI训练数据、版权、声音克隆、深度伪造、自动驾驶、医疗和金融算法等争议出发，整理人工智能进入法院之后正在形成的法律前线。

16篇文章

《人工智能与社会结构变迁》

金京镇

目录、序言、13章、尾声

《人工智能与社会结构变迁》是金京镇在AI书房公开的在线书。本书从劳动、教育、不平等、城市、能源、网络安全、人际关系和民主制度出发，记录AI正在改写社会结构的过程。

39篇文章

《2026年美国伊朗战争与全球能源危机》

金京镇

目录、序章、36章、尾声

《2026年美国伊朗战争与全球能源危机》是金京镇在AI书房公开的在线书。本书从霍尔木兹海峡、海上保险、石油价格、液化天然气、粮食、美元秩序和韩国能源安全出发，追踪一场战争如何改变全球能源流动。

34篇文章

《德米斯·哈萨比斯，谷歌人工智能之父》

金京镇

目录、序言、31章、尾声

《德米斯·哈萨比斯，谷歌人工智能之父》是金京镇在AI书房公开的在线书。本书沿着哈萨比斯从伦敦童年、国际象棋、游戏开发、脑科学、DeepMind、AlphaGo到AlphaFold的道路，记录人工智能如何进入科学发现的核心。

24篇文章

Nano Banana Pro实战提示词手册

金京镇

6部、22章、课堂提示词附录

这本在线书围绕Nano Banana Pro的图像生成、编辑、文字渲染、角色一致性、工作场景和变现方法展开，方便课堂和实际工作直接使用。

共17篇公开

军事人工智能

金京镇、金元泰

目录、序言、14章、尾声

一部系统梳理军事人工智能的长篇著作，涵盖自主武器、无人机、指挥控制、后勤、网络防御，以及美国、中国、以色列、韩国和全球国防AI企业的战略与实践。

21篇文章

《读脑者：Neuralink与人类最后的革命》

金京镇

目录、序章、18章、尾声

《读脑者：Neuralink与人类最后的革命》是金京镇在AI书房公开的在线书。本书追踪Neuralink、脑机接口、脑数据、医疗革命、神经权利和人类增强，记录人类大脑开始连接机器之后的法律与文明问题。

24篇文章

《格鲁吉亚历史文化旅行》

金京镇

目录、序言、17章、4篇附录、尾声

《格鲁吉亚历史文化旅行》是金京镇在AI书房公开的在线书。本书从第比利斯、卡赫季、卡兹别克、高加索雪山、八千年葡萄酒、东正教、民主化、战争和旅行路线出发，记录格鲁吉亚的历史与现实。

13篇文章

《一千个祈祷，一座山：读懂亚美尼亚》

金京镇

目录、序言、10章、尾声

《一千个祈祷，一座山：读懂亚美尼亚》是金京镇在AI书房公开的在线书。本书从亚美尼亚高原、亚拉腊山、古代王国、世界第一个基督教国家、中世纪修道院、现代悲剧、离散社群和旅行指南出发，阅读亚美尼亚。

共13篇公开

从卖茶少年到总理

金京镇

目录、序言、10章、尾声

一部政治传记，追踪纳伦德拉·莫迪从瓦德讷格尔卖茶少年、RSS组织者、古吉拉特邦首席部长到三任印度总理的轨迹，并由此理解现代印度、韩印关系与崛起大国的风险。

23篇文章

《马来西亚：掌控马六甲海峡者掌控世界》

金京镇

目录、序言、20章、尾声

《马来西亚：掌控马六甲海峡者掌控世界》是金京镇在AI书房公开的在线书。本书从马来半岛、马六甲王国、殖民地、联邦君主制、法律制度、城市旅行和产业结构出发，阅读马来西亚的地缘价值。

13篇文章

《韩东勋留给韩国的那些痕迹》

金京镇

目录、12章

《韩东勋留给韩国的那些痕迹》是金京镇在AI书房公开的在线书。本书围绕韩东勋、韩国政治、法务部、检察改革、政治记录和受害者救济，整理他在韩国社会与国家制度中留下的公共足迹。

8篇文章

《AI霸权战争》

金京镇

目录、7章

金京镇AI书房在线图书，讨论AI超智能、美中技术竞争、欧洲和韩国AI法律以及国际AI治理。

26篇文章

《AI课堂，成绩将会改变》

金京镇

目录、序言、24节

金京镇AI书房在线图书，说明AI如何支持小学、初中、高中学习、教学、评价和教育公平。

16篇文章

《PALANTIR：战争、监视与人工智能》

金京镇律师

目录、序言、14章

《PALANTIR：战争、监视与人工智能》是金京镇律师在AI书房公开的在线书。本书从PayPal黑帮、9·11之后的情报失败、乌克兰战场、五角大楼改革和预测性治安出发，追踪数据公司如何进入国家安全与企业决策的核心。

28篇文章

法句经423偈

金京镇

目录、编者说明、26品、423偈

金京镇AI书房在线图书。此版本将《法句经》423偈整理为26品，以接近诗集的节奏慢慢阅读。

共39篇公开

超越玻璃天花板

金京镇

目录、序章、31章、尾声、5篇附录

一部追踪高市早苗从奈良成长、进入政坛、三次挑战自民党总裁并成为日本首位女性首相的政治传记。

39篇文章

《韩东勋的故事》

金京镇

目录、序章、36章、尾声

《韩东勋的故事》是金京镇在AI书房公开的在线书。本书从戒严之夜、检察官生涯、法务行政、政治选择、民生现场和个人面貌出发，记录韩东勋在韩国公共生活中的轨迹。

14篇文章

人工智能选举

金京镇

目录、作者序、11章、结语

这本在线书写竞选信息、宣传材料、数字竞选、数据分析、团队运营、虚假信息防御、法律风险和可直接使用的提示词。

43篇文章

《人工智能战斗机，人工智能空军》

金京镇

目录、序言、40章、尾声

《人工智能战斗机，人工智能空军》是金京镇在AI书房公开的在线书。本书围绕AI战斗机、无人作战飞机、CCA、MUM-T、第六代战斗机和未来空军，记录人工智能正在怎样改变空战、国防产业和军事伦理。

22篇文章

山姆·奥特曼传：人工智能革命的开拓者

金京镇、金京兰

目录、序言、7部、20章

这本在线传记写山姆·奥特曼的成长、创业、Y Combinator、OpenAI、ChatGPT、董事会风波，以及他在人工智能时代承担的责任。

10篇文章

关于北极航道的七个误解

金京镇

目录、序言、7章、尾声

金京镇AI书房在线图书，梳理关于北极航道的速度、定期航线、保险、安全规则、全年通航、碳减排和基础设施的七个常见误解。

25篇文章

《世界各国在行政领域引入人工智能的案例》

金京镇

目录、23章、尾声

金京镇AI书房在线图书，介绍公共部门AI导入、各国战略、行政服务、治理框架与未来政策课题。

11篇文章

《Claude Cowork与智能体使用手册》

金京镇

目录、序言、8章、尾声

《Claude Cowork与智能体使用手册》是金京镇在AI书房公开的在线书。本书整理文件整理、财务数据、营销销售、研究、沟通、人事法务、软件开发和系统联动自动化场景。

41篇文章

《Claude Code完全掌握》

金京镇

目录、40章

《Claude Code完全掌握》是金京镇在AI书房公开的在线书。本书围绕Claude Code、智能体工作流、MCP、技能、部署、GitHub、自动化和商业化，整理把AI从聊天工具变成工作系统的方法。

16篇文章

《黄仁勋的故事》

金京镇

目录、序言、13章、尾声

《黄仁勋的故事》是金京镇在AI书房公开的在线书。本书沿着黄仁勋的移民经历、NVIDIA创业、GPU革命、CUDA生态、AI工厂和物理AI，记录一位企业家如何站到人工智能产业的中心。

16篇文章

法律实务与人工智能

金京镇

目录、序言、14部

金京镇AI书房在线图书，从律师实务角度整理法律检索、文书起草、证据分析、合同审查、NotebookLM以及生成式AI工作流程。

10篇文章

您好，我是金京镇

金京镇

目录、序言、推荐语、6章、结语

金京镇AI书房在线图书。内容涵盖成长经历、科技议政活动、议员外交、立法斗争、东大门愿景以及韩国人口断崖的解决方案。

25篇文章

政治与人

金京镇

目录、序言、22章、后记

金京镇在AI书房公开的在线书，讲述政治如何从读懂人、赢得信任、守住关系和经受危机开始。

[AI书房] 第14章 AlphaGo Zero与AlphaZero

德米斯·哈萨比斯，谷歌人工智能之父

Author

金京镇

Date

2026-05-06 11:11

Views

德米斯·哈萨比斯，谷歌人工智能之父

第14章 AlphaGo Zero与AlphaZero

金京镇

← 上一章第13章 2016年对阵李世石九段目录查看全书章节下一章 →第15章蛋白质折叠问题

不看棋谱、自主学习的AlphaGo Zero，从一张白纸开始，仅用三天就以100比0碾压了AlphaGo。2017年，伦敦国王十字车站附近的DeepMind总部，David Silver的显示器前弥漫着一种诡异的寂静。就在一年前，在首尔与李世石九段展开世纪对决的AlphaGo Lee，是一个吞噬了数十万张人类棋谱才成长起来的庞大智能体。然而此刻，Silver和哈萨比斯正注视着的新版本「AlphaGo Zero」，它的起点是彻底的「无」。

他们不需要人类的帮助。不，应该说，他们提出了一个大胆的假设：人类的知识反而可能成为限定人工智能上限的杂质。哈萨比斯在批准这个项目时，向研究团队下达了一条指令：不要输入哪怕一条数据。

AlphaGo Zero被给予的，只有棋盘大小和胜负条件这些最基本的规则。就好比一个从出生起从未见过围棋的孩子，第一次坐到了棋盘前。第一颗棋子落下了。

毫无章法。它把棋子下在毫无意义的位置，自己筑起棋形又亲手拆掉。初始阶段的AlphaGo Zero，表现还不如一个围棋初学者。

这个随机落子、连输赢都判断不了的粗糙神经网络，真的能超越击败过人类最强棋手的前辈模型吗？怀疑在所难免。学习启动三小时后，令人吃惊的变化出现了。原本随机落子的系统，开始渐渐领悟如何将棋子连接起来。

人类花了数千年才确立的定式基础，它自己发现了。36小时过去，气氛变了。因为AlphaGo Zero已经超越了那个曾以4比1击败李世石九段的版本的实力。它没有学过任何人类的知识，

仅仅通过与自己的对弈，就突破了人类围棋的巅峰。最令人震惊的结果出现在学习开始后72小时，也就是第三天。DeepMind研究团队让学习了三天的AlphaGo Zero与李世石版本对阵。

结果是残酷到极点的一边倒。100比0。一盘都没有输。而且AlphaGo Zero使用的计算资源，远远少于那个为了与李世石九段对局而训练和调优了数月的旧版本。

旧版本使用48块TPU进行分布式运算，AlphaGo Zero只用了4块TPU。用更少的资源、更短的时间、不借助一条人类数据，却取得了完胜。这件事堪称「智能的独立宣言」。

此前的人工智能，停留在模仿人类已有数据模式的水平。ChatGPT之类的语言模型，归根结底也是在学习互联网上的文本。但AlphaGo Zero走出了人类经验世界的边界。

哈萨比斯后来回顾说：「我们一直被困在人类知识的边界之内。」让AI学习人类棋谱，意味着连人类犯的错误和偏见也一并灌输进去。抛弃了人类数据之后，AlphaGo Zero得以更加逼近人类未曾触及的真理，或者说更接近「棋神」的落子。

三天，这个时间本身就充满象征意味。人类发明围棋后用三千年堆砌起来的智慧之塔，硅芯片中的算法仅用72小时就重建并超越了。这成为哈萨比斯通往AGI之路上的一座关键里程碑。

因为它证明了一种可能性：在人类数据稀缺甚至完全缺失的领域，比如发现新材料、破解疑难疾病的蛋白质结构，AI也能自行找到解决方案。100比0这块记分牌，是一声信号弹，宣告智能的范式已从「模仿」转向「发现」。自我对弈（Self-play）达到超人水平的意义。解释AlphaGo Zero成就的核心关键词，是「自我对弈（Self-play）」。

可以将它比作一位孤独的修行者，不停地与镜中映出的自己交锋。传统的机器学习方式，即

监督学习（Supervised Learning），好比老师把正确答案告诉学生。「在这种局面下，落在这里比较好」，人类高手的棋谱就是这样教的。但自我对弈不同。没有老师，也没有教科书。

存在的只有「赢」这一个目标。这个展示了强化学习（Reinforcement Learning）精髓的过程，残酷得近乎朴素。A号AlphaGo执黑，被复制出的B号AlphaGo执白。两者激烈厮杀。胜负分出后，赢方的策略被强化，输方的策略被修正。

变得更聪明一点的AlphaGo再次与自己对弈。这个过程重复几百万次、几千万次。今天的我击败昨天的我，明天的我又将击败今天的我，在这种螺旋式的竞争中不断拔高实力。这种方式蕴含的哲学意义是深沉的。

哈萨比斯称之为「白板（Tabula Rasa）」，即从一块空白石板开始的学习。正如约翰·洛克主张人的心灵生来如同白纸，AlphaGo Zero也是从白纸状态出发的。这使得AI不受人类习惯和固有观念的束缚，能够建立独创性的策略。

AlphaGo Zero在学习过程中确实发现了人类视为定式的着法，但一旦超过某个水平，它就抛弃了那些定式，开始下出全新的棋。人类数千年来断定「那是恶手」的着法，事实上被证明是更高维度的妙手。从技术角度看，AlphaGo Zero实现了将两个神经网络合而为一的创新。

之前的版本将预测下一手的「策略网络（Policy Network）」和判断当前局势的「价值网络（Value Network）」分开训练。但AlphaGo Zero把两者整合成了一个巨大的神经网络。这与人类顶尖棋手大脑的运作方式类似：直觉与计算并非分离，而是同时发生。

通过一次思考过程同时判断落子位置和自身优劣，效率被推到了极致。

蒙特卡洛树搜索（MCTS）这一搜索算法也与神经网络结合得更加紧密。此前需要大量运行随机模拟，而AlphaGo Zero的神经网络直觉极为出色，不必下到终局就能预测胜负。这与人类棋手「一眼看出这里是急所」的感觉，在数学层面几乎等价。

自我对弈达到超人水平这件事，给科学界带来的冲击远不止「出现了一台会下棋的机器」。它看起来像是在预告「数据时代的终结」。大数据时代里，人们说数据是新石油。

Google和Facebook这样的企业深信，垄断数据就是权力。但AlphaGo Zero证明了：在没有数据的地方，智能同样可以爆发。只要规则明确，AI就能自行生成数据，用这些数据训练自己，直至超越人类。

这对那些人类终极想要解决的科学问题来说是一个振奋人心的信号，比如新药研发或核聚变控制。这些领域要么缺乏优质数据，要么实验成本极其高昂。如果AI仅凭在虚拟环境中的自我模拟就能找到最优分子结构或等离子体控制方法，科学进步的速度将呈几何级数加快。AlphaGo Zero的自我对弈虽然发生在棋盘上，但它的回响远远越过了实验室和研究所的围墙，成为一场探测人类智能延展可能性的宏大实验。

AlphaZero：一套系统掌握多个领域。2017年末，DeepMind实验室的气氛再次被一种安静的兴奋所笼罩。AlphaGo Zero征服围棋之后，哈萨比斯和David Silver提出了一个根本性的问题：「这个算法是不是只对围棋有效？」如果是，那就不算真正意义上的智能。

真正的智能必须具备通用性（Generality）。要能用一套原理解决多种问题。他们开始从AlphaGo Zero的算法中剥离「围棋」这一特殊性。

棋盘的旋转对称性、围棋特有的规则，统统从代码中删除。空出来的位置被填入更抽象、更通用的学习结构。由此诞生的，就是「AlphaZero」。

这一次的挑战对象，是被称为棋盘游戏「三巨头」的围棋、国际象棋和日本将棋。这三种棋的性质截然不同。围棋是落子游戏，国际象棋和将棋是走子游戏。将棋允许重新使用吃掉的棋子，变化数比国际象棋更为复杂。

过去的AI需要为每种棋分别调优算法。国际象棋引擎要嵌入国际象棋的专属知识，围棋程序要内置围棋的目数计算法。但AlphaZero宣告：仅用一套算法、一种神经网络架构，就要拿下这三种棋。

实验开始了。结果不只是惊叹，几乎令人恐惧。AlphaZero从白纸状态开始学习，仅四个小时，就超越了当时世界上最强的国际象棋引擎「Stockfish」。

Stockfish是人类开发者历经数十年，将国际象棋的所有知识精心打磨成代码的产物，是名副其实的「国际象棋机器」。面对每秒计算7000万步棋的Stockfish，AlphaZero每秒只计算8万步，却赢了。不是靠蛮力计算（Brute-force），而是凭直觉和战略判断力碾压了对手。

将棋也一样。世界冠军程序「Elmo」在两小时内被击败。围棋方面，AlphaZero用八小时就超越了前作AlphaGo Zero。

不到24小时，人类创造的三种最复杂的棋盘游戏，被同一套算法征服了。这足以载入人工智能史上最重要的时刻之列。它证明了：即使不由人类手工设计特征（Feature Engineering）去适配某个问题，AI仅凭通用学习能力就能成为该领域的最强者。

哈萨比斯如此形容：「这就像用同一套算法在不同的宇宙间旅行。」围棋的宇宙、国际象棋的宇宙、将棋的宇宙，AlphaZero在每一个宇宙中自行领悟了各自的物理法则，并成为那个世界的统治者。传奇国际象棋冠军加里·卡斯帕罗夫看了AlphaZero的棋谱后感叹不已：「我们以为机器下的棋一定是冰冷的、机械的。

但AlphaZero下出的棋，像是外星人在下，充满创造力，有时甚至带着浪漫气息。」

AlphaZero不像传统引擎那样看重棋子的分值，而是为了获取长期的位置优势，大胆弃子。这是人类直觉与机器精确度的融合，或者说是超越了两者的全新智能形态。AlphaZero不只是赢了棋，它重写了下棋的「方法」本身。

通往AGI的试验台（Test-bed）。世界为AlphaGo和AlphaZero的胜利欢呼，但德米斯·哈萨比斯的目光一直投向棋盘之外。在媒体采访和演讲中，他几乎不厌其烦地反复说：

「我们的目标不是做一个擅长下棋的AI。游戏只是试验台（Test-bed）。」这句话最能体现DeepMind的本质。为什么偏偏选游戏？对哈萨比斯来说，游戏是现实世界的缩影，是最安全、最高效的实验室。

现实世界太复杂，噪音太多。结果难以衡量，实验也不可能无限重复。让机器人在真实环境中学习摔倒，机器人会摔坏。为了测试气候模型，总不能把地球搞垮吧。

游戏规则明确、胜负目标清晰，更关键的是，可以在虚拟空间中进行无限快速的模拟。哈萨比斯从自己少年时代做国际象棋冠军和电子游戏开发者的经历中，本能地知道游戏是测量和训练智能的最佳工具。AlphaZero完美验证了这个「试验台」理论。

围棋、国际象棋、将棋是三种规则各异的复杂系统。如果一套算法能够解读这些迥然不同的系统并找到最优解，那么这套算法也应当能应用于游戏之外的其他复杂系统。这正是通向AGI的核心钥匙。

哈萨比斯确信，AlphaZero所展现的「通用学习能力」，可以直接应用于蛋白质折叠（Protein Folding）和新材料发现等科学难题。AlphaZero项目圆满收官后，DeepMind的核心人才大批转入了科学项目。

曾经解读棋盘棋形的神经网络，开始阅读氨基酸序列。曾经预测棋子走法的搜索算法，被用来模拟蛋白质在三维空间中如何折叠。没有AlphaGo和AlphaZero，带来诺贝尔奖的「AlphaFold」就不可能诞生。在游戏中积累的强化学习与蒙特卡洛树搜索技术，以及「不借助人类知识也行」的信心，被迁移到了科学领域。

许多人记住AlphaGo时，只把它当作「会下围棋的机器」。哈萨比斯看到的却是「通用问题求解器」的原型。他将DeepMind的使命定义为「破解智能（Solve Intelligence）」，而AlphaZero从数学和实证两个层面证明了：该使命的第一步，即「通用算法」，是可行的。游戏结束了。

但从这些游戏中锤炼出的智能,已经开始走出实验室,去应对现实世界中真正的难题。MuZero: 连规则都自己学的AI,自主构建环境模型的基于规划的学习。AlphaGo Zero和AlphaZero取得了惊人的成就,却始终有一个致命的局限,那就是「已知规则」这一前提。围棋、国际象棋、将棋,游戏规则都被完整地定义好了。

棋子能落在哪里、棋子怎么走,这些都提前告诉了AI。这叫做「完全信息博弈(Perfect Information Game)」。但哈萨比斯眼中的现实世界不是这样的。我们活了一辈子,没有人递给过我们一本规则说明书。

股市的涨跌、天气的变化、人际关系的微妙博弈,统统没有明确的规则手册。在不知道规则的情况下依然能学习、能做规划,这才是真正的AGI。2019年,DeepMind为了攻克这道难关,向世界推出了「MuZero」。

MuZero最大的特点是:连游戏规则都不告诉它。给它看棋盘,但不说棋子该怎么下、怎样才算赢,甚至连这是围棋还是国际象棋都不透露。MuZero只能看着屏幕上的像素(Pixel)信息,自己去领悟这个世界运转的道理。

这之所以成为可能,是因为MuZero开辟了「基于模型的强化学习(Model-Based Reinforcement Learning)」的新境界。过去的AI看到眼前的画面就直接做出行动决策。MuZero不一样,它像人一样会「想象」。

人到了一个陌生的地方,不会去计算所有的物理定律。而是在脑子里跑一个简化的模型:「往这边走应该有路吧?」「下雨的话地面会滑吧?」MuZero也是一样。它不去处理环境中所有复杂的信息,而是把决策所需的核心要素抽象出来,构建属于自己的「内部模型(Internal Model)」。在这个内部模型里,MuZero自问自答三个问题。

第一,「现在的状态是什么?」(State)。第二,「我做某个动作之后,状态会怎么变?」(Dynamics)。第三,「那个状态对我来说有多好?」(Value)。令人震惊的是,MuZero学到的这个内部模型并不需要和真实的游戏规则完全一致。比如玩雅达利(Atari)游戏时,背景里的云怎么飘和分数毫无关系。MuZero只关注对得分至关重要的信息,比如「角色的位置」和「障碍物」,其余的一概忽略。

这和人类认知世界时过滤掉无关信息的方式如出一辙。靠着自学规则,MuZero不仅在围棋、国际象棋、将棋上表现超群,还在57款雅达利电子游戏中展现了超人级的水准。一个算法同时征服了需要战略规划的棋盘游戏和依赖视觉反应的电子游戏,这件事本身就令人震撼。

在这之前,擅长「规划(Planning)」的算法(AlphaGo系列)和擅长「反应(Reacting)」的算法(DQN系列)是分开的两条路,MuZero把它们合二为一了。在规则未知的混沌中找到秩序、模拟未来,这种能力最接近智能的本质,一种必须在野生环境中求存的智能。

Nature论文发表与通用学习的新地平线。2020年12月,世界顶级科学期刊《Nature》刊登了关于MuZero的论文,题为《Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model》。这篇论文在人工智能研究者中间获得了「找到了强化学习的圣杯(Holy Grail)」的评价。这篇论文的意义在于:它宣告AI已经成为可以应用于「现实世界(Real World)」的最强工具。

哈萨比斯一直说:「现实比游戏要混乱(messy)得多。」优化YouTube视频压缩算法,或者让自动驾驶汽车穿过复杂的十字路口,这些问题不像围棋那样有明确的规则。在瞬息万变的环境里,得先推断出规则,再从中规划最优路径。

MuZero恰好在这一点上大放异彩。Google将MuZero的算法应用到了YouTube的视频传输系统中。在网络状况不稳定的真实互联网环境下,MuZero无需学习任何规则,就自行优化了流量分配,成功提升了视频画质并减少了缓冲。

这是为游戏开发的AI被用来应对真实产业场景中不确定性的第一批重大案例之一。MuZero还展示了「表征学习(Representation Learning)」的进化。人看到苹果时不会去看它的分子结构,而是用「红色的圆形水果」这个概念来认知。MuZero也一样,它不直接使用输入的原始数据(像素),而是将其转化为对决策有用的「隐状态(Hidden State)」加以存储。

这被认为是为AI具备人类式的抽象思维能力铺平了道路。对哈萨比斯来说,MuZero既是AlphaGo系列的终章,也是一个全新的起点。AlphaGo展示了「直觉」,AlphaGo Zero展示了「原创性」,AlphaZero展示了「通用性」,而MuZero展示的是「适应性」。

无论被丢到多么陌生的环境里,都能自己学会规则、活下来、达成目标。这一刻,DeepMind在其「破解智能」的使命中,揭示了「智能的核心机制」。MuZero的成功给DeepMind注入了巨大的信心。蛋白质结构预测、气候变化预测、核聚变控制,乃至数学难题的求解,规则未知

的未知领域,也就是「自然(Nature)」这张巨大的棋盘,DeepMind已经准备好踏上去了。MuZero不是Game Over,而是Science Start的信号弹。在那条路的尽头,2024年的诺贝尔奖正等候着他们。AI与国际象棋: AlphaZero的世界

人工智能专家金京镇律师

AI法律政策专家 · 前国会议员 · 著作等身

如果这本书曾在你身边短暂停留,请支持我们,让下一个故事得以问世。

(自愿赞助账户: 农协 302-1096-0948-81 户名: 金京镇)

← 上一章第13章 2016年对阵李世石九段目录查看全书章节下一章 →第15章蛋白质折叠问题

金京镇

律师 · 前国会议员 · AI政策研究者

kimkj.com

#金京镇 #AI书房 #德米斯哈萨比斯 #DeepMind #GoogleDeepMind #AlphaGo #AlphaFold #人工智能 #科学AI

« [AI书房] 第15章蛋白质折叠问题

[AI书房] 第13章 2016年对阵李世石九段 »

List Reply

Edit Delete

kimkj.com 首页