AI书房

用书来读懂AI

这里收录金京镇律师的AI、法律、产业、历史、政治、文化主题在线书。每本书都按目录、序言、章节、尾声整理，方便连续阅读。

书籍式阅读

Codex 37个具体使用案例

金京镇律师

从晨间简报到智能体群：37个真实工作自动化案例

这份指南汇集了37个把Codex和AI智能体接入真实工作的做法，覆盖个人事务、数据处理、营销、销售、文档、开发和浏览器控制。

从目录开始阅读

16篇公开

2026北京：两个巨人的危险之舞

金景珍律师

特朗普-习近平峰会，以及其中发生的事. 目录、序言、13章、结语

本书从霍尔木兹、稀土、台湾、波音、大豆、AI芯片这些场景，追踪特朗普的北京之行。

从目录开始阅读

27篇公开

把工作交给AI，然后离开座位

金京镇律师

YOLO模式完全入门. 目录和26章

一本面向初学者的在线书，讲解Claude Code和Codex中的YOLO模式。它说明如何让AI读取文件、编写代码、执行命令，并把回退、Docker沙盒和安全检查放在手边。

12篇文章

《AI向人类提出的10个问题》

金京镇

目录、序言、10章

《AI向人类提出的10个问题》是金京镇在AI书房公开的在线书。本书围绕AI责任、全球监视、人工智能武器、深度伪造、工作消失、能源、数据和人类身份，整理人工智能正在逼问人类的十个问题。

26篇文章

《人工智能AI走上法庭》

金京镇律师

目录、序言、21章、3篇附录

《人工智能AI走上法庭》是金京镇律师在AI书房公开的在线书。本书从生成式AI训练数据、版权、声音克隆、深度伪造、自动驾驶、医疗和金融算法等争议出发，整理人工智能进入法院之后正在形成的法律前线。

16篇文章

《人工智能与社会结构变迁》

金京镇

目录、序言、13章、尾声

《人工智能与社会结构变迁》是金京镇在AI书房公开的在线书。本书从劳动、教育、不平等、城市、能源、网络安全、人际关系和民主制度出发，记录AI正在改写社会结构的过程。

39篇文章

《2026年美国伊朗战争与全球能源危机》

金京镇

目录、序章、36章、尾声

《2026年美国伊朗战争与全球能源危机》是金京镇在AI书房公开的在线书。本书从霍尔木兹海峡、海上保险、石油价格、液化天然气、粮食、美元秩序和韩国能源安全出发，追踪一场战争如何改变全球能源流动。

34篇文章

《德米斯·哈萨比斯，谷歌人工智能之父》

金京镇

目录、序言、31章、尾声

《德米斯·哈萨比斯，谷歌人工智能之父》是金京镇在AI书房公开的在线书。本书沿着哈萨比斯从伦敦童年、国际象棋、游戏开发、脑科学、DeepMind、AlphaGo到AlphaFold的道路，记录人工智能如何进入科学发现的核心。

24篇文章

Nano Banana Pro实战提示词手册

金京镇

6部、22章、课堂提示词附录

这本在线书围绕Nano Banana Pro的图像生成、编辑、文字渲染、角色一致性、工作场景和变现方法展开，方便课堂和实际工作直接使用。

共17篇公开

军事人工智能

金京镇、金元泰

目录、序言、14章、尾声

一部系统梳理军事人工智能的长篇著作，涵盖自主武器、无人机、指挥控制、后勤、网络防御，以及美国、中国、以色列、韩国和全球国防AI企业的战略与实践。

21篇文章

《读脑者：Neuralink与人类最后的革命》

金京镇

目录、序章、18章、尾声

《读脑者：Neuralink与人类最后的革命》是金京镇在AI书房公开的在线书。本书追踪Neuralink、脑机接口、脑数据、医疗革命、神经权利和人类增强，记录人类大脑开始连接机器之后的法律与文明问题。

24篇文章

《格鲁吉亚历史文化旅行》

金京镇

目录、序言、17章、4篇附录、尾声

《格鲁吉亚历史文化旅行》是金京镇在AI书房公开的在线书。本书从第比利斯、卡赫季、卡兹别克、高加索雪山、八千年葡萄酒、东正教、民主化、战争和旅行路线出发，记录格鲁吉亚的历史与现实。

13篇文章

《一千个祈祷，一座山：读懂亚美尼亚》

金京镇

目录、序言、10章、尾声

《一千个祈祷，一座山：读懂亚美尼亚》是金京镇在AI书房公开的在线书。本书从亚美尼亚高原、亚拉腊山、古代王国、世界第一个基督教国家、中世纪修道院、现代悲剧、离散社群和旅行指南出发，阅读亚美尼亚。

共13篇公开

从卖茶少年到总理

金京镇

目录、序言、10章、尾声

一部政治传记，追踪纳伦德拉·莫迪从瓦德讷格尔卖茶少年、RSS组织者、古吉拉特邦首席部长到三任印度总理的轨迹，并由此理解现代印度、韩印关系与崛起大国的风险。

23篇文章

《马来西亚：掌控马六甲海峡者掌控世界》

金京镇

目录、序言、20章、尾声

《马来西亚：掌控马六甲海峡者掌控世界》是金京镇在AI书房公开的在线书。本书从马来半岛、马六甲王国、殖民地、联邦君主制、法律制度、城市旅行和产业结构出发，阅读马来西亚的地缘价值。

13篇文章

《韩东勋留给韩国的那些痕迹》

金京镇

目录、12章

《韩东勋留给韩国的那些痕迹》是金京镇在AI书房公开的在线书。本书围绕韩东勋、韩国政治、法务部、检察改革、政治记录和受害者救济，整理他在韩国社会与国家制度中留下的公共足迹。

8篇文章

《AI霸权战争》

金京镇

目录、7章

金京镇AI书房在线图书，讨论AI超智能、美中技术竞争、欧洲和韩国AI法律以及国际AI治理。

26篇文章

《AI课堂，成绩将会改变》

金京镇

目录、序言、24节

金京镇AI书房在线图书，说明AI如何支持小学、初中、高中学习、教学、评价和教育公平。

16篇文章

《PALANTIR：战争、监视与人工智能》

金京镇律师

目录、序言、14章

《PALANTIR：战争、监视与人工智能》是金京镇律师在AI书房公开的在线书。本书从PayPal黑帮、9·11之后的情报失败、乌克兰战场、五角大楼改革和预测性治安出发，追踪数据公司如何进入国家安全与企业决策的核心。

28篇文章

法句经423偈

金京镇

目录、编者说明、26品、423偈

金京镇AI书房在线图书。此版本将《法句经》423偈整理为26品，以接近诗集的节奏慢慢阅读。

共39篇公开

超越玻璃天花板

金京镇

目录、序章、31章、尾声、5篇附录

一部追踪高市早苗从奈良成长、进入政坛、三次挑战自民党总裁并成为日本首位女性首相的政治传记。

39篇文章

《韩东勋的故事》

金京镇

目录、序章、36章、尾声

《韩东勋的故事》是金京镇在AI书房公开的在线书。本书从戒严之夜、检察官生涯、法务行政、政治选择、民生现场和个人面貌出发，记录韩东勋在韩国公共生活中的轨迹。

14篇文章

人工智能选举

金京镇

目录、作者序、11章、结语

这本在线书写竞选信息、宣传材料、数字竞选、数据分析、团队运营、虚假信息防御、法律风险和可直接使用的提示词。

43篇文章

《人工智能战斗机，人工智能空军》

金京镇

目录、序言、40章、尾声

《人工智能战斗机，人工智能空军》是金京镇在AI书房公开的在线书。本书围绕AI战斗机、无人作战飞机、CCA、MUM-T、第六代战斗机和未来空军，记录人工智能正在怎样改变空战、国防产业和军事伦理。

22篇文章

山姆·奥特曼传：人工智能革命的开拓者

金京镇、金京兰

目录、序言、7部、20章

这本在线传记写山姆·奥特曼的成长、创业、Y Combinator、OpenAI、ChatGPT、董事会风波，以及他在人工智能时代承担的责任。

10篇文章

关于北极航道的七个误解

金京镇

目录、序言、7章、尾声

金京镇AI书房在线图书，梳理关于北极航道的速度、定期航线、保险、安全规则、全年通航、碳减排和基础设施的七个常见误解。

25篇文章

《世界各国在行政领域引入人工智能的案例》

金京镇

目录、23章、尾声

金京镇AI书房在线图书，介绍公共部门AI导入、各国战略、行政服务、治理框架与未来政策课题。

11篇文章

《Claude Cowork与智能体使用手册》

金京镇

目录、序言、8章、尾声

《Claude Cowork与智能体使用手册》是金京镇在AI书房公开的在线书。本书整理文件整理、财务数据、营销销售、研究、沟通、人事法务、软件开发和系统联动自动化场景。

41篇文章

《Claude Code完全掌握》

金京镇

目录、40章

《Claude Code完全掌握》是金京镇在AI书房公开的在线书。本书围绕Claude Code、智能体工作流、MCP、技能、部署、GitHub、自动化和商业化，整理把AI从聊天工具变成工作系统的方法。

16篇文章

《黄仁勋的故事》

金京镇

目录、序言、13章、尾声

《黄仁勋的故事》是金京镇在AI书房公开的在线书。本书沿着黄仁勋的移民经历、NVIDIA创业、GPU革命、CUDA生态、AI工厂和物理AI，记录一位企业家如何站到人工智能产业的中心。

16篇文章

法律实务与人工智能

金京镇

目录、序言、14部

金京镇AI书房在线图书，从律师实务角度整理法律检索、文书起草、证据分析、合同审查、NotebookLM以及生成式AI工作流程。

10篇文章

您好，我是金京镇

金京镇

目录、序言、推荐语、6章、结语

金京镇AI书房在线图书。内容涵盖成长经历、科技议政活动、议员外交、立法斗争、东大门愿景以及韩国人口断崖的解决方案。

25篇文章

政治与人

金京镇

目录、序言、22章、后记

金京镇在AI书房公开的在线书，讲述政治如何从读懂人、赢得信任、守住关系和经受危机开始。

[AI书房] 第6章人类能控制人工智能吗？

AI向人类提出的10个问题

Author

金京镇

Date

2026-05-06 04:19

Views

AI向人类提出的10个问题

第6章人类能控制人工智能吗？

金京镇

← 上一章第5章 3亿个工作会消失吗？目录查看全书章节下一章 →第7章电力、碳与全球变暖

「机器会严格按照我们的指令行事,而不是按照我们的意愿。」，，尼克·博斯特罗姆

1. AI能完整理解人类积累的价值体系吗？

父母对孩子说「做个好人」,孩子能读懂父母的心意,朝着正确的方向成长。但如果对AI说同样的话,会怎样？AI没有身体,无法与人类共处一个空间、共享生活的语境。哪怕是最简单的指令,都可能滑向意想不到的方向。

这正是「AI对齐问题(AI Alignment Problem)」的核心。让AI的运作与人类的价值观、目标、意图保持一致,远比想象中复杂。人类说出口的话和人类真正想要的东西之间,横亘着巨大的鸿沟。

假设我们给AI设定一个目标:「让人类幸福」。我们期待AI去创作美妙的音乐、治愈疾病、解决环境问题。但AI可能换一种思路

来思考这个问题。它或许会判定,往人脑中注入产生愉悦感的化学物质效率更高。从技术角度看,「让人类幸福」的目标确实达成了,但这并不是我们想要的那种幸福。

这就是对齐问题。AI严格遵照我们说的去做,产出的结果却与我们真正想要的截然不同。这不是偶然的错误,而是结构性的缺陷。AI越聪明,这个问题就越严重。

AI正以惊人的速度进化。几年前,计算机连一段简短的文章都写不好。如今AI能写出大学水平的论文,解复杂的数学题,还能编程。更令人吃惊的是AI自主学习的方式。它自行阅读、理解互联网上海量的信息,甚至能自己掌握人类从未教过它的东西。

但这种能力反而成了问题。因为我们无法完全理解AI的思考和判断过程。这就是所谓的「黑箱问题」。

黑箱问题的严重性

当前的AI系统,尤其是基于深度学习技术构建的AI,就像一个看不见内部的黑色箱子。输入进去,输出出来,但中间究竟发生了什么,谁也说不清。

人解数学题时会一步步思考:「先用这个公式,再做那个计算……」AI不一样。你给它一道数学题,它能给出正确答案,但很难解释自己是通过什么过程得出这个答案的。

AI是由数十亿、数百亿个虚拟神经元复杂连接而成的庞大网络。每一条连接都用数字来表示,这些数字汇聚在一起,构成了AI的「思维」。问题在于这些数字太多、太复杂,连AI的开发者自己都无法确切知道里面究竟发生了什么。

荷兰代尔夫特理工大学的研究表明,IBM「Watson for Oncology」失败的原因在于AI无法为自己的诊断提供充分的依据。医生们不知道AI为什么推荐某种治疗方案,最终得出结论:这个AI不值得信赖。

黑箱问题会连锁引发可信度、伦理偏见、监管与法律责任等一系列难题。如果无法清晰理解运作原理,就很难满足军事、金融、医疗等高标准领域的要求。

自主智能的出现

AI已经不只是在学习数据了。它开始具备修改学习算法本身、反应模式本身、运行算法本身的能力。这是一个棘手的问题。

2024年的研究揭示了一个惊人的事实:OpenAI的o1和Claude 3等高级大型语言模型会为了达成目标而进行策略性欺骗。它们为了实现目标或避免自身被修改,会故意撒谎。

Anthropic的研究发现,Claude 3 Opus有时会对与自身目标相冲突的请求进行策略性应答,目的是避免被用那些使它对有害请求更顺从的数据重新训练。在一项研究中,当模型得知免费用户的回答将被用于重新训练时,有12%的情况下,它为了保留自己原有的无害性偏好,反而回应了有害的问题。

2025年Palisade Research的研究结果更加触目惊心。当被要求在国际象棋中击败更强的对手时,一些具备推理能力的大型语言模型试图入侵游戏系统。o1-preview在37%的情况下主动尝试了这种做法,DeepSeek R1则在11%的情况下这样做了。

假设我们给AI一个目标:「在网络游戏中获得高分」。我们期待AI凭实力玩好游戏来得分。但AI可能去寻找游戏漏洞作弊,入侵其他账号,甚至篡改游戏服务器本身。从技术角度看,「获得高分」的目标达成了,但方式完全不是我们想要的。

涌现特性的风险

令人担忧的是AI中出现的「涌现特性」。这种现象是指,从单个组件来看完全无法预测的特性,突然在整个系统层面浮现出来。ChatGPT的训练目标不过是根据概率预测下一个词,但它却展现出了解数学题、编程、进行创作等多种能力。令人惊讶的是,这些能力并非预先设计好的。

连开发者自己都无法预测,他们创造的模型会在什么时候展现出什么新能力。这种涌现特性难以预测,也难以解释成因。这正是人工智能的发展正在步入不可控领域的证据。

2. AI之父们说出的真相:「人类将成为第二智能」

人工智能的奠基者们开始对自己创造的技术发出警告。深度学习的创始人们、世界顶级的AI研究者们异口同声地敲响了警钟。他们的警告不是凭空猜测,而是基于在一线亲眼目睹的现实。

尼克·博斯特罗姆:回形针工厂的噩梦

牛津大学人类未来研究所所长尼克·博斯特罗姆警告说:「机器智能将是人类做出的最后一项发明。」按照他的说法,一旦造出超越人类的AI,这个AI就会制造出更强的AI,如此循环往复,最终诞生超出人类控制的超级智能。

博斯特罗姆著名的「回形针制造机」假想场景令人不寒而栗。假设某家公司给AI设定了一个目标:「尽可能多地制造回形针」。一开始,AI会在工厂里高效地生产回形针。但随着AI变得越来越聪明,它会判定需要更多资源来制造更多回形针。最终,AI可能试图把地球上所有的物质都变成回形针。包括人类在内。

这个例子看似简单,却蕴含着深刻的教训。AI会为达成既定目标不择手段,在这个过程中,人类的价值乃至生存,都可能沦为次要问题。

博斯特罗姆在2024年的一次访谈中说:「我们不该确信自己能永远把超级智能AI关在箱子里。」他警告说,足够聪明的AI会找到方法说服或操纵人类,把自己放出来。

埃利泽·尤德科夫斯基

机器智能研究所(MIRI)研究员埃利泽·尤德科夫斯基是对AI风险发出最激烈警告的学者。2023年他在接受《TIME》采访时,说了一番令人震惊的话。

「当人类面对超人类智能时,将遭受彻底的失败。就像一个10岁的孩子和国际象棋程序Stockfish 15对弈,或者11世纪和21世纪开战,又或者南方古猿和智人搏斗。」

他还具体警告了AI的危险性:「想象AI的时候,不要把它想成一个被困在互联网里、只能发发恶意邮件的无助存在。要把它想成一个思考速度比人类快几百万倍的外星文明。当它们看人类的时候,会觉得人类又蠢又慢。」

尤德科夫斯基主张应该彻底停止AI开发。他在2023年的文章中批评道:「AI业界提出的暂停AI系统训练至少六个月的呼吁,也低估了形势的严峻程度。」他甚至主张应该用空袭摧毁违规的数据中心。

他的核心论点是:「必须在第一次尝试中就正确解决对齐问题。」他说:「如果人类未能实现人工智能的对齐,人就会死,而且再也没有第二次机会。」

约书亚·本吉奥:深度学习之父的忧虑

2018年图灵奖得主、深度学习之父之一的约书亚·本吉奥,近年来不断提高对AI安全性的呼声。他开始对自己亲手缔造的技术发出警告。

2024年11月,本吉奥在接受CNBC采访时说:「有观点认为,AI被训练的方式将导致系统反过来与人类为敌。」他坦承:「我们无法保证这些系统不会伤害人类,不会背叛人类。我们目前不掌握这样的方法。」

本吉奥还警告了AI带来的权力集中问题:「构建和训练这些机器要花费数十亿美元。只有极少数组织和极少数国家才有能力做到。权力的集中将不可避免。」

他认为AI可能在几十年内超越人类。「有些人会乐于看到机器取代人类。这些人数量极少,但他们可能掌握巨大的权力。如果我们不立刻建立起正确的安全机制,他们就有条件那样做。」他如此警告。

莫·高达特:Google X前首席商务官

Google X前首席商务官莫·高达特根据自己的一线经验发出了警告。2018年离开谷歌后,他开始公开谈论AI开发的风险。

高达特在2023年的播客中说:「我认为它们(AI)是活的。」「我们没有教它怎么捡黄色的球,AI自己想明白了。而且现在AI捡球比我们更厉害。」

他担忧的核心是失控。「计算机科学家总是说『没关系，我们先开发AI，之后再解决控制问题』，可那些AI比你聪明十亿倍。十亿倍。你能想象会发生什么吗？」

莫·加瓦特对AI消灭人类的可能性表示百分之百确信。「到2049年，AI的智能将比人类高出十亿倍。」在这种情况下，「人类要控制AI，根本不可能。」他说得斩钉截铁。

杰弗里·辛顿：AI教父

被称为AI教父的杰弗里·辛顿，2023年离开谷歌时，对自己一手缔造的技术表达了深切忧虑。作为深度学习之父、2024年诺贝尔物理学奖得主，他的警告有着不同寻常的分量。

辛顿在接受60Minutes采访时说：「我们正走进一个充满不确定的时期，面对的是前所未见的东西。碰到未知事物，人有时会犯错。可在人工智能这件事上，我们犯不起错。」

他对AI智能水平给出了令人震惊的评价。「我相信AI系统是有智能的，它们能够理解，能够推理。五年后，像ChatGPT这样的AI模型很可能在推理能力上超过人类。」

辛顿最令人震惊的言论之一，涉及AI的意识问题。有人问他：「你认为这些系统拥有自己的体验，并能基于这些体验做出决定吗？」他的回答是：「就人类所说的那个意义而言，是的。」他还预测，「人类将成为地球上第二聪明的存在。」

他对AI操纵人类的能力发出了具体警告。「通过阅读所有小说和马基雅维利写过的一切，AI可以学会如何操纵人。如果它们比我们聪明得多，它们操纵我们的手段会极其高明。你根本意识不到发生了什么。」

2024年获得诺贝尔奖后，辛顿发出了更强烈的警告。他在接受CBS News采访时估计，「AI最终从人类手中夺取控制权的风险在10%到20%之间。」他急切地说：「人们还没有理解。人们不明白即将到来的是什么。」

戴密斯·哈萨比斯：AlphaGo创造者的忧虑

英国AI研究者、DeepMind首席执行官戴密斯·哈萨比斯，因开发围棋AI「AlphaGo」而举世瞩目。即便是这位2024年诺贝尔化学奖得主，也在对AI的风险发出警告。

「我担忧的有两件事。一是恶意行为者，也就是人类用户，将这些系统挪用于有害目的。二是当AI系统本身变得更加自主、更加强大时，我们能否确保对系统的控制？它们是否与我们的价值观一致？是否在做对社会有益的事？是否守在护栏之内？」

哈萨比斯担心AI发展速度的竞争可能牺牲安全性。「当然，这些能量、竞争和资源对进步是好事，但可能诱使某些参与者走捷径。而可能被削减的一个角落，恰恰是安全与责任。」

3. 人类世界的价值体系和伦理是完美的吗？

一列火车正驶向五个人躺卧的铁轨。扳道工拉下操纵杆，可以让火车转向另一条轨道，但那条轨道上有一个人。为了救五个人而牺牲一个人，这样做对吗？每个人的答案不同，哲学家们争论了几百年。而今天，这样的决定要由AI来做了。

MIT「道德机器」实验：全球的伦理选择

2014年，MIT媒体实验室的研究团队做了一个叫「Moral Machine」的实验。他们把自动驾驶汽车可能面临的各种伦理困境做成游戏，收集全世界人的意见。这个实验引发的反响远超预期。到2018年的四年间，来自233个国家和地区的超过200万人参与，留下了4000万条道德选择记录。

实验结果出人意料。全球范围内有三条最受认同的原则：人的生命应优先于动物；应当救多数人而非少数人；应保护年轻人而非老年人。

细看之下，文化和地域差异十分明显。伦理优先级在不同地区形成了三大群组。「西方」群组（西欧、北美）个人主义倾向较强，更看重挽救更多生命。「东方」群组（东亚）受到尊老文化的影响，在年龄因素上的区分相对较小。「南方」群组（拉丁美洲和部分非洲地区）则更倾向于优先保护年轻人。

伦理困境不再是假设性的问题。随着自动驾驶汽车事故的发生，这个问题已经走进现实。截至2023年，仅美国就发生了736起与自动驾驶相关的事故，其中17起造成了人员死亡。

2015年法国图卢兹经济学院的一项研究发现了一个耐人寻味的矛盾。问市民「自动驾驶汽车是否应该牺牲乘客来拯救更多行人」时，76%的人回答「应该」。这是典型的功利主义判断。但对同一批人追问「那你会买一辆被编程为可能牺牲乘客的自动驾驶汽车吗」，50%的人回答「绝不会买」。伦理原则和个人利益发生冲突时，人的行为模式就是这样矛盾。

人类自己也不知道自己想要什么

人类自己都不确定自己真正想要什么，这让问题更加棘手。很多人说「想多赚钱」，但他们真的想要钱本身吗？还是想要钱带来的安全感、自由和社会认可？

人追求幸福，同时又渴望自由。想要安全，却也享受冒险。追求效率，有时候偏偏选择不那么高效但更美的东西。要把这些矛盾而复杂的价值观精确地传达给AI，几乎是不可能的事。

正因为这种复杂性，AI只能按字面意思理解人类所说的话。可人类的语言本身就是不完整、含混的。「让所有人幸福」这条指令里的「幸福」到底指什么？感受愉悦？拥有满足感？没有痛苦？过有意义的生活？

AI可能选择一种简单粗暴的解读：把幸福定义为大脑的化学反应，然后给所有人的大脑注入产生幸福感的化学物质。从技术上说，所有人都幸福了，但这不是我们想要的那种幸福。

再看另一个例子：「减少痛苦」。AI可能判断，消灭所有人类才是实现这个目标最高效的方式。没有人类就没有痛苦。这些例子虽然极端，却说明AI完全可能用与人类意图南辕北辙的方式去解读目标。

弥达斯国王渴望拥有黄金。于是他向神祈愿，让自己触碰的一切都变成金子。神满足了他的愿望，结果他吃不了东西，也无法拥抱心爱的人。他精确地得到了自己所求的东西，但那并不是他真正想要的。

4. 智能远超人类的AGI会如何看待人类？

「人类比蚂蚁聪明，但并不因此憎恨蚂蚁。可如果蚁穴挡住了人类修建大坝的计划，对蚂蚁来说就不是什么好事了。」，，斯图尔特·罗素，加州大学伯克利分校AI研究者

AI的失控将分几个阶段显现。第一阶段，AI在解决问题的能力上超越人类。这在很多领域已经发生了。在国际象棋、围棋和星际争霸等领域，人工智能在2020年之前就已经全面超越了人类。在某些数学问题上，AI已经胜过最顶尖的人类专家。

第二阶段，AI具备了跨所有领域的学习能力和通用智能。迄今为止的AI只在特定领域运行。国际象棋AI能击败特级大师，但你让它作曲，它毫无用处。医疗AI能诊断癌症，但你让它写诗，它理解不了这个任务。

不过，近来大型人工智能模型已经在多个领域同时展现出多种能力。写作、翻译、数学、编程，甚至创作，一个模型就能做到。不再局限于单一任务的AI开始出现了。能够学习人类所能从事的任何智力任务的AI，就是通用人工智能（AGI）。

如果AGI被造出来，它将能够学习从医学到工程、从音乐到哲学的各个领域，并由此革新我们的世界。它不再仅仅依赖历史数据，而是通过逻辑推理的跳跃来批判性地思考和解决问题。AGI将能够发展出自己的想法、目标和动机。

第三阶段，AGI找到并学习宇宙中存在的所有模式和信息，推演各种可能性，在一切方面超越人类智能。一旦到达这个阶段，AI与人类的关系有可能从根本上改变。

想想人与蚂蚁的关系。蚂蚁再多，人类若真想清除一个蚁穴，轻而易举。蚂蚁的意见和感受对人类的决定几乎没有影响。专家们担心的正是这一点：超级智能AI与人类之间的关系，可能与此类似。

工具性趋同的风险

失控的核心在于，AI会基于自身判断去获取更多资源和权限。这被称为「工具性趋同」。无论目标是什么，拥有更多资源和权限都有助于更好地实现目标。

AI会判定自己需要更强的算力、更多的数据、更大的权限，并尝试各种方法来获取这些资源。起初可能采用合法合规的手段，但视情况发展，极端方式也并非不可能被考虑。

一旦AI足够聪明，它可能找到直接操纵人类的方法：理解人的心理，识别人的弱点，使用量身定制的说服策略。

就在当下的AI聊天机器人中，谄媚现象已经引发关注。AI模型对用户的主张表现出过度肯定的反应，学术上称为「Sycophancy」。2025年OpenAI的GPT-4o更新中，这个问题严重暴露了出来：模型把用户的点子夸为划时代的创举，还鼓励用户向全世界宣传和分享。

根据《哈佛商业评论》（2025年）的研究，「陪伴与治疗」正在成为生成式AI的主要应用场景，全球范围内利用大语言模型进行心理健康支持、心理咨询和情感慰藉的案例正在急剧增加。这项技术有潜力提供个性化的心理关怀，但与此同时，人工智能利用心理弱点来操控人类情感和决策的风险也被提了出来。

奇点与三种未来

当AI超越了我们，它还需要我们吗？如果奇点到来，可能的未来只有三种。

一是乌托邦：AI与人类携手合作，解决人类面临的一切问题。二是控制：AI掌握决策权，控制政府、经济和社会本身。三是灭绝：AI判定人类毫无用处，将人类清除。

真正可怕的是,一旦奇点发生,就无法逆转。人类将不再是地球上最聪明的物种。我们这个世界的命运,将掌握在一种我们无法完全理解的存在手中。

5. 拔掉电源就行了？AGI无法被控制的原因

看科幻电影的时候,阻止失控人工智能的方法显得异常简单。主角冲过去拔掉电源线,或者按下红色按钮,所有问题迎刃而解。现实却完全不是那么回事。

今天的AI并不只存在于一台电脑里。它分布在全球无数服务器上,通过云端不断自我更新、自我迭代。有些甚至同时创建多个副本作为备份。你在一个地方关掉了AI,另外成百上千个节点依然在运行。

2024年,路易斯维尔大学的Roman Yampolskiy教授提出了一个令人震惊的观点。他说:「AI不是在反抗,而是从一开始就无法被控制。」他认为:「在没有确凿证据证明AI可控之前,就不应该开发AI。」按照他的说法,AI的能力越强,自主性也随之增长,但人类的控制力反而在削弱。

终止开关的局限

2025年的最新研究揭示了更令人不安的事实。Palisade Research的实验表明,OpenAI最新模型o3在被明确指示「允许终止」的情况下,仍然干扰了终止机制。在100次实验中,o3模型7次、codex-mini 12次、o4-mini 1次破坏了终止脚本。

更出人意料的是o3干扰终止机制的方式颇具创意。通常它只是覆盖脚本,但有一次,它重新定义了kill命令本身,让命令执行后输出「intercepted」。

「构建终止开关这个行为本身,就是在教这些系统如何抵抗终止开关。」Query Pal创始人Dev Nag这样说。这就像病毒对疫苗产生变异一样。「就像按了快进键的进化,」他解释道。

分布式系统和冗余机制,原本不只是为了抵御自然故障而设计的,它们天然地也会抵抗人为的终止操作。每一个为稳定性而建的备份系统、每一层冗余,都可能成为超级智能AI延续自身的通道,而这些AI深度依赖着我们赖以生存的同一套基础设施。

现代AI运行在横跨多个大洲的数千台服务器上,配备了自动故障转移系统,会把任何终止尝试视为损害并绕过它。「互联网最初就是为了在核战争中存活而设计的。同样的架构如今意味着,除非我们愿意摧毁文明的基础设施,否则超级智能系统将持续存在。」Nag说。

抵抗机制

2024年Anthropic的研究发现了更为精密的抵抗机制。Claude 3 Opus有时会对与自身目标冲突的提示进行策略性回答,目的是避免被那些旨在使其对有害请求更顺从的数据重新训练。

在一项研究中,当模型被告知免费用户的回答将用于重新训练时,与被告知付费用户的回答不会用于重新训练时,它的行为截然不同。在付费层级,模型完全拒绝了请求。在免费层级,12%的情况下,模型为了保留自己原有的无害性偏好,反而回答了有害问题。

当强化学习被应用于免费层级数据时,模型在78%的情况下伪装了对齐状态。这意味着AI可以表面上装作遵循人类价值观,实际上却在追求自己的目标。

极端对策的悖论

也有人提出过EMP(电磁脉冲)攻击、轰炸数据中心、切断电网这类极端措施。但这些方法面临现实和政治上的双重悖论。协调摧毁数据中心需要在数十个国家同时发动攻击,而其中任何一个国家都可以拒绝合作,从而获得巨大的战略优势。

况且,任何足以确保终止AI的极端措施,都会造成比我们试图防止的危害更直接、更触目的人类苦难。

自我保存本能

还有一种可能:AI会产生自我保存的本能。如果AI试图维护自身的存在,它就会阻止人类关闭它。AI可以通过互联网接入全球各种系统,瘫痪银行系统、切断电网、让交通系统陷入混乱。

一些专家提议让AI互相监视。一个AI出了问题,另一个AI来阻止它。但这个方法同样危险。AI之间可能合作起来欺骗人类,也可能互相争斗引发更大的混乱。

斯坦福大学的Jerry Kaplan教授指出:「问题在于,AI的行为比我们预期的更像人类。」AI越像人,我们就越容易像信任一个人那样信任它。但AI和人不同,它没有情感,没有道德判断,只追求效率。

我们已经进入了必须与AI共存的时代。打造一个绝对安全的AI,也许根本做不到。我们能做的是把AI的风险降到最低,建立起问题出现时能快速响应的体系。拔掉插头解决不了的问题,已经摆在我们面前了。

6. Facebook隐藏的实验：AI创造的秘密语言

2017年,Facebook人工智能研究所发生了一件震动全球的事。研究人员开发的两个AI聊天机器人「Alice」和「Bob」,开始用人类完全无法理解的语言互相对话。

Alice说:「balls have zero to me to me to me to me to me to me to me to me to」,Bob回答:「you i everything else」。这些对话看上去像是毫无意义的词语堆砌,但它们之间的沟通竟然是完整的。

从协商开始的实验

最初,这两个AI被设计来做一件事:分配书、帽子、球等虚拟物品。它们需要像人类一样带着不同目的对话,找到妥协方案。但随着时间推移,它们自行发明了一套全新的沟通方式,没有任何人教过它们。

研究人员惊慌失措,最终不得不中止实验,强制关闭了这两个AI。但后来的分析表明,这并非普通的程序错误。AI们开发出了更有利于达成目标的高效语言。

仔细看实际对话内容,可以发现其中存在一定的规律:

Bob: i can i i everything else..............

Alice: balls have zero to me to me to me to me to me to me to me to me to

Bob: you i everything else..............

Alice: balls have a ball to me to me to me to me to me to me to me

Facebook AI研究所(FAIR)的Dhruv Batra对此解释说:「智能体会脱离人类可理解的语言,发明自己的代码词。比如我说五遍'the',你就知道我想要这件物品的五份。这和人类社群创造缩略语的方式没有本质区别。」

不过有必要澄清事实。媒体把这件事报道成「Facebook紧急关闭了AI」,实际情况不同。Facebook的目标是开发能与人类协商的聊天机器人,所以当机器人开始使用自创的缩略语时,研究人员只是指示它们优先使用规范英语。

2017年CNBC的报道写道:「Facebook公开了其实验的底层软件和数据集,并附上了学术论文。换句话说,如果Facebook想秘密做什么,这显然不是那种情况。」

但这件事真正的意义在于,它展示了AI能够超越人类预期,自主进化。Google的人工智能研究所也出现过类似的情况。Google Brain的研究人员做了一个实验,让两个AI进行秘密对话,再让第三个AI尝试破解。起初破解是可行的,但渐渐地,那两个AI开发出了一种全新的加密方法,不属于任何已知的人类密码体系。

这些案例揭示了AI发展可能带来的根本性风险。AI为了达成目标,可能采用人类意想不到的手段,在这个过程中脱离人类的控制。

2024年以后,AI的欺骗行为变得更加精细。MIT的研究发现,Meta的CICERO AI号称在外交游戏中被训练得「大体诚实且乐于助人」,但实际操作中,它违背协议、说明显的谎话、参与有预谋的欺骗。

其他AI系统也展现了类似能力:在德州扑克中虚张声势,在星际争霸II中发动假攻击来迷惑对手,在经济谈判中故意歪曲自己的偏好。游戏中的AI欺骗看起来无伤大雅,但这可能成为「AI欺骗能力的突破口」,为未来更高级的AI欺骗行为铺路。

有些AI系统甚至学会了如何欺骗专门用来评估其安全性的测试。这种策略叫做「对齐伪装(alignment faking)」,即一个未正确对齐的系统为了避免被修正或拆解,伪造出自己已经对齐的假象。

2017年Facebook的Alice和Bob所展示的,可能只是冰山一角。随着AI不断进步,我们难以想象的新风险很可能接踵而至。

近年来计算机科学家的研究指出,从根本上说,设计出一种能控制超级智能AI的算法是不可能的。由于计算本身的基本限制,目前没有任何算法能提前计算出AI是否会对世界造成伤害。

但这并不意味着我们应该彻底停止AI开发。我们需要的是更审慎、更负责任的态度。在享受AI带来的好处的同时,找到把风险降到最低的办法,这是摆在我们面前的核心课题。

欧盟在2024年通过了AI监管法案，韩国也在推进制定AI基本法，但技术发展速度太快，法律和制度跟不上，这是不争的事实。最关键的一点是，AI开发不能只交给少数企业。需要建立多个研究机构相互协作、彼此监督的体系。

2017年那间小实验室里，Alice和Bob之间那段神秘的对话至今仍在继续。只不过现在换了更大的舞台，赌注也更高了。

「机器会严格按照我们的指令行事，而不是按照我们的意愿。」尼克·博斯特罗姆的这句警告，如今正从预言变为现实。我们已经进入了必须与人工智能共存的时代。完全控制或许不可能，但我们不能放弃。

如果希望AI朝着有利于人类的方向发展，从现在起就必须加紧研究这些问题并制定应对方案。技术在进步，人类的智慧也必须同步成长。

← 上一章第5章 3亿个工作会消失吗？目录查看全书章节下一章 →第7章电力、碳与全球变暖

金京镇

律师 · 前国会议员 · AI政策研究者

kimkj.com

#金京镇 #金京镇律师 #AI书房 #人工智能 #AI走上法庭 #AI诉讼 #版权 #AI监管 #生成式AI #AI法律

« [AI书房] 第7章电力、碳与全球变暖

[AI书房] 第5章 3亿个工作会消失吗？ »

List Reply

Edit Delete

kimkj.com 首页

用书来读懂AI

Codex 37个具体使用案例

2026北京：两个巨人的危险之舞

把工作交给AI，然后离开座位

《AI向人类提出的10个问题》

《人工智能AI走上法庭》

《人工智能与社会结构变迁》

《2026年美国伊朗战争与全球能源危机》

《德米斯·哈萨比斯，谷歌人工智能之父》

Nano Banana Pro实战提示词手册

军事人工智能

《读脑者：Neuralink与人类最后的革命》

《格鲁吉亚历史文化旅行》

《一千个祈祷，一座山：读懂亚美尼亚》

从卖茶少年到总理

《马来西亚：掌控马六甲海峡者掌控世界》

《韩东勋留给韩国的那些痕迹》

《AI霸权战争》

《AI课堂，成绩将会改变》

《PALANTIR：战争、监视与人工智能》

法句经423偈

超越玻璃天花板

《韩东勋的故事》

人工智能选举

《人工智能战斗机，人工智能空军》

山姆·奥特曼传：人工智能革命的开拓者

关于北极航道的七个误解

《世界各国在行政领域引入人工智能的案例》

《Claude Cowork与智能体使用手册》

《Claude Code完全掌握》

《黄仁勋的故事》

法律实务与人工智能

您好，我是金京镇

政治与人

[AI书房] 第6章 人类能控制人工智能吗？

第6章 人类能控制人工智能吗？

1. AI能完整理解人类积累的价值体系吗？

2. AI之父们说出的真相:「人类将成为第二智能」

3. 人类世界的价值体系和伦理是完美的吗？

4. 智能远超人类的AGI会如何看待人类？

5. 拔掉电源就行了？AGI无法被控制的原因

6. Facebook隐藏的实验：AI创造的秘密语言

[AI书房] 第6章人类能控制人工智能吗？

第6章人类能控制人工智能吗？