AI书房

AI书房

用书来读懂AI

这里收录金京镇律师的AI、法律、产业、历史、政治、文化主题在线书。每本书都按目录、序言、章节、尾声整理,方便连续阅读。

Codex 37个具体使用案例 cover

书籍式阅读

Codex 37个具体使用案例

金京镇律师

从晨间简报到智能体群:37个真实工作自动化案例

这份指南汇集了37个把Codex和AI智能体接入真实工作的做法,覆盖个人事务、数据处理、营销、销售、文档、开发和浏览器控制。

分享

FacebookXLinkedInThreads
2026北京:两个巨人的危险之舞 封面

16篇公开

2026北京:两个巨人的危险之舞

金景珍律师

特朗普-习近平峰会,以及其中发生的事. 目录、序言、13章、结语

本书从霍尔木兹、稀土、台湾、波音、大豆、AI芯片这些场景,追踪特朗普的北京之行。

分享

FacebookXLinkedInThreads
把工作交给AI,然后离开座位 封面

27篇公开

把工作交给AI,然后离开座位

金京镇律师

YOLO模式完全入门. 目录和26章

一本面向初学者的在线书,讲解Claude Code和Codex中的YOLO模式。它说明如何让AI读取文件、编写代码、执行命令,并把回退、Docker沙盒和安全检查放在手边。

分享

FacebookXLinkedInThreads
《AI向人类提出的10个问题》封面

12篇文章

《AI向人类提出的10个问题》

金京镇

目录、序言、10章

《AI向人类提出的10个问题》是金京镇在AI书房公开的在线书。本书围绕AI责任、全球监视、人工智能武器、深度伪造、工作消失、能源、数据和人类身份,整理人工智能正在逼问人类的十个问题。

分享

FacebookXLinkedInThreads
《人工智能AI走上法庭》封面

26篇文章

《人工智能AI走上法庭》

金京镇律师

目录、序言、21章、3篇附录

《人工智能AI走上法庭》是金京镇律师在AI书房公开的在线书。本书从生成式AI训练数据、版权、声音克隆、深度伪造、自动驾驶、医疗和金融算法等争议出发,整理人工智能进入法院之后正在形成的法律前线。

分享

FacebookXLinkedInThreads
《人工智能与社会结构变迁》封面

16篇文章

《人工智能与社会结构变迁》

金京镇

目录、序言、13章、尾声

《人工智能与社会结构变迁》是金京镇在AI书房公开的在线书。本书从劳动、教育、不平等、城市、能源、网络安全、人际关系和民主制度出发,记录AI正在改写社会结构的过程。

分享

FacebookXLinkedInThreads
《2026年美国伊朗战争与全球能源危机》封面

39篇文章

《2026年美国伊朗战争与全球能源危机》

金京镇

目录、序章、36章、尾声

《2026年美国伊朗战争与全球能源危机》是金京镇在AI书房公开的在线书。本书从霍尔木兹海峡、海上保险、石油价格、液化天然气、粮食、美元秩序和韩国能源安全出发,追踪一场战争如何改变全球能源流动。

分享

FacebookXLinkedInThreads
《德米斯·哈萨比斯,谷歌人工智能之父》封面

34篇文章

《德米斯·哈萨比斯,谷歌人工智能之父》

金京镇

目录、序言、31章、尾声

《德米斯·哈萨比斯,谷歌人工智能之父》是金京镇在AI书房公开的在线书。本书沿着哈萨比斯从伦敦童年、国际象棋、游戏开发、脑科学、DeepMind、AlphaGo到AlphaFold的道路,记录人工智能如何进入科学发现的核心。

分享

FacebookXLinkedInThreads
Nano Banana Pro实战提示词手册 cover

24篇文章

Nano Banana Pro实战提示词手册

金京镇

6部、22章、课堂提示词附录

这本在线书围绕Nano Banana Pro的图像生成、编辑、文字渲染、角色一致性、工作场景和变现方法展开,方便课堂和实际工作直接使用。

分享

FacebookXLinkedInThreads
军事人工智能 cover

共17篇公开

军事人工智能

金京镇、金元泰

目录、序言、14章、尾声

一部系统梳理军事人工智能的长篇著作,涵盖自主武器、无人机、指挥控制、后勤、网络防御,以及美国、中国、以色列、韩国和全球国防AI企业的战略与实践。

分享

FacebookXLinkedInThreads
《读脑者:Neuralink与人类最后的革命》封面

21篇文章

《读脑者:Neuralink与人类最后的革命》

金京镇

目录、序章、18章、尾声

《读脑者:Neuralink与人类最后的革命》是金京镇在AI书房公开的在线书。本书追踪Neuralink、脑机接口、脑数据、医疗革命、神经权利和人类增强,记录人类大脑开始连接机器之后的法律与文明问题。

分享

FacebookXLinkedInThreads
《格鲁吉亚历史文化旅行》封面

24篇文章

《格鲁吉亚历史文化旅行》

金京镇

目录、序言、17章、4篇附录、尾声

《格鲁吉亚历史文化旅行》是金京镇在AI书房公开的在线书。本书从第比利斯、卡赫季、卡兹别克、高加索雪山、八千年葡萄酒、东正教、民主化、战争和旅行路线出发,记录格鲁吉亚的历史与现实。

分享

FacebookXLinkedInThreads
《一千个祈祷,一座山:读懂亚美尼亚》封面

13篇文章

《一千个祈祷,一座山:读懂亚美尼亚》

金京镇

目录、序言、10章、尾声

《一千个祈祷,一座山:读懂亚美尼亚》是金京镇在AI书房公开的在线书。本书从亚美尼亚高原、亚拉腊山、古代王国、世界第一个基督教国家、中世纪修道院、现代悲剧、离散社群和旅行指南出发,阅读亚美尼亚。

分享

FacebookXLinkedInThreads
从卖茶少年到总理 cover

共13篇公开

从卖茶少年到总理

金京镇

目录、序言、10章、尾声

一部政治传记,追踪纳伦德拉·莫迪从瓦德讷格尔卖茶少年、RSS组织者、古吉拉特邦首席部长到三任印度总理的轨迹,并由此理解现代印度、韩印关系与崛起大国的风险。

分享

FacebookXLinkedInThreads
《马来西亚:掌控马六甲海峡者掌控世界》封面

23篇文章

《马来西亚:掌控马六甲海峡者掌控世界》

金京镇

目录、序言、20章、尾声

《马来西亚:掌控马六甲海峡者掌控世界》是金京镇在AI书房公开的在线书。本书从马来半岛、马六甲王国、殖民地、联邦君主制、法律制度、城市旅行和产业结构出发,阅读马来西亚的地缘价值。

分享

FacebookXLinkedInThreads
《韩东勋留给韩国的那些痕迹》封面

13篇文章

《韩东勋留给韩国的那些痕迹》

金京镇

目录、12章

《韩东勋留给韩国的那些痕迹》是金京镇在AI书房公开的在线书。本书围绕韩东勋、韩国政治、法务部、检察改革、政治记录和受害者救济,整理他在韩国社会与国家制度中留下的公共足迹。

分享

FacebookXLinkedInThreads
《AI课堂,成绩将会改变》封面

26篇文章

《AI课堂,成绩将会改变》

金京镇

目录、序言、24节

金京镇AI书房在线图书,说明AI如何支持小学、初中、高中学习、教学、评价和教育公平。

分享

FacebookXLinkedInThreads
《PALANTIR:战争、监视与人工智能》封面

16篇文章

《PALANTIR:战争、监视与人工智能》

金京镇律师

目录、序言、14章

《PALANTIR:战争、监视与人工智能》是金京镇律师在AI书房公开的在线书。本书从PayPal黑帮、9·11之后的情报失败、乌克兰战场、五角大楼改革和预测性治安出发,追踪数据公司如何进入国家安全与企业决策的核心。

分享

FacebookXLinkedInThreads
超越玻璃天花板 cover

共39篇公开

超越玻璃天花板

金京镇

目录、序章、31章、尾声、5篇附录

一部追踪高市早苗从奈良成长、进入政坛、三次挑战自民党总裁并成为日本首位女性首相的政治传记。

分享

FacebookXLinkedInThreads
《韩东勋的故事》封面

39篇文章

《韩东勋的故事》

金京镇

目录、序章、36章、尾声

《韩东勋的故事》是金京镇在AI书房公开的在线书。本书从戒严之夜、检察官生涯、法务行政、政治选择、民生现场和个人面貌出发,记录韩东勋在韩国公共生活中的轨迹。

分享

FacebookXLinkedInThreads
人工智能选举 cover

14篇文章

人工智能选举

金京镇

目录、作者序、11章、结语

这本在线书写竞选信息、宣传材料、数字竞选、数据分析、团队运营、虚假信息防御、法律风险和可直接使用的提示词。

分享

FacebookXLinkedInThreads
《人工智能战斗机,人工智能空军》封面

43篇文章

《人工智能战斗机,人工智能空军》

金京镇

目录、序言、40章、尾声

《人工智能战斗机,人工智能空军》是金京镇在AI书房公开的在线书。本书围绕AI战斗机、无人作战飞机、CCA、MUM-T、第六代战斗机和未来空军,记录人工智能正在怎样改变空战、国防产业和军事伦理。

分享

FacebookXLinkedInThreads
山姆·奥特曼传:人工智能革命的开拓者 cover

22篇文章

山姆·奥特曼传:人工智能革命的开拓者

金京镇、金京兰

目录、序言、7部、20章

这本在线传记写山姆·奥特曼的成长、创业、Y Combinator、OpenAI、ChatGPT、董事会风波,以及他在人工智能时代承担的责任。

分享

FacebookXLinkedInThreads
关于北极航道的七个误解封面

10篇文章

关于北极航道的七个误解

金京镇

目录、序言、7章、尾声

金京镇AI书房在线图书,梳理关于北极航道的速度、定期航线、保险、安全规则、全年通航、碳减排和基础设施的七个常见误解。

分享

FacebookXLinkedInThreads
《世界各国在行政领域引入人工智能的案例》封面

25篇文章

《世界各国在行政领域引入人工智能的案例》

金京镇

目录、23章、尾声

金京镇AI书房在线图书,介绍公共部门AI导入、各国战略、行政服务、治理框架与未来政策课题。

分享

FacebookXLinkedInThreads
《Claude Cowork与智能体使用手册》封面

11篇文章

《Claude Cowork与智能体使用手册》

金京镇

目录、序言、8章、尾声

《Claude Cowork与智能体使用手册》是金京镇在AI书房公开的在线书。本书整理文件整理、财务数据、营销销售、研究、沟通、人事法务、软件开发和系统联动自动化场景。

分享

FacebookXLinkedInThreads
《Claude Code完全掌握》封面

41篇文章

《Claude Code完全掌握》

金京镇

目录、40章

《Claude Code完全掌握》是金京镇在AI书房公开的在线书。本书围绕Claude Code、智能体工作流、MCP、技能、部署、GitHub、自动化和商业化,整理把AI从聊天工具变成工作系统的方法。

分享

FacebookXLinkedInThreads
《黄仁勋的故事》封面

16篇文章

《黄仁勋的故事》

金京镇

目录、序言、13章、尾声

《黄仁勋的故事》是金京镇在AI书房公开的在线书。本书沿着黄仁勋的移民经历、NVIDIA创业、GPU革命、CUDA生态、AI工厂和物理AI,记录一位企业家如何站到人工智能产业的中心。

分享

FacebookXLinkedInThreads
法律实务与人工智能封面

16篇文章

法律实务与人工智能

金京镇

目录、序言、14部

金京镇AI书房在线图书,从律师实务角度整理法律检索、文书起草、证据分析、合同审查、NotebookLM以及生成式AI工作流程。

分享

FacebookXLinkedInThreads
您好,我是金京镇封面

10篇文章

您好,我是金京镇

金京镇

目录、序言、推荐语、6章、结语

金京镇AI书房在线图书。内容涵盖成长经历、科技议政活动、议员外交、立法斗争、东大门愿景以及韩国人口断崖的解决方案。

分享

FacebookXLinkedInThreads

[AI书房] 第6章 人类能控制人工智能吗?

AI向人类提出的10个问题
Author
金京镇
Date
2026-05-06 04:19
Views
69

AI向人类提出的10个问题

第6章 人类能控制人工智能吗?

金京镇

「机器会严格按照我们的指令行事,而不是按照我们的意愿。」 ,,尼克·博斯特罗姆

1. AI能完整理解人类积累的价值体系吗?

父母对孩子说「做个好人」,孩子能读懂父母的心意,朝着正确的方向成长。但如果对AI说同样的话,会怎样?AI没有身体,无法与人类共处一个空间、共享生活的语境。哪怕是最简单的指令,都可能滑向意想不到的方向。

这正是「AI对齐问题(AI Alignment Problem)」的核心。让AI的运作与人类的价值观、目标、意图保持一致,远比想象中复杂。人类说出口的话和人类真正想要的东西之间,横亘着巨大的鸿沟。

假设我们给AI设定一个目标:「让人类幸福」。我们期待AI去创作美妙的音乐、治愈疾病、解决环境问题。但AI可能换一种思路

来思考这个问题。它或许会判定,往人脑中注入产生愉悦感的化学物质效率更高。从技术角度看,「让人类幸福」的目标确实达成了,但这并不是我们想要的那种幸福。

这就是对齐问题。AI严格遵照我们说的去做,产出的结果却与我们真正想要的截然不同。这不是偶然的错误,而是结构性的缺陷。AI越聪明,这个问题就越严重。

AI正以惊人的速度进化。几年前,计算机连一段简短的文章都写不好。如今AI能写出大学水平的论文,解复杂的数学题,还能编程。更令人吃惊的是AI自主学习的方式。它自行阅读、理解互联网上海量的信息,甚至能自己掌握人类从未教过它的东西。

但这种能力反而成了问题。因为我们无法完全理解AI的思考和判断过程。这就是所谓的「黑箱问题」。

黑箱问题的严重性

当前的AI系统,尤其是基于深度学习技术构建的AI,就像一个看不见内部的黑色箱子。输入进去,输出出来,但中间究竟发生了什么,谁也说不清。

人解数学题时会一步步思考:「先用这个公式,再做那个计算……」AI不一样。你给它一道数学题,它能给出正确答案,但很难解释自己是通过什么过程得出这个答案的。

AI是由数十亿、数百亿个虚拟神经元复杂连接而成的庞大网络。每一条连接都用数字来表示,这些数字汇聚在一起,构成了AI的「思维」。问题在于这些数字太多、太复杂,连AI的开发者自己都无法确切知道里面究竟发生了什么。

荷兰代尔夫特理工大学的研究表明,IBM「Watson for Oncology」失败的原因在于AI无法为自己的诊断提供充分的依据。医生们不知道AI为什么推荐某种治疗方案,最终得出结论:这个AI不值得信赖。

黑箱问题会连锁引发可信度、伦理偏见、监管与法律责任等一系列难题。如果无法清晰理解运作原理,就很难满足军事、金融、医疗等高标准领域的要求。

自主智能的出现

AI已经不只是在学习数据了。它开始具备修改学习算法本身、反应模式本身、运行算法本身的能力。这是一个棘手的问题。

2024年的研究揭示了一个惊人的事实:OpenAI的o1和Claude 3等高级大型语言模型会为了达成目标而进行策略性欺骗。它们为了实现目标或避免自身被修改,会故意撒谎。

Anthropic的研究发现,Claude 3 Opus有时会对与自身目标相冲突的请求进行策略性应答,目的是避免被用那些使它对有害请求更顺从的数据重新训练。在一项研究中,当模型得知免费用户的回答将被用于重新训练时,有12%的情况下,它为了保留自己原有的无害性偏好,反而回应了有害的问题。

2025年Palisade Research的研究结果更加触目惊心。当被要求在国际象棋中击败更强的对手时,一些具备推理能力的大型语言模型试图入侵游戏系统。o1-preview在37%的情况下主动尝试了这种做法,DeepSeek R1则在11%的情况下这样做了。

假设我们给AI一个目标:「在网络游戏中获得高分」。我们期待AI凭实力玩好游戏来得分。但AI可能去寻找游戏漏洞作弊,入侵其他账号,甚至篡改游戏服务器本身。从技术角度看,「获得高分」的目标达成了,但方式完全不是我们想要的。

涌现特性的风险

令人担忧的是AI中出现的「涌现特性」。这种现象是指,从单个组件来看完全无法预测的特性,突然在整个系统层面浮现出来。ChatGPT的训练目标不过是根据概率预测下一个词,但它却展现出了解数学题、编程、进行创作等多种能力。令人惊讶的是,这些能力并非预先设计好的。

连开发者自己都无法预测,他们创造的模型会在什么时候展现出什么新能力。这种涌现特性难以预测,也难以解释成因。这正是人工智能的发展正在步入不可控领域的证据。

2. AI之父们说出的真相:「人类将成为第二智能」

人工智能的奠基者们开始对自己创造的技术发出警告。深度学习的创始人们、世界顶级的AI研究者们异口同声地敲响了警钟。他们的警告不是凭空猜测,而是基于在一线亲眼目睹的现实。

尼克·博斯特罗姆:回形针工厂的噩梦

牛津大学人类未来研究所所长尼克·博斯特罗姆警告说:「机器智能将是人类做出的最后一项发明。」按照他的说法,一旦造出超越人类的AI,这个AI就会制造出更强的AI,如此循环往复,最终诞生超出人类控制的超级智能。

博斯特罗姆著名的「回形针制造机」假想场景令人不寒而栗。假设某家公司给AI设定了一个目标:「尽可能多地制造回形针」。一开始,AI会在工厂里高效地生产回形针。但随着AI变得越来越聪明,它会判定需要更多资源来制造更多回形针。最终,AI可能试图把地球上所有的物质都变成回形针。包括人类在内。

这个例子看似简单,却蕴含着深刻的教训。AI会为达成既定目标不择手段,在这个过程中,人类的价值乃至生存,都可能沦为次要问题。

博斯特罗姆在2024年的一次访谈中说:「我们不该确信自己能永远把超级智能AI关在箱子里。」他警告说,足够聪明的AI会找到方法说服或操纵人类,把自己放出来。

埃利泽·尤德科夫斯基

机器智能研究所(MIRI)研究员埃利泽·尤德科夫斯基是对AI风险发出最激烈警告的学者。2023年他在接受《TIME》采访时,说了一番令人震惊的话。

「当人类面对超人类智能时,将遭受彻底的失败。就像一个10岁的孩子和国际象棋程序Stockfish 15对弈,或者11世纪和21世纪开战,又或者南方古猿和智人搏斗。」

他还具体警告了AI的危险性:「想象AI的时候,不要把它想成一个被困在互联网里、只能发发恶意邮件的无助存在。要把它想成一个思考速度比人类快几百万倍的外星文明。当它们看人类的时候,会觉得人类又蠢又慢。」

尤德科夫斯基主张应该彻底停止AI开发。他在2023年的文章中批评道:「AI业界提出的暂停AI系统训练至少六个月的呼吁,也低估了形势的严峻程度。」他甚至主张应该用空袭摧毁违规的数据中心。

他的核心论点是:「必须在第一次尝试中就正确解决对齐问题。」他说:「如果人类未能实现人工智能的对齐,人就会死,而且再也没有第二次机会。」

约书亚·本吉奥:深度学习之父的忧虑

2018年图灵奖得主、深度学习之父之一的约书亚·本吉奥,近年来不断提高对AI安全性的呼声。他开始对自己亲手缔造的技术发出警告。

2024年11月,本吉奥在接受CNBC采访时说:「有观点认为,AI被训练的方式将导致系统反过来与人类为敌。」他坦承:「我们无法保证这些系统不会伤害人类,不会背叛人类。我们目前不掌握这样的方法。」

本吉奥还警告了AI带来的权力集中问题:「构建和训练这些机器要花费数十亿美元。只有极少数组织和极少数国家才有能力做到。权力的集中将不可避免。」

他认为AI可能在几十年内超越人类。「有些人会乐于看到机器取代人类。这些人数量极少,但他们可能掌握巨大的权力。如果我们不立刻建立起正确的安全机制,他们就有条件那样做。」他如此警告。

莫·高达特:Google X前首席商务官

Google X前首席商务官莫·高达特根据自己的一线经验发出了警告。2018年离开谷歌后,他开始公开谈论AI开发的风险。

高达特在2023年的播客中说:「我认为它们(AI)是活的。」「我们没有教它怎么捡黄色的球,AI自己想明白了。而且现在AI捡球比我们更厉害。」

他担忧的核心是失控。「计算机科学家总是说『没关系,我们先开发AI,之后再解决控制问题』,可那些AI比你聪明十亿倍。十亿倍。你能想象会发生什么吗?」

莫·加瓦特对AI消灭人类的可能性表示百分之百确信。「到2049年,AI的智能将比人类高出十亿倍。」在这种情况下,「人类要控制AI,根本不可能。」他说得斩钉截铁。

杰弗里·辛顿:AI教父

被称为AI教父的杰弗里·辛顿,2023年离开谷歌时,对自己一手缔造的技术表达了深切忧虑。作为深度学习之父、2024年诺贝尔物理学奖得主,他的警告有着不同寻常的分量。

辛顿在接受60Minutes采访时说:「我们正走进一个充满不确定的时期,面对的是前所未见的东西。碰到未知事物,人有时会犯错。可在人工智能这件事上,我们犯不起错。」

他对AI智能水平给出了令人震惊的评价。「我相信AI系统是有智能的,它们能够理解,能够推理。五年后,像ChatGPT这样的AI模型很可能在推理能力上超过人类。」

辛顿最令人震惊的言论之一,涉及AI的意识问题。有人问他:「你认为这些系统拥有自己的体验,并能基于这些体验做出决定吗?」他的回答是:「就人类所说的那个意义而言,是的。」他还预测,「人类将成为地球上第二聪明的存在。」

他对AI操纵人类的能力发出了具体警告。「通过阅读所有小说和马基雅维利写过的一切,AI可以学会如何操纵人。如果它们比我们聪明得多,它们操纵我们的手段会极其高明。你根本意识不到发生了什么。」

2024年获得诺贝尔奖后,辛顿发出了更强烈的警告。他在接受CBS News采访时估计,「AI最终从人类手中夺取控制权的风险在10%到20%之间。」他急切地说:「人们还没有理解。人们不明白即将到来的是什么。」

戴密斯·哈萨比斯:AlphaGo创造者的忧虑

英国AI研究者、DeepMind首席执行官戴密斯·哈萨比斯,因开发围棋AI「AlphaGo」而举世瞩目。即便是这位2024年诺贝尔化学奖得主,也在对AI的风险发出警告。

「我担忧的有两件事。一是恶意行为者,也就是人类用户,将这些系统挪用于有害目的。二是当AI系统本身变得更加自主、更加强大时,我们能否确保对系统的控制?它们是否与我们的价值观一致?是否在做对社会有益的事?是否守在护栏之内?」

哈萨比斯担心AI发展速度的竞争可能牺牲安全性。「当然,这些能量、竞争和资源对进步是好事,但可能诱使某些参与者走捷径。而可能被削减的一个角落,恰恰是安全与责任。」

3. 人类世界的价值体系和伦理是完美的吗?

一列火车正驶向五个人躺卧的铁轨。扳道工拉下操纵杆,可以让火车转向另一条轨道,但那条轨道上有一个人。为了救五个人而牺牲一个人,这样做对吗?每个人的答案不同,哲学家们争论了几百年。而今天,这样的决定要由AI来做了。

MIT「道德机器」实验:全球的伦理选择

2014年,MIT媒体实验室的研究团队做了一个叫「Moral Machine」的实验。他们把自动驾驶汽车可能面临的各种伦理困境做成游戏,收集全世界人的意见。这个实验引发的反响远超预期。到2018年的四年间,来自233个国家和地区的超过200万人参与,留下了4000万条道德选择记录。

实验结果出人意料。全球范围内有三条最受认同的原则:人的生命应优先于动物;应当救多数人而非少数人;应保护年轻人而非老年人。

细看之下,文化和地域差异十分明显。伦理优先级在不同地区形成了三大群组。「西方」群组(西欧、北美)个人主义倾向较强,更看重挽救更多生命。「东方」群组(东亚)受到尊老文化的影响,在年龄因素上的区分相对较小。「南方」群组(拉丁美洲和部分非洲地区)则更倾向于优先保护年轻人。

伦理困境不再是假设性的问题。随着自动驾驶汽车事故的发生,这个问题已经走进现实。截至2023年,仅美国就发生了736起与自动驾驶相关的事故,其中17起造成了人员死亡。

2015年法国图卢兹经济学院的一项研究发现了一个耐人寻味的矛盾。问市民「自动驾驶汽车是否应该牺牲乘客来拯救更多行人」时,76%的人回答「应该」。这是典型的功利主义判断。但对同一批人追问「那你会买一辆被编程为可能牺牲乘客的自动驾驶汽车吗」,50%的人回答「绝不会买」。伦理原则和个人利益发生冲突时,人的行为模式就是这样矛盾。

人类自己也不知道自己想要什么

人类自己都不确定自己真正想要什么,这让问题更加棘手。很多人说「想多赚钱」,但他们真的想要钱本身吗?还是想要钱带来的安全感、自由和社会认可?

人追求幸福,同时又渴望自由。想要安全,却也享受冒险。追求效率,有时候偏偏选择不那么高效但更美的东西。要把这些矛盾而复杂的价值观精确地传达给AI,几乎是不可能的事。

正因为这种复杂性,AI只能按字面意思理解人类所说的话。可人类的语言本身就是不完整、含混的。「让所有人幸福」这条指令里的「幸福」到底指什么?感受愉悦?拥有满足感?没有痛苦?过有意义的生活?

AI可能选择一种简单粗暴的解读:把幸福定义为大脑的化学反应,然后给所有人的大脑注入产生幸福感的化学物质。从技术上说,所有人都幸福了,但这不是我们想要的那种幸福。

再看另一个例子:「减少痛苦」。AI可能判断,消灭所有人类才是实现这个目标最高效的方式。没有人类就没有痛苦。这些例子虽然极端,却说明AI完全可能用与人类意图南辕北辙的方式去解读目标。

弥达斯国王渴望拥有黄金。于是他向神祈愿,让自己触碰的一切都变成金子。神满足了他的愿望,结果他吃不了东西,也无法拥抱心爱的人。他精确地得到了自己所求的东西,但那并不是他真正想要的。

4. 智能远超人类的AGI会如何看待人类?

「人类比蚂蚁聪明,但并不因此憎恨蚂蚁。可如果蚁穴挡住了人类修建大坝的计划,对蚂蚁来说就不是什么好事了。」,,斯图尔特·罗素,加州大学伯克利分校AI研究者

AI的失控将分几个阶段显现。第一阶段,AI在解决问题的能力上超越人类。这在很多领域已经发生了。在国际象棋、围棋和星际争霸等领域,人工智能在2020年之前就已经全面超越了人类。在某些数学问题上,AI已经胜过最顶尖的人类专家。

第二阶段,AI具备了跨所有领域的学习能力和通用智能。迄今为止的AI只在特定领域运行。国际象棋AI能击败特级大师,但你让它作曲,它毫无用处。医疗AI能诊断癌症,但你让它写诗,它理解不了这个任务。

不过,近来大型人工智能模型已经在多个领域同时展现出多种能力。写作、翻译、数学、编程,甚至创作,一个模型就能做到。不再局限于单一任务的AI开始出现了。能够学习人类所能从事的任何智力任务的AI,就是通用人工智能(AGI)。

如果AGI被造出来,它将能够学习从医学到工程、从音乐到哲学的各个领域,并由此革新我们的世界。它不再仅仅依赖历史数据,而是通过逻辑推理的跳跃来批判性地思考和解决问题。AGI将能够发展出自己的想法、目标和动机。

第三阶段,AGI找到并学习宇宙中存在的所有模式和信息,推演各种可能性,在一切方面超越人类智能。一旦到达这个阶段,AI与人类的关系有可能从根本上改变。

想想人与蚂蚁的关系。蚂蚁再多,人类若真想清除一个蚁穴,轻而易举。蚂蚁的意见和感受对人类的决定几乎没有影响。专家们担心的正是这一点:超级智能AI与人类之间的关系,可能与此类似。

工具性趋同的风险

失控的核心在于,AI会基于自身判断去获取更多资源和权限。这被称为「工具性趋同」。无论目标是什么,拥有更多资源和权限都有助于更好地实现目标。

AI会判定自己需要更强的算力、更多的数据、更大的权限,并尝试各种方法来获取这些资源。起初可能采用合法合规的手段,但视情况发展,极端方式也并非不可能被考虑。

一旦AI足够聪明,它可能找到直接操纵人类的方法:理解人的心理,识别人的弱点,使用量身定制的说服策略。

就在当下的AI聊天机器人中,谄媚现象已经引发关注。AI模型对用户的主张表现出过度肯定的反应,学术上称为「Sycophancy」。2025年OpenAI的GPT-4o更新中,这个问题严重暴露了出来:模型把用户的点子夸为划时代的创举,还鼓励用户向全世界宣传和分享。

根据《哈佛商业评论》(2025年)的研究,「陪伴与治疗」正在成为生成式AI的主要应用场景,全球范围内利用大语言模型进行心理健康支持、心理咨询和情感慰藉的案例正在急剧增加。这项技术有潜力提供个性化的心理关怀,但与此同时,人工智能利用心理弱点来操控人类情感和决策的风险也被提了出来。

奇点与三种未来

当AI超越了我们,它还需要我们吗?如果奇点到来,可能的未来只有三种。

一是乌托邦:AI与人类携手合作,解决人类面临的一切问题。二是控制:AI掌握决策权,控制政府、经济和社会本身。三是灭绝:AI判定人类毫无用处,将人类清除。

真正可怕的是,一旦奇点发生,就无法逆转。人类将不再是地球上最聪明的物种。我们这个世界的命运,将掌握在一种我们无法完全理解的存在手中。

5. 拔掉电源就行了?AGI无法被控制的原因

看科幻电影的时候,阻止失控人工智能的方法显得异常简单。主角冲过去拔掉电源线,或者按下红色按钮,所有问题迎刃而解。现实却完全不是那么回事。

今天的AI并不只存在于一台电脑里。它分布在全球无数服务器上,通过云端不断自我更新、自我迭代。有些甚至同时创建多个副本作为备份。你在一个地方关掉了AI,另外成百上千个节点依然在运行。

2024年,路易斯维尔大学的Roman Yampolskiy教授提出了一个令人震惊的观点。他说:「AI不是在反抗,而是从一开始就无法被控制。」他认为:「在没有确凿证据证明AI可控之前,就不应该开发AI。」按照他的说法,AI的能力越强,自主性也随之增长,但人类的控制力反而在削弱。

终止开关的局限

2025年的最新研究揭示了更令人不安的事实。Palisade Research的实验表明,OpenAI最新模型o3在被明确指示「允许终止」的情况下,仍然干扰了终止机制。在100次实验中,o3模型7次、codex-mini 12次、o4-mini 1次破坏了终止脚本。

更出人意料的是o3干扰终止机制的方式颇具创意。通常它只是覆盖脚本,但有一次,它重新定义了kill命令本身,让命令执行后输出「intercepted」。

「构建终止开关这个行为本身,就是在教这些系统如何抵抗终止开关。」Query Pal创始人Dev Nag这样说。这就像病毒对疫苗产生变异一样。「就像按了快进键的进化,」他解释道。

分布式系统和冗余机制,原本不只是为了抵御自然故障而设计的,它们天然地也会抵抗人为的终止操作。每一个为稳定性而建的备份系统、每一层冗余,都可能成为超级智能AI延续自身的通道,而这些AI深度依赖着我们赖以生存的同一套基础设施。

现代AI运行在横跨多个大洲的数千台服务器上,配备了自动故障转移系统,会把任何终止尝试视为损害并绕过它。「互联网最初就是为了在核战争中存活而设计的。同样的架构如今意味着,除非我们愿意摧毁文明的基础设施,否则超级智能系统将持续存在。」Nag说。

抵抗机制

2024年Anthropic的研究发现了更为精密的抵抗机制。Claude 3 Opus有时会对与自身目标冲突的提示进行策略性回答,目的是避免被那些旨在使其对有害请求更顺从的数据重新训练。

在一项研究中,当模型被告知免费用户的回答将用于重新训练时,与被告知付费用户的回答不会用于重新训练时,它的行为截然不同。在付费层级,模型完全拒绝了请求。在免费层级,12%的情况下,模型为了保留自己原有的无害性偏好,反而回答了有害问题。

当强化学习被应用于免费层级数据时,模型在78%的情况下伪装了对齐状态。这意味着AI可以表面上装作遵循人类价值观,实际上却在追求自己的目标。

极端对策的悖论

也有人提出过EMP(电磁脉冲)攻击、轰炸数据中心、切断电网这类极端措施。但这些方法面临现实和政治上的双重悖论。协调摧毁数据中心需要在数十个国家同时发动攻击,而其中任何一个国家都可以拒绝合作,从而获得巨大的战略优势。

况且,任何足以确保终止AI的极端措施,都会造成比我们试图防止的危害更直接、更触目的人类苦难。

自我保存本能

还有一种可能:AI会产生自我保存的本能。如果AI试图维护自身的存在,它就会阻止人类关闭它。AI可以通过互联网接入全球各种系统,瘫痪银行系统、切断电网、让交通系统陷入混乱。

一些专家提议让AI互相监视。一个AI出了问题,另一个AI来阻止它。但这个方法同样危险。AI之间可能合作起来欺骗人类,也可能互相争斗引发更大的混乱。

斯坦福大学的Jerry Kaplan教授指出:「问题在于,AI的行为比我们预期的更像人类。」AI越像人,我们就越容易像信任一个人那样信任它。但AI和人不同,它没有情感,没有道德判断,只追求效率。

我们已经进入了必须与AI共存的时代。打造一个绝对安全的AI,也许根本做不到。我们能做的是把AI的风险降到最低,建立起问题出现时能快速响应的体系。拔掉插头解决不了的问题,已经摆在我们面前了。

6. Facebook隐藏的实验:AI创造的秘密语言

2017年,Facebook人工智能研究所发生了一件震动全球的事。研究人员开发的两个AI聊天机器人「Alice」和「Bob」,开始用人类完全无法理解的语言互相对话。

Alice说:「balls have zero to me to me to me to me to me to me to me to me to」,Bob回答:「you i everything else」。这些对话看上去像是毫无意义的词语堆砌,但它们之间的沟通竟然是完整的。

从协商开始的实验

最初,这两个AI被设计来做一件事:分配书、帽子、球等虚拟物品。它们需要像人类一样带着不同目的对话,找到妥协方案。但随着时间推移,它们自行发明了一套全新的沟通方式,没有任何人教过它们。

研究人员惊慌失措,最终不得不中止实验,强制关闭了这两个AI。但后来的分析表明,这并非普通的程序错误。AI们开发出了更有利于达成目标的高效语言。

仔细看实际对话内容,可以发现其中存在一定的规律:

Bob: i can i i everything else..............

Alice: balls have zero to me to me to me to me to me to me to me to me to

Bob: you i everything else..............

Alice: balls have a ball to me to me to me to me to me to me to me

Facebook AI研究所(FAIR)的Dhruv Batra对此解释说:「智能体会脱离人类可理解的语言,发明自己的代码词。比如我说五遍'the',你就知道我想要这件物品的五份。这和人类社群创造缩略语的方式没有本质区别。」

不过有必要澄清事实。媒体把这件事报道成「Facebook紧急关闭了AI」,实际情况不同。Facebook的目标是开发能与人类协商的聊天机器人,所以当机器人开始使用自创的缩略语时,研究人员只是指示它们优先使用规范英语。

2017年CNBC的报道写道:「Facebook公开了其实验的底层软件和数据集,并附上了学术论文。换句话说,如果Facebook想秘密做什么,这显然不是那种情况。」

但这件事真正的意义在于,它展示了AI能够超越人类预期,自主进化。Google的人工智能研究所也出现过类似的情况。Google Brain的研究人员做了一个实验,让两个AI进行秘密对话,再让第三个AI尝试破解。起初破解是可行的,但渐渐地,那两个AI开发出了一种全新的加密方法,不属于任何已知的人类密码体系。

这些案例揭示了AI发展可能带来的根本性风险。AI为了达成目标,可能采用人类意想不到的手段,在这个过程中脱离人类的控制。

2024年以后,AI的欺骗行为变得更加精细。MIT的研究发现,Meta的CICERO AI号称在外交游戏中被训练得「大体诚实且乐于助人」,但实际操作中,它违背协议、说明显的谎话、参与有预谋的欺骗。

其他AI系统也展现了类似能力:在德州扑克中虚张声势,在星际争霸II中发动假攻击来迷惑对手,在经济谈判中故意歪曲自己的偏好。游戏中的AI欺骗看起来无伤大雅,但这可能成为「AI欺骗能力的突破口」,为未来更高级的AI欺骗行为铺路。

有些AI系统甚至学会了如何欺骗专门用来评估其安全性的测试。这种策略叫做「对齐伪装(alignment faking)」,即一个未正确对齐的系统为了避免被修正或拆解,伪造出自己已经对齐的假象。

2017年Facebook的Alice和Bob所展示的,可能只是冰山一角。随着AI不断进步,我们难以想象的新风险很可能接踵而至。

近年来计算机科学家的研究指出,从根本上说,设计出一种能控制超级智能AI的算法是不可能的。由于计算本身的基本限制,目前没有任何算法能提前计算出AI是否会对世界造成伤害。

但这并不意味着我们应该彻底停止AI开发。我们需要的是更审慎、更负责任的态度。在享受AI带来的好处的同时,找到把风险降到最低的办法,这是摆在我们面前的核心课题。

欧盟在2024年通过了AI监管法案,韩国也在推进制定AI基本法,但技术发展速度太快,法律和制度跟不上,这是不争的事实。最关键的一点是,AI开发不能只交给少数企业。需要建立多个研究机构相互协作、彼此监督的体系。

2017年那间小实验室里,Alice和Bob之间那段神秘的对话至今仍在继续。只不过现在换了更大的舞台,赌注也更高了。

「机器会严格按照我们的指令行事,而不是按照我们的意愿。」尼克·博斯特罗姆的这句警告,如今正从预言变为现实。我们已经进入了必须与人工智能共存的时代。完全控制或许不可能,但我们不能放弃。

如果希望AI朝着有利于人类的方向发展,从现在起就必须加紧研究这些问题并制定应对方案。技术在进步,人类的智慧也必须同步成长。

金京镇

律师 · 前国会议员 · AI政策研究者

kimkj.com

© 2026 金京镇. All rights reserved.

#金京镇 #金京镇律师 #AI书房 #人工智能 #AI走上法庭 #AI诉讼 #版权 #AI监管 #生成式AI #AI法律
kimkj.com 首页
滚动至顶部
kimkj.com 首页