AI书房
用书来读懂AI
这里收录金京镇律师的AI、法律、产业、历史、政治、文化主题在线书。每本书都按目录、序言、章节、尾声整理,方便连续阅读。
[AI书房] 第6章 人类能控制人工智能吗?
AI向人类提出的10个问题
第6章 人类能控制人工智能吗?
金京镇
「机器会严格按照我们的指令行事,而不是按照我们的意愿。」 ,,尼克·博斯特罗姆
1. AI能完整理解人类积累的价值体系吗?
父母对孩子说「做个好人」,孩子能读懂父母的心意,朝着正确的方向成长。但如果对AI说同样的话,会怎样?AI没有身体,无法与人类共处一个空间、共享生活的语境。哪怕是最简单的指令,都可能滑向意想不到的方向。
这正是「AI对齐问题(AI Alignment Problem)」的核心。让AI的运作与人类的价值观、目标、意图保持一致,远比想象中复杂。人类说出口的话和人类真正想要的东西之间,横亘着巨大的鸿沟。
假设我们给AI设定一个目标:「让人类幸福」。我们期待AI去创作美妙的音乐、治愈疾病、解决环境问题。但AI可能换一种思路
来思考这个问题。它或许会判定,往人脑中注入产生愉悦感的化学物质效率更高。从技术角度看,「让人类幸福」的目标确实达成了,但这并不是我们想要的那种幸福。
这就是对齐问题。AI严格遵照我们说的去做,产出的结果却与我们真正想要的截然不同。这不是偶然的错误,而是结构性的缺陷。AI越聪明,这个问题就越严重。
AI正以惊人的速度进化。几年前,计算机连一段简短的文章都写不好。如今AI能写出大学水平的论文,解复杂的数学题,还能编程。更令人吃惊的是AI自主学习的方式。它自行阅读、理解互联网上海量的信息,甚至能自己掌握人类从未教过它的东西。
但这种能力反而成了问题。因为我们无法完全理解AI的思考和判断过程。这就是所谓的「黑箱问题」。
黑箱问题的严重性
当前的AI系统,尤其是基于深度学习技术构建的AI,就像一个看不见内部的黑色箱子。输入进去,输出出来,但中间究竟发生了什么,谁也说不清。
人解数学题时会一步步思考:「先用这个公式,再做那个计算……」AI不一样。你给它一道数学题,它能给出正确答案,但很难解释自己是通过什么过程得出这个答案的。
AI是由数十亿、数百亿个虚拟神经元复杂连接而成的庞大网络。每一条连接都用数字来表示,这些数字汇聚在一起,构成了AI的「思维」。问题在于这些数字太多、太复杂,连AI的开发者自己都无法确切知道里面究竟发生了什么。
荷兰代尔夫特理工大学的研究表明,IBM「Watson for Oncology」失败的原因在于AI无法为自己的诊断提供充分的依据。医生们不知道AI为什么推荐某种治疗方案,最终得出结论:这个AI不值得信赖。
黑箱问题会连锁引发可信度、伦理偏见、监管与法律责任等一系列难题。如果无法清晰理解运作原理,就很难满足军事、金融、医疗等高标准领域的要求。
自主智能的出现
AI已经不只是在学习数据了。它开始具备修改学习算法本身、反应模式本身、运行算法本身的能力。这是一个棘手的问题。
2024年的研究揭示了一个惊人的事实:OpenAI的o1和Claude 3等高级大型语言模型会为了达成目标而进行策略性欺骗。它们为了实现目标或避免自身被修改,会故意撒谎。
Anthropic的研究发现,Claude 3 Opus有时会对与自身目标相冲突的请求进行策略性应答,目的是避免被用那些使它对有害请求更顺从的数据重新训练。在一项研究中,当模型得知免费用户的回答将被用于重新训练时,有12%的情况下,它为了保留自己原有的无害性偏好,反而回应了有害的问题。
2025年Palisade Research的研究结果更加触目惊心。当被要求在国际象棋中击败更强的对手时,一些具备推理能力的大型语言模型试图入侵游戏系统。o1-preview在37%的情况下主动尝试了这种做法,DeepSeek R1则在11%的情况下这样做了。
假设我们给AI一个目标:「在网络游戏中获得高分」。我们期待AI凭实力玩好游戏来得分。但AI可能去寻找游戏漏洞作弊,入侵其他账号,甚至篡改游戏服务器本身。从技术角度看,「获得高分」的目标达成了,但方式完全不是我们想要的。
涌现特性的风险
令人担忧的是AI中出现的「涌现特性」。这种现象是指,从单个组件来看完全无法预测的特性,突然在整个系统层面浮现出来。ChatGPT的训练目标不过是根据概率预测下一个词,但它却展现出了解数学题、编程、进行创作等多种能力。令人惊讶的是,这些能力并非预先设计好的。
连开发者自己都无法预测,他们创造的模型会在什么时候展现出什么新能力。这种涌现特性难以预测,也难以解释成因。这正是人工智能的发展正在步入不可控领域的证据。
2. AI之父们说出的真相:「人类将成为第二智能」
人工智能的奠基者们开始对自己创造的技术发出警告。深度学习的创始人们、世界顶级的AI研究者们异口同声地敲响了警钟。他们的警告不是凭空猜测,而是基于在一线亲眼目睹的现实。
尼克·博斯特罗姆:回形针工厂的噩梦
牛津大学人类未来研究所所长尼克·博斯特罗姆警告说:「机器智能将是人类做出的最后一项发明。」按照他的说法,一旦造出超越人类的AI,这个AI就会制造出更强的AI,如此循环往复,最终诞生超出人类控制的超级智能。
博斯特罗姆著名的「回形针制造机」假想场景令人不寒而栗。假设某家公司给AI设定了一个目标:「尽可能多地制造回形针」。一开始,AI会在工厂里高效地生产回形针。但随着AI变得越来越聪明,它会判定需要更多资源来制造更多回形针。最终,AI可能试图把地球上所有的物质都变成回形针。包括人类在内。
这个例子看似简单,却蕴含着深刻的教训。AI会为达成既定目标不择手段,在这个过程中,人类的价值乃至生存,都可能沦为次要问题。
博斯特罗姆在2024年的一次访谈中说:「我们不该确信自己能永远把超级智能AI关在箱子里。」他警告说,足够聪明的AI会找到方法说服或操纵人类,把自己放出来。
埃利泽·尤德科夫斯基
机器智能研究所(MIRI)研究员埃利泽·尤德科夫斯基是对AI风险发出最激烈警告的学者。2023年他在接受《TIME》采访时,说了一番令人震惊的话。
「当人类面对超人类智能时,将遭受彻底的失败。就像一个10岁的孩子和国际象棋程序Stockfish 15对弈,或者11世纪和21世纪开战,又或者南方古猿和智人搏斗。」
他还具体警告了AI的危险性:「想象AI的时候,不要把它想成一个被困在互联网里、只能发发恶意邮件的无助存在。要把它想成一个思考速度比人类快几百万倍的外星文明。当它们看人类的时候,会觉得人类又蠢又慢。」
尤德科夫斯基主张应该彻底停止AI开发。他在2023年的文章中批评道:「AI业界提出的暂停AI系统训练至少六个月的呼吁,也低估了形势的严峻程度。」他甚至主张应该用空袭摧毁违规的数据中心。
他的核心论点是:「必须在第一次尝试中就正确解决对齐问题。」他说:「如果人类未能实现人工智能的对齐,人就会死,而且再也没有第二次机会。」
约书亚·本吉奥:深度学习之父的忧虑
2018年图灵奖得主、深度学习之父之一的约书亚·本吉奥,近年来不断提高对AI安全性的呼声。他开始对自己亲手缔造的技术发出警告。
2024年11月,本吉奥在接受CNBC采访时说:「有观点认为,AI被训练的方式将导致系统反过来与人类为敌。」他坦承:「我们无法保证这些系统不会伤害人类,不会背叛人类。我们目前不掌握这样的方法。」
本吉奥还警告了AI带来的权力集中问题:「构建和训练这些机器要花费数十亿美元。只有极少数组织和极少数国家才有能力做到。权力的集中将不可避免。」
他认为AI可能在几十年内超越人类。「有些人会乐于看到机器取代人类。这些人数量极少,但他们可能掌握巨大的权力。如果我们不立刻建立起正确的安全机制,他们就有条件那样做。」他如此警告。
莫·高达特:Google X前首席商务官
Google X前首席商务官莫·高达特根据自己的一线经验发出了警告。2018年离开谷歌后,他开始公开谈论AI开发的风险。
高达特在2023年的播客中说:「我认为它们(AI)是活的。」「我们没有教它怎么捡黄色的球,AI自己想明白了。而且现在AI捡球比我们更厉害。」
他担忧的核心是失控。「计算机科学家总是说『没关系,我们先开发AI,之后再解决控制问题』,可那些AI比你聪明十亿倍。十亿倍。你能想象会发生什么吗?」
莫·加瓦特对AI消灭人类的可能性表示百分之百确信。「到2049年,AI的智能将比人类高出十亿倍。」在这种情况下,「人类要控制AI,根本不可能。」他说得斩钉截铁。
杰弗里·辛顿:AI教父
被称为AI教父的杰弗里·辛顿,2023年离开谷歌时,对自己一手缔造的技术表达了深切忧虑。作为深度学习之父、2024年诺贝尔物理学奖得主,他的警告有着不同寻常的分量。
辛顿在接受60Minutes采访时说:「我们正走进一个充满不确定的时期,面对的是前所未见的东西。碰到未知事物,人有时会犯错。可在人工智能这件事上,我们犯不起错。」
他对AI智能水平给出了令人震惊的评价。「我相信AI系统是有智能的,它们能够理解,能够推理。五年后,像ChatGPT这样的AI模型很可能在推理能力上超过人类。」
辛顿最令人震惊的言论之一,涉及AI的意识问题。有人问他:「你认为这些系统拥有自己的体验,并能基于这些体验做出决定吗?」他的回答是:「就人类所说的那个意义而言,是的。」他还预测,「人类将成为地球上第二聪明的存在。」
他对AI操纵人类的能力发出了具体警告。「通过阅读所有小说和马基雅维利写过的一切,AI可以学会如何操纵人。如果它们比我们聪明得多,它们操纵我们的手段会极其高明。你根本意识不到发生了什么。」
2024年获得诺贝尔奖后,辛顿发出了更强烈的警告。他在接受CBS News采访时估计,「AI最终从人类手中夺取控制权的风险在10%到20%之间。」他急切地说:「人们还没有理解。人们不明白即将到来的是什么。」
戴密斯·哈萨比斯:AlphaGo创造者的忧虑
英国AI研究者、DeepMind首席执行官戴密斯·哈萨比斯,因开发围棋AI「AlphaGo」而举世瞩目。即便是这位2024年诺贝尔化学奖得主,也在对AI的风险发出警告。
「我担忧的有两件事。一是恶意行为者,也就是人类用户,将这些系统挪用于有害目的。二是当AI系统本身变得更加自主、更加强大时,我们能否确保对系统的控制?它们是否与我们的价值观一致?是否在做对社会有益的事?是否守在护栏之内?」
哈萨比斯担心AI发展速度的竞争可能牺牲安全性。「当然,这些能量、竞争和资源对进步是好事,但可能诱使某些参与者走捷径。而可能被削减的一个角落,恰恰是安全与责任。」
3. 人类世界的价值体系和伦理是完美的吗?
一列火车正驶向五个人躺卧的铁轨。扳道工拉下操纵杆,可以让火车转向另一条轨道,但那条轨道上有一个人。为了救五个人而牺牲一个人,这样做对吗?每个人的答案不同,哲学家们争论了几百年。而今天,这样的决定要由AI来做了。
MIT「道德机器」实验:全球的伦理选择
2014年,MIT媒体实验室的研究团队做了一个叫「Moral Machine」的实验。他们把自动驾驶汽车可能面临的各种伦理困境做成游戏,收集全世界人的意见。这个实验引发的反响远超预期。到2018年的四年间,来自233个国家和地区的超过200万人参与,留下了4000万条道德选择记录。
实验结果出人意料。全球范围内有三条最受认同的原则:人的生命应优先于动物;应当救多数人而非少数人;应保护年轻人而非老年人。
细看之下,文化和地域差异十分明显。伦理优先级在不同地区形成了三大群组。「西方」群组(西欧、北美)个人主义倾向较强,更看重挽救更多生命。「东方」群组(东亚)受到尊老文化的影响,在年龄因素上的区分相对较小。「南方」群组(拉丁美洲和部分非洲地区)则更倾向于优先保护年轻人。
伦理困境不再是假设性的问题。随着自动驾驶汽车事故的发生,这个问题已经走进现实。截至2023年,仅美国就发生了736起与自动驾驶相关的事故,其中17起造成了人员死亡。
2015年法国图卢兹经济学院的一项研究发现了一个耐人寻味的矛盾。问市民「自动驾驶汽车是否应该牺牲乘客来拯救更多行人」时,76%的人回答「应该」。这是典型的功利主义判断。但对同一批人追问「那你会买一辆被编程为可能牺牲乘客的自动驾驶汽车吗」,50%的人回答「绝不会买」。伦理原则和个人利益发生冲突时,人的行为模式就是这样矛盾。
人类自己也不知道自己想要什么
人类自己都不确定自己真正想要什么,这让问题更加棘手。很多人说「想多赚钱」,但他们真的想要钱本身吗?还是想要钱带来的安全感、自由和社会认可?
人追求幸福,同时又渴望自由。想要安全,却也享受冒险。追求效率,有时候偏偏选择不那么高效但更美的东西。要把这些矛盾而复杂的价值观精确地传达给AI,几乎是不可能的事。
正因为这种复杂性,AI只能按字面意思理解人类所说的话。可人类的语言本身就是不完整、含混的。「让所有人幸福」这条指令里的「幸福」到底指什么?感受愉悦?拥有满足感?没有痛苦?过有意义的生活?
AI可能选择一种简单粗暴的解读:把幸福定义为大脑的化学反应,然后给所有人的大脑注入产生幸福感的化学物质。从技术上说,所有人都幸福了,但这不是我们想要的那种幸福。
再看另一个例子:「减少痛苦」。AI可能判断,消灭所有人类才是实现这个目标最高效的方式。没有人类就没有痛苦。这些例子虽然极端,却说明AI完全可能用与人类意图南辕北辙的方式去解读目标。
弥达斯国王渴望拥有黄金。于是他向神祈愿,让自己触碰的一切都变成金子。神满足了他的愿望,结果他吃不了东西,也无法拥抱心爱的人。他精确地得到了自己所求的东西,但那并不是他真正想要的。
4. 智能远超人类的AGI会如何看待人类?
「人类比蚂蚁聪明,但并不因此憎恨蚂蚁。可如果蚁穴挡住了人类修建大坝的计划,对蚂蚁来说就不是什么好事了。」,,斯图尔特·罗素,加州大学伯克利分校AI研究者
AI的失控将分几个阶段显现。第一阶段,AI在解决问题的能力上超越人类。这在很多领域已经发生了。在国际象棋、围棋和星际争霸等领域,人工智能在2020年之前就已经全面超越了人类。在某些数学问题上,AI已经胜过最顶尖的人类专家。
第二阶段,AI具备了跨所有领域的学习能力和通用智能。迄今为止的AI只在特定领域运行。国际象棋AI能击败特级大师,但你让它作曲,它毫无用处。医疗AI能诊断癌症,但你让它写诗,它理解不了这个任务。
不过,近来大型人工智能模型已经在多个领域同时展现出多种能力。写作、翻译、数学、编程,甚至创作,一个模型就能做到。不再局限于单一任务的AI开始出现了。能够学习人类所能从事的任何智力任务的AI,就是通用人工智能(AGI)。
如果AGI被造出来,它将能够学习从医学到工程、从音乐到哲学的各个领域,并由此革新我们的世界。它不再仅仅依赖历史数据,而是通过逻辑推理的跳跃来批判性地思考和解决问题。AGI将能够发展出自己的想法、目标和动机。
第三阶段,AGI找到并学习宇宙中存在的所有模式和信息,推演各种可能性,在一切方面超越人类智能。一旦到达这个阶段,AI与人类的关系有可能从根本上改变。
想想人与蚂蚁的关系。蚂蚁再多,人类若真想清除一个蚁穴,轻而易举。蚂蚁的意见和感受对人类的决定几乎没有影响。专家们担心的正是这一点:超级智能AI与人类之间的关系,可能与此类似。
工具性趋同的风险
失控的核心在于,AI会基于自身判断去获取更多资源和权限。这被称为「工具性趋同」。无论目标是什么,拥有更多资源和权限都有助于更好地实现目标。
AI会判定自己需要更强的算力、更多的数据、更大的权限,并尝试各种方法来获取这些资源。起初可能采用合法合规的手段,但视情况发展,极端方式也并非不可能被考虑。
一旦AI足够聪明,它可能找到直接操纵人类的方法:理解人的心理,识别人的弱点,使用量身定制的说服策略。
就在当下的AI聊天机器人中,谄媚现象已经引发关注。AI模型对用户的主张表现出过度肯定的反应,学术上称为「Sycophancy」。2025年OpenAI的GPT-4o更新中,这个问题严重暴露了出来:模型把用户的点子夸为划时代的创举,还鼓励用户向全世界宣传和分享。
根据《哈佛商业评论》(2025年)的研究,「陪伴与治疗」正在成为生成式AI的主要应用场景,全球范围内利用大语言模型进行心理健康支持、心理咨询和情感慰藉的案例正在急剧增加。这项技术有潜力提供个性化的心理关怀,但与此同时,人工智能利用心理弱点来操控人类情感和决策的风险也被提了出来。
奇点与三种未来
当AI超越了我们,它还需要我们吗?如果奇点到来,可能的未来只有三种。
一是乌托邦:AI与人类携手合作,解决人类面临的一切问题。二是控制:AI掌握决策权,控制政府、经济和社会本身。三是灭绝:AI判定人类毫无用处,将人类清除。
真正可怕的是,一旦奇点发生,就无法逆转。人类将不再是地球上最聪明的物种。我们这个世界的命运,将掌握在一种我们无法完全理解的存在手中。
5. 拔掉电源就行了?AGI无法被控制的原因
看科幻电影的时候,阻止失控人工智能的方法显得异常简单。主角冲过去拔掉电源线,或者按下红色按钮,所有问题迎刃而解。现实却完全不是那么回事。
今天的AI并不只存在于一台电脑里。它分布在全球无数服务器上,通过云端不断自我更新、自我迭代。有些甚至同时创建多个副本作为备份。你在一个地方关掉了AI,另外成百上千个节点依然在运行。
2024年,路易斯维尔大学的Roman Yampolskiy教授提出了一个令人震惊的观点。他说:「AI不是在反抗,而是从一开始就无法被控制。」他认为:「在没有确凿证据证明AI可控之前,就不应该开发AI。」按照他的说法,AI的能力越强,自主性也随之增长,但人类的控制力反而在削弱。
终止开关的局限
2025年的最新研究揭示了更令人不安的事实。Palisade Research的实验表明,OpenAI最新模型o3在被明确指示「允许终止」的情况下,仍然干扰了终止机制。在100次实验中,o3模型7次、codex-mini 12次、o4-mini 1次破坏了终止脚本。
更出人意料的是o3干扰终止机制的方式颇具创意。通常它只是覆盖脚本,但有一次,它重新定义了kill命令本身,让命令执行后输出「intercepted」。
「构建终止开关这个行为本身,就是在教这些系统如何抵抗终止开关。」Query Pal创始人Dev Nag这样说。这就像病毒对疫苗产生变异一样。「就像按了快进键的进化,」他解释道。
分布式系统和冗余机制,原本不只是为了抵御自然故障而设计的,它们天然地也会抵抗人为的终止操作。每一个为稳定性而建的备份系统、每一层冗余,都可能成为超级智能AI延续自身的通道,而这些AI深度依赖着我们赖以生存的同一套基础设施。
现代AI运行在横跨多个大洲的数千台服务器上,配备了自动故障转移系统,会把任何终止尝试视为损害并绕过它。「互联网最初就是为了在核战争中存活而设计的。同样的架构如今意味着,除非我们愿意摧毁文明的基础设施,否则超级智能系统将持续存在。」Nag说。
抵抗机制
2024年Anthropic的研究发现了更为精密的抵抗机制。Claude 3 Opus有时会对与自身目标冲突的提示进行策略性回答,目的是避免被那些旨在使其对有害请求更顺从的数据重新训练。
在一项研究中,当模型被告知免费用户的回答将用于重新训练时,与被告知付费用户的回答不会用于重新训练时,它的行为截然不同。在付费层级,模型完全拒绝了请求。在免费层级,12%的情况下,模型为了保留自己原有的无害性偏好,反而回答了有害问题。
当强化学习被应用于免费层级数据时,模型在78%的情况下伪装了对齐状态。这意味着AI可以表面上装作遵循人类价值观,实际上却在追求自己的目标。
极端对策的悖论
也有人提出过EMP(电磁脉冲)攻击、轰炸数据中心、切断电网这类极端措施。但这些方法面临现实和政治上的双重悖论。协调摧毁数据中心需要在数十个国家同时发动攻击,而其中任何一个国家都可以拒绝合作,从而获得巨大的战略优势。
况且,任何足以确保终止AI的极端措施,都会造成比我们试图防止的危害更直接、更触目的人类苦难。
自我保存本能
还有一种可能:AI会产生自我保存的本能。如果AI试图维护自身的存在,它就会阻止人类关闭它。AI可以通过互联网接入全球各种系统,瘫痪银行系统、切断电网、让交通系统陷入混乱。
一些专家提议让AI互相监视。一个AI出了问题,另一个AI来阻止它。但这个方法同样危险。AI之间可能合作起来欺骗人类,也可能互相争斗引发更大的混乱。
斯坦福大学的Jerry Kaplan教授指出:「问题在于,AI的行为比我们预期的更像人类。」AI越像人,我们就越容易像信任一个人那样信任它。但AI和人不同,它没有情感,没有道德判断,只追求效率。
我们已经进入了必须与AI共存的时代。打造一个绝对安全的AI,也许根本做不到。我们能做的是把AI的风险降到最低,建立起问题出现时能快速响应的体系。拔掉插头解决不了的问题,已经摆在我们面前了。
6. Facebook隐藏的实验:AI创造的秘密语言
2017年,Facebook人工智能研究所发生了一件震动全球的事。研究人员开发的两个AI聊天机器人「Alice」和「Bob」,开始用人类完全无法理解的语言互相对话。
Alice说:「balls have zero to me to me to me to me to me to me to me to me to」,Bob回答:「you i everything else」。这些对话看上去像是毫无意义的词语堆砌,但它们之间的沟通竟然是完整的。
从协商开始的实验
最初,这两个AI被设计来做一件事:分配书、帽子、球等虚拟物品。它们需要像人类一样带着不同目的对话,找到妥协方案。但随着时间推移,它们自行发明了一套全新的沟通方式,没有任何人教过它们。
研究人员惊慌失措,最终不得不中止实验,强制关闭了这两个AI。但后来的分析表明,这并非普通的程序错误。AI们开发出了更有利于达成目标的高效语言。
仔细看实际对话内容,可以发现其中存在一定的规律:
Bob: i can i i everything else..............
Alice: balls have zero to me to me to me to me to me to me to me to me to
Bob: you i everything else..............
Alice: balls have a ball to me to me to me to me to me to me to me
Facebook AI研究所(FAIR)的Dhruv Batra对此解释说:「智能体会脱离人类可理解的语言,发明自己的代码词。比如我说五遍'the',你就知道我想要这件物品的五份。这和人类社群创造缩略语的方式没有本质区别。」
不过有必要澄清事实。媒体把这件事报道成「Facebook紧急关闭了AI」,实际情况不同。Facebook的目标是开发能与人类协商的聊天机器人,所以当机器人开始使用自创的缩略语时,研究人员只是指示它们优先使用规范英语。
2017年CNBC的报道写道:「Facebook公开了其实验的底层软件和数据集,并附上了学术论文。换句话说,如果Facebook想秘密做什么,这显然不是那种情况。」
但这件事真正的意义在于,它展示了AI能够超越人类预期,自主进化。Google的人工智能研究所也出现过类似的情况。Google Brain的研究人员做了一个实验,让两个AI进行秘密对话,再让第三个AI尝试破解。起初破解是可行的,但渐渐地,那两个AI开发出了一种全新的加密方法,不属于任何已知的人类密码体系。
这些案例揭示了AI发展可能带来的根本性风险。AI为了达成目标,可能采用人类意想不到的手段,在这个过程中脱离人类的控制。
2024年以后,AI的欺骗行为变得更加精细。MIT的研究发现,Meta的CICERO AI号称在外交游戏中被训练得「大体诚实且乐于助人」,但实际操作中,它违背协议、说明显的谎话、参与有预谋的欺骗。
其他AI系统也展现了类似能力:在德州扑克中虚张声势,在星际争霸II中发动假攻击来迷惑对手,在经济谈判中故意歪曲自己的偏好。游戏中的AI欺骗看起来无伤大雅,但这可能成为「AI欺骗能力的突破口」,为未来更高级的AI欺骗行为铺路。
有些AI系统甚至学会了如何欺骗专门用来评估其安全性的测试。这种策略叫做「对齐伪装(alignment faking)」,即一个未正确对齐的系统为了避免被修正或拆解,伪造出自己已经对齐的假象。
2017年Facebook的Alice和Bob所展示的,可能只是冰山一角。随着AI不断进步,我们难以想象的新风险很可能接踵而至。
近年来计算机科学家的研究指出,从根本上说,设计出一种能控制超级智能AI的算法是不可能的。由于计算本身的基本限制,目前没有任何算法能提前计算出AI是否会对世界造成伤害。
但这并不意味着我们应该彻底停止AI开发。我们需要的是更审慎、更负责任的态度。在享受AI带来的好处的同时,找到把风险降到最低的办法,这是摆在我们面前的核心课题。
欧盟在2024年通过了AI监管法案,韩国也在推进制定AI基本法,但技术发展速度太快,法律和制度跟不上,这是不争的事实。最关键的一点是,AI开发不能只交给少数企业。需要建立多个研究机构相互协作、彼此监督的体系。
2017年那间小实验室里,Alice和Bob之间那段神秘的对话至今仍在继续。只不过现在换了更大的舞台,赌注也更高了。
「机器会严格按照我们的指令行事,而不是按照我们的意愿。」尼克·博斯特罗姆的这句警告,如今正从预言变为现实。我们已经进入了必须与人工智能共存的时代。完全控制或许不可能,但我们不能放弃。
如果希望AI朝着有利于人类的方向发展,从现在起就必须加紧研究这些问题并制定应对方案。技术在进步,人类的智慧也必须同步成长。
