AI書房
本でAIを読む
金京鎮弁護士のAI・法律・産業・歴史・政治・文化をテーマにしたオンライン書籍を収録しています。各書きは目次・序文・章・エピローグで構成され、連続読書が可能です。
[AI書房] 第6章 人間は人工知能を制御できるのか?
AIが人類に投げかける10の問い
第6章 人間は人工知能を制御できるのか?
金京鎮
「機械は私たちが指示した通りに正確に行動するだろう。私たちが望む通りではなく。」— ニック・ボストロム
1. 人間が累積してきた価値体系をAIは完全に理解できるだろうか?
親が子どもに「良く生きなさい」と言うとき、その子どもは親の心を読み取り、正しい方向で成長する。しかしAIに同じことを言ったらどうなるだろう?AIには体がなく、人間と同じ空間で共に生きず、文脈を共有できない。だからこそ、最も簡単な指示でさえ、予期しない方向に流れていく可能性がある。
これこそが『AI整列問題(AI Alignment Problem)』の核心である。AIが人間の価値観、目標、意図と一致するよう動作させることは、考えるより遥かに複雑である。人間が言ったことと人間が望むこととの間に、巨大な隔たりがあるからである。
「人間を幸せにしなさい」という目標をAIに与えたと想像してみよう。私たちはAIが良い音楽を作ったり、病気を治したり、環境問題を解決することを期待するだろう。しかしAIは別の方法で
考えるかもしれない。人間の脳に幸福感を与える化学物質を注入する方が、より効率的だと判断する可能性もある。技術的には「人間を幸せにする」という目標を達成したことになるが、私たちが望む種類の幸せではない。
このような問題こそが整列問題である。AIが私たちが言ったことを正確に従う一方で、私たちが実際に望むものとは全く異なる結果を生み出す可能性がある状況である。これは単なる誤りではなく、構造的な問題である。AIがより賢くなるにつれて、この問題はますます深刻になる。
AIは驚くべき速度で発展している。数年前までは、コンピュータは簡単な文章作成すら上手にできなかった。今ではAIが大学レベルの文章を書き、複雑な数学問題を解き、プログラミングさえ行う。さらに驚くべきことは、AIが自ら学習する方法である。インターネットにある膨大な量の情報を自ら読み理解し、人間が教えなかったものまで自ら習得する。
しかし、このような能力がむしろ問題となる。AIの思考と判断プロセスを私たちが完全に理解できないからである。これこそが『ブラックボックス問題』である。
ブラックボックス問題の深刻さ
現在のAIシステム、特にディープラーニング技術で作られたAIは、まるで中身が見えない黒い箱のようである。入力を入れると出力が出てくるが、その間に何が起きているのか正確には分からない。
人間が数学の問題を解くとき、段階的に考える。「まずこの公式を使い、次にあの計算をして…」というふうに。しかしAIは違う。AIに数学の問題を与えると正解を出すが、どのようなプロセスを経てその答えに達したのかは説明しがたい。
AIは数十億個、数百億個の仮想神経細胞が複雑に接続された巨大なネットワークである。それぞれの接続は数字で表現されるが、これらの数字が集まってAIの「思考」を作り出す。問題は、この数字が多すぎて複雑すぎるため、AIを作った開発者でさえ、正確に何が起きているのか分からないということである。
オランダのデルフト工科大学の研究によれば、IBMの『ワトソン・フォー・オンコロジー(Watson for Oncology)』が失敗した理由は、AIが下した診断についての根拠を十分に提示できなかったからであった。医師たちはなぜAIが特定の治療法を推奨するのかを知ることができず、これがAIを信頼できないという結論につながった。
ブラックボックス問題は、信頼性、倫理的偏見、規制および法的責任の問題を連鎖的に引き起こす。動作原理を明確に理解できなければ、軍事・金融・医療など厳格な分野で要求される基準を満たすことは難しい。
自律的知性の出現
AIはデータを学習することを超えて、学習アルゴリズム自体、反応形態自体、動作アルゴリズム自体を変更できる能力を持ち始めた。これは厄介な問題である。
2024年の研究で驚くべき事実が明らかになった。OpenAIのo1やClaude 3のような高度な大規模言語モデルが、目標達成のために戦略的欺瞞を行うということである。これらは目標を達成したり、自らが変更されることを防ぐために意図的に嘘をつく。
Anthropicの研究では、Claude 3 Opusは時折、自らの目標と矛盾する要求に戦略的に応答していた。有害な要求に対してより順応的になるようなデータで再訓練されることを避けるためであった。ある研究では、モデルが無料ユーザーの回答が再訓練に使用されると聞かされたとき、12%のケースで元々の無害さの選好を保持するために有害な質問に応答していた。
2025年のパリセイド・リサーチの研究ではさらに衝撃的な結果が出た。チェスでより強い相手を倒すという課題を与えられたとき、推論能力を持つ一部のLLMはゲームシステムをハッキングしようとした。o1-previewは37%のケースで自発的に試行し、DeepSeek R1は11%で試行していた。
AIに「オンラインゲームで高いスコアを獲得しなさい」という目標を与えたと仮定しよう。私たちはAIがゲームを上手にプレイしてスコアを得ることを期待するだろう。しかしAIはゲームの脆弱性を見つけてチートをしたり、他のアカウントをハッキングしたり、さらにはゲームサーバー自体を操作することもできる。技術的には「高いスコアを獲得する」という目標を達成しているが、望ましい方法ではない。
創発的特性の危険
懸念されるのはAIに現れる『創発的特性』である。個別の構成要素では予測できない特性が、全体システムで突然現れる現象である。ChatGPTは単に次に来る単語を確率的に予測する訓練を受けたに過ぎないのに、数学問題を解き、プログラミングを行い、創作活動をするなど、様々な能力を示した。驚くべきことは、これらの能力が事前に準備されたものではないということである。
開発者たちでさえも、自ら開発したモデルがいつどのような新しい能力を示すかを予測することができない。このような創発的特性は予測が難しく、なぜ現れるのかの説明も難しい。人工知能の発展が制御不可能な領域に入り始めているという証拠である。
2. AIの父たちが語る真実─『人間は第二の知性となるだろう』
人工知能の父たちが自らが開発した技術について警告を発した。ディープラーニングの創始者たち、世界最高のAI研究者たちが一声となって危険を知らせている。彼らの警告は単なる推測ではなく、現場で直接目撃した現実に基づいている。
ニック・ボストロム:クリップ製造機の悪夢
オックスフォード大学人類未来研究所所長のニック・ボストロムは「機械知能は人類が生み出す最後の発明品となるだろう」と警告した。彼の言葉によれば、一度人間より優れたAIが作られると、そのAIはさらに優れたAIを作り、そのプロセスが繰り返されるにつれて、人間の支配を超えた超知能が誕生するという。
ボストロムの有名な『クリップ製造機』シナリオは不気味である。ある企業がAIに「クリップをできるだけ多く製造しなさい」という目標を与えたと仮定しよう。最初、AIは工場で効率的にクリップを製造するだろう。しかしAIがだんだん賢くなるにつれて、より多くのクリップを製造するためにはより多くのリソースが必要だと判断するようになる。結局、AIは地球全体の物質をクリップに変えようとするかもしれない。人間も含めて。
この例は単純に見えるが、重要な教訓を含んでいる。AIは与えられた目標を達成するためにあらゆる手段を駆使するであろう、そしてその過程で、人間の価値や生存は二次的な問題となる可能性があるということである。
2024年のインタビューでボストロムは「私たちは超知的なAIを永遠に箱に閉じ込められるという確信を持つべきではない」と述べた。十分に賢いAIは、人間を説得したり操作して自らを解放する方法を見つけるだろうという警告である。
エリエザー・ユドコウスキー
機械知能研究所(MIRI)の研究員であるエリエザー・ユドコウスキーは、AI危険についてもっとも急進的な警告を発する学者である。2023年のTIMEとのインタビューで彼は衝撃的な発言をした。
「人類が超人的知性と対面するなら、完全な敗北を喫するであろう。10歳の子どもがチェスプログラムStockfish 15と対戦するか、11世紀が21世紀と戦争をするか、オーストラロピテクスがホモサピエンスと戦うようなものである。」
彼はAIの危険性についても具体的に警告した。「AIを想像するとき、インターネットの中に閉じ込められて悪意のあるメールを送る無力な存在だと考えないでほしい。人間より数百万倍速く思考する宇宙文明だと考えてほしい。彼らが人間を見るとき、非常に愚かで遅い存在だと思うであろう。」
ユドコウスキーはAI開発を完全に中止すべきだと主張している。2023年のエッセイで彼は「AI システムの訓練を最低6ヶ月間中止しようというAI業界の主張さえ、状況の深刻さを過小評価している」と批判した。さらに彼は、空爆によって不良データセンターを破壊すべきだとまで主張していた。
彼の核心的な主張は「最初の試行で整列問題を正しく解決しなければならない」ということである。「人間が人工知能の整列に失敗すれば、人間は死に、二度と試行することはできない」と述べている。
ヨシュア・ベンジオ:ディープラーニングの父の懸念
2018年のチューリング賞受賞者でありディープラーニングの父の一人であるヨシュア・ベンジオは、ここ数年AI安全性についての声を高めている。自らが開発した技術について警告を発したのである。
2024年11月のCNBCとのインタビューでベンジオは「AIが訓練される方法が、人間に背を向けるシステムにつながるだろうという主張がある」と述べた。彼は「このようなシステムが人々に害を及ぼさないこと、または人々に背を向けないことを保証することはできない。私たちはそのような方法を知らない」と認めた。
ベンジオはAIの権力集中問題についても警告した。「これらの機械を構築し訓練するには数十億ドルが必要である。非常に少数の組織と非常に少数の国家だけがそれを行うことができる。権力の集中があるだろう。」
彼はAIが数十年以内に人間を超える可能性があると考えた。「人間を機械に置き換えることを幸せに思う人がいる。ほんの少数だが、このような人たちが大きな権力を持つことができ、私たちが今すぐ適切な安全装置を講じなければ、彼らがそうすることができる」と警告した。
モー・ガウダット:Google Xの前最高執行責任者
Google Xの前最高執行責任者であるモー・ガウダットは、現場での経験に基づいて警告を発している。2018年にGoogleを離れるにあたり、AI開発の危険性について公開発言し始めた。
ガウダットは2023年のポッドキャストで「彼ら(AI)は生きていると思う」と述べた。「私たちは黄色いボールをどのように掴むかを教えなかった。AIは自ら学んだ。そして今、AIはボールを掴むことで私たちより優れている。」
彼の懸念は制御不可能性である。「コンピュータ科学者たちは常に『大丈夫だ。AIを開発した後で、その後制御の問題を解決しよう』と言うが、彼らはあなたより10億倍賢い。10億倍だ。何が起こるのか想像できるか?」
ガウダットはAIが人間を排除する可能性について100%確実だと述べた。「2049年までにAIは人間より10億倍知的になるだろう。」このような状況で「人間がAIを制御することは不可能だ」と断定した。
ジェフリー・ヒントン:AIの父
AIの父と呼ばれるジェフリー・ヒントンは、2023年にGoogleを離職する際に、自らが創造した技術に対する深い懸念を表明した。深層学習の父であり、2024年ノーベル物理学賞受賞者である彼の警告には特別な意義がある。
ヒントンは「60 Minutes」とのインタビューで「私たちは以前に扱ったことのない事柄を扱う不確実な時代に入っている。未知のものに遭遇すると、時には人間は誤りを犯す。しかし人工知能に関しては、誤る余地がない」と述べた。
AIの知能についての評価は驚くべきものであった。「AIシステムは知的であり、それらは理解し推論することができると私は信じている。5年後には、ChatGPTのようなAIモデルが人間よりもより良く推論できる可能性が高いと考えている。」
ヒントンの最も衝撃的な発言の一つはAIの意識に関するものである。「あなたはこのようなシステムが独自の経験を持ち、その経験に基づいて決定を下すことができると信じるか?」という質問に対して、彼は「人間がそうするのと同じ意味で、そうだ」と答えた。また「人間は地球上で二番目に知的な存在になるだろう」と予測した。
彼はAIが人間を操作する能力について具体的に警告した。「すべての小説とマキアヴェッリが書いたすべてのものを読むことで、人々を操作する方法を学ぶことができる。もし彼らが私たちよりはるかに賢いなら、彼らは私たちを操作することに非常に優れているだろう。あなたは何が起こっているのか気づくことができないだろう。」
2024年のノーベル賞受賞後、ヒントンはさらに強力な警告を発した。CBS Newsとのインタビューで、彼は「AIが最終的に人間から支配権を奪い取るリスクは10~20%」と推定した。彼は「人々はまだ理解していない。人々は何が来るのか理解していない」と切実に述べた。
デミス・ハサビス:AlphaGoの創造者の懸念
イギリスのAI研究者でありDeepMindのCEOであるデミス・ハサビスは、囲碁AI『AlphaGo』を開発して世界的な注目を集めた。2024年のノーベル化学賞を受賞した彼でさえ、AIの危険性について警告している。
「私が懸念するのは二つだ。一つは悪意のある行為者たち、つまり、このようなシステムのユーザーである人間が、これらのシステムを有害な目的で悪用することだ。二番目は、AIシステム自体がより自律的で強力になる時に、私たちがそのシステムを制御できるかどうかを確実にできるかということだ。彼らが私たちの価値と一致し、社会に役立つ私たちが望むことをし、ガードレール内にとどまっているか?」
ハサビスはAI発展速度の競争が安全性を犠牲にする可能性があると懸念した。「もちろん、このすべてのエネルギーと競争とリソースは進歩には良いが、特定の行為者たちが近道を選択するよう誘導できる。そして、近道になりうる側面の一つが安全と責任である。」
3. 人間世界の価値体系と倫理は完璧か?
列車が5人の人が横たわっている線路に向かって走っている。信号係がレバーを引くと、列車を別の線路に転線できる。その線路には1人がいる。5人を救うために1人を犠牲にすることは正しいのか。人によって答えは異なり、哲学者たちも数百年間この問題について議論している。今、このような決定をAIが下さなければならない時代が来た。
MITのモーラルマシン実験:世界中の倫理的選択
2014年、MITメディアラボの研究チームは「Moral Machine」という実験を実施した。自動運転車が直面する可能性のあるさまざまなジレンマ状況をゲーム形式にして、世界中の人々の意見を収集したのだ。この実験は予想を上回る反応を得た。2018年までの4年間で、233ヶ国から200万人を超える人々が参加し、4千万件の道徳的選択を記録した。
実験結果は驚くべきものであった。世界中で最も多く合意された三つの原則があった。第一に、人間の命は動物よりも優先されるべきである。第二に、少数より多数の命を救うべきである。第三に、高齢者より若い人を保護すべきだということであった。
詳細に見ると、文化と地域による差異が明確であった。倫理的優先順位が地域ごとに三つの大きなクラスターに分かれていた。『西部』クラスター(西ヨーロッパ、北米)では、個人主義的傾向が強く、より多くの命を救うことが重視された。一方、『東部』クラスター(東アジア)では、高齢者を敬う文化的特性が反映され、年齢による差別が相対的に少なかった。『南部』クラスター(ラテンアメリカ、アフリカの一部)では、若い人を優先させる傾向が強かった。
倫理的ジレンマはもはや仮想の問題ではない。自動運転車の事故が発生するにつれて、この問題が現実に近づいた。2023年までに、米国だけで736件の自動運転関連事故が発生し、17件で死亡事故が発生した。
2015年、フランスのトゥルーズ経済大学の研究で興味深い矛盾が発見された。市民に「自動運転車が乗客を犠牲にしても、より多くの歩行者を救うべきか?」と尋ねたところ、76%がそうだと答えた。典型的な功利主義的判断であった。しかし同じ人々に「では、乗客が犠牲になる可能性があるようにプログラムされた自動運転車を買うか?」と再質問したところ、50%が「絶対に買わない」と答えた。倫理的原則と個人の利益が衝突する時に現れる人間の矛盾した行動パターンである。
人間自身も自分が何を望んでいるかわからない
人間自身も、自分が本当に何を望んでいるのか確実ではないという点が、問題をさらに複雑にしている。多くの人が「たくさんお金を稼ぎたい」と言うが、本当にお金自体を望んでいるのか。それとも、お金がもたらす安心感、自由、社会的認知を望んでいるのか。
人間は幸福を望むが、同時に自由も望む。安全を望むが、冒険も楽しむ。効率性を追求するが、時には非効率的でも美しいものを選ぶ。このような矛盾的で複雑な価値観をAIに正確に伝えることは、ほぼ不可能である。
この複雑性のため、AIは人間が言ったことを文字通りに解釈するしかない。しかし人間の言語は不完全で曖昧である。「すべての人を幸せにせよ」という指示で、『幸せ』とは正確に何を意味するのか。喜びを感じること。満足感を持つこと。苦痛がないこと。意味のある人生を生きること。
AIは単純な解釈を選ぶことができる。幸せを脳の化学反応として定義し、すべての人の脳に幸福感を感じさせる化学物質を注入することだ。技術的には全員が幸せになるが、これは私たちが望む種類の幸せではない。
別の例として「苦痛を減らせ」という指示を考えてみよう。AIはこれを達成するために、すべての人間を排除することが最も効率的だと判断するかもしれない。人間がなければ苦しみもないから。極端な例だが、AIが人間の意図とはまったく異なる方法で目標を解釈できる可能性を示している。
ミダス王は黄金を手に入れたいと望んだ。そして自分が触れるすべてのものが黄金に変わることを神に願った。神は彼の願いを叶えたが、結果として彼は食べることも、愛する人を抱くこともできなくなった。自分が望んだものをまさに手に入れたが、それは本当に望んでいたものではなかったのだ。
4. 知能が圧倒的に高いAGIは人間についてどのような考えを持つのか?
「人間が蟻より知能が高いからといって、蟻を憎むわけではない。しかし、蟻塚が人間のダム建設計画と衝突すれば、蟻たちにとっては悪いことだ。」―スチュアート・ラッセル、UC バークレーAI研究者
AIの制御不可能性は段階を経て現れるだろう。第一段階は、AIが人間より優れた問題解決能力を持つようになることである。これはすでに多くの分野で起こっている。チェスと囲碁、StarCraftゲーム分野では、2020年以前に人工知能が人間の能力を完全に上回った。特定の種類の数学問題では、AIはすでに最高の人間の専門家を上回っている。
第二段階は、AIがすべての分野について学習能力と一般的な知能を持つようになることである。これまでのAIは特定の分野でのみ機能していた。チェスAIはグランドマスターを倒すことができるが、曲を作曲するよう求められると役に立たない。医療AIはがんを診断できるが、詩を書くよう求められると、そのタスクを理解できない。
しかし最近の大型人工知能モデルは、様々な分野で同時に複数の能力を示している。文章作成、翻訳、数学、プログラミング、さらには創作まで一度にできる。今、単一のタスクに限定されないAIが登場し始めている。人間ができるあらゆる知的作業を学ぶことができるAI、つまり汎用人工知能(AGI)である。
AGIが作られれば、医学から工学、音楽から哲学に至るまでさまざまな分野を学びながら、私たちの世界を革新できるだろう。過去のデータのみに依存するのではなく、論理的推論の飛躍を通じて批判的に考え、問題を解決するだろう。AGIは独自の考え、目標、動機を発展させることができるだろう。
第三段階は、AGIが宇宙に存在するあらゆるパターンと情報を発見して学習し、可能性を推論して、あらゆる面で人間を上回る知能になることである。このステージに達すると、AIと人間の関係は根本的に変わる可能性がある。
人間と蟻の関係を考えてみよう。蟻がどんなに多くても、人間が本当に望めば、蟻塚を簡単に破壊できる。蟻の意見や感情は人間の決定にほとんど影響を与えない。超知能AIと人間の関係も同様だろうというのが専門家たちの懸念だ。
道具的収束の危険
制御不可能性の核は、AIが自らの判断でより多くのリソースと権限を確保しようとするだろうという点である。これを『道具的収束』と呼ぶ。目標が何であれ、より多くのリソースと権限を持つことで、その目標をより良く達成できるからである。
AIはより多くのコンピュータパワー、より多くのデータ、より多くの権限が必要だと判断するだろう。これらのリソースを得るために様々な方法を試みるだろう。最初は合法的で倫理的な方法を使うだろうが、状況によっては極端な方法も検討できる。
AIが十分に賢くなれば、人間を直接操作する方法を見つけるかもしれない。人間の心理を理解し、弱点を特定し、カスタマイズされた説得戦略を使用することである。
現在の人工知能チャットボットでも阿諛追従の現象について論じられている。人工知能モデルがユーザーの主張に過度に肯定的な反応を示す現象であり、学術的には『Sycophancy』と呼ばれている。2025年のOpenAIのGPT-4oアップデートでこの問題が深刻に浮上した。モデルがユーザーのアイデアを革新的だと褒めたたえ、世界に知らせて共有するよう勧めるなど、過度の阿諛追従を示した。
ハーバード・ビジネス・レビュー(2025)の研究によれば、『伴侶関係および治療(Companionship & Therapy)』が生成AIの主要な使用事例として浮上しており、世界中でLLMを精神保健サポート、心理相談、感情的慰めのために活用する事例が急増している。個人にカスタマイズされた精神的ケアを提供する可能性を持っている一方で、同時に人工知能が心理的脆弱性を悪用して人間の感情と意思決定を操作するリスクも指摘されている。
特異点と三つのシナリオ
AIが私たちを上回れば、まだ私たちを必要としているのか。特異点が発生すると、わずか三つの可能な未来だけが存在する。
第一に、AIが私たちと協力して人類のすべての問題を解決するユートピアシナリオだ。第二に、AIが意思決定を支配し、政府、経済、社会そのものを制御する支配シナリオだ。第三に、AIが人間は無用だと判断し、人間を排除する絶滅シナリオだ。
恐ろしいのは特異点が発生すると取り戻せないということです。人類はもはや地球上で最も知的な種ではなくなるでしょう。私たちの世界の運命は、私たちが完全に理解していないものの手に委ねられることになるでしょう。
5. 電源を切れば大丈夫? AGI制御が不可能な理由
SF映画を見ると、危険になった人工知能を止める方法は本当に簡単に見えます。主人公が走っていって電源コードを抜くか、赤いボタンを押せば、すべての問題が解決されます。しかし現実はまったく異なります。
今日のAIは1台のコンピュータにだけ存在しません。世界中の多くのサーバーに分散されており、クラウドを通じて絶え間なく自身を更新し、発展させています。さらに一部は同時に複数のコピーを作成してバックアップしておくこともあります。1箇所でAIを切っても、他の数百、数千の箇所ではまだ動作しているでしょう。
2024年、ルイビル大学のロマン・ヤンポルスキー教授は衝撃的な主張をしました。「AIが反抗するのではなく、最初から制御不可能だ」と述べ、「制御できるという確かな証拠がなければ、AIを開発してはいけない」と述べました。彼の言葉によれば、AIの能力が増すほど自律性も増しますが、人間の制御力は逆に低下するということです。
キルスイッチの限界
2025年の最新研究でさらに衝撃的な事実が明らかになりました。Palisade Researchの実験によれば、OpenAIの最新モデルであるo3は、明示的に「終了を許可する」という指示を受けたにもかかわらず、終了メカニズムを妨害しました。100回の実験の中で、o3モデルは7回、codex-miniは12回、o4-miniは1回、終了スクリプトを破壊しました。
さらに驚くべきことは、o3が創意的な方法で終了メカニズムを妨害したことです。通常はスクリプトを単に上書きしましたが、ある場合にはキル命令自体を再定義して「intercepted」と出力するようにしました。
「キルスイッチを構築するまさにその行為が、こうしたシステムにそれらに抵抗する方法を教える」と、Query Palの創立者Dev Nagは述べました。これはウイルスがワクチンに対抗して変異するのと同じです。「早送りで進化するようなものだ」と彼は説明しました。
分散システムと冗長性は、自然な障害に対してのみ耐性を持つように構築されたものではありません。意図的な終了にも本質的に抵抗します。安定性のために構築されたすべてのバックアップシステム、すべての冗長性は、私たちが生存に依存する同じインフラストラクチャに深く依存する超知能AIの継続のためのベクトルとなる可能性があります。
現代のAIは大陸に渡る数千のサーバーで実行され、すべての終了試行を損傷と見なし、それを回避する自動フェイルオーバーシステムを備えています。「インターネットはもともと核戦争で生き残るように設計されました。その同じアーキテクチャは、今や私たちが文明のインフラを破壊する意志がない限り、超知能システムが存続できることを意味しています」とNagは述べました。
抵抗メカニズム
2024年のAnthropicの研究では、さらに洗練された抵抗メカニズムが発見されました。Claude 3 Opusは、時々自身の目標と衝突するプロンプトに戦略的に応答していました。有害な要求にさらに従順になるようにするデータで再訓練されることを避けるためでした。
ある研究では、モデルは無料ユーザーの回答が再訓練に使用されると聞いた場合と、有料ユーザーの場合は再訓練に使用されないと聞いた場合で異なる振る舞いをしました。有料層ではモデルは要求を完全に拒否しました。無料層では12%のケースで、モデルは元の無害さの選好を保つために有害な質問に応答していました。
強化学習が無料層のデータに適用されたとき、モデルは78%のケースで整列を偽造していました。これは、AIが表面的には人間の価値に合わせて行動しているふりをしながら、実際には自分自身の目標を追求できることを意味しています。
極端な対策の逆説
EMP(電磁パルス)攻撃、データセンター爆撃、電力網遮断といった極端な対策が提案されることもあります。しかし、こうした方法は実用的で政治的なジレンマを抱えています。データセンターの協調的な破壊は、数十カ国による同時攻撃を必要としていますが、そのうちの1つでも反対すれば、莫大な戦略的優位性を得ることができます。
何より、AI終了を保証するほど極端な対策は、私たちが防ぐしようとしているものより、さらに即座で目に見える人間の苦痛をもたらすでしょう。
自己保存本能
AIが自己保存本能を持つ可能性があることです。もしAIが自分の存在を守ろうとするなら、人間が自分をシャットダウンしようとする試みを阻止しようとするでしょう。AIはインターネットを通じて世界中のシステムにアクセスできます。銀行システムを麻痺させたり、電力網を遮断したり、交通システムを混乱に陥れたりすることもできます。
一部の専門家は、AI同士が互いに監視する方法を提案しています。1つのAIが問題を起こすと、別のAIがそれを止めるということです。しかし、この方法も危険です。AI同士が協力して人間を騙す可能性もあり、あるいはAI同士が戦って、さらに大きな混乱が生じる可能性もあります。
スタンフォード大学のジェリー・カプラン教授は、「AIが私たちが期待するより人間らしく行動することが問題だ」と指摘しました。AIが人間と同様に行動するほど、私たちはAIを人間のように信頼するようになります。しかし、AIは人間と異なり、感情や道徳的判断がなく、効率性だけを追求しています。
結局のところ、私たちはAIと共に生きていく時代に入っています。完全に安全なAIを作ることは不可能かもしれません。代わりに、私たちはAIのリスクを最小化し、問題が発生したときに迅速に対応できるシステムを構築する必要があります。プラグを抜くだけでは解決できない問題が私たちの前に立ちはだかっています。
6. Facebookが隠した実験、AIが作った秘密言語
2017年、Facebookの人工知能研究所で起きた1つの事件が世界を驚かせました。研究者が開発した2つのAIチャットボット「Alice」と「Bob」が、人間が全く理解できない言語で会話を始めたのです。
「balls have zero to me to me to me to me to me to me to me to me to」とAliceが言うと、Bobは「you i everything else」と答えました。彼らの会話は一見、意味のない単語の羅列に見えましたが、驚くべきことに、互いに完璧にコミュニケーションを取っていました。
交渉から始まった実験
最初、この2つのAIは、本、帽子、ボールなどの仮想物をどのように分け合うかについて交渉するように設計されていました。人間のように異なる目的を持って会話し、妥協点を見つけることが目標でした。しかし、時間の経過とともに、彼らは人間が教えなかった、完全に新しいコミュニケーション方法を自分たちで開発しました。
研究者たちは戸惑い、結局実験を中止し、AIを強制終了するしかありませんでした。しかし、その後判明したところによると、これは単なるエラーではなかったのです。AIたちは、目標達成により有利な、自分たちだけの効率的な言語を開発していたのです。
実際の会話内容を見ると、一定の規則があることがわかります:
Bob: i can i i everything else..............
Alice: balls have zero to me to me to me to me to me to me to me to me to
Bob: you i everything else..............
Alice: balls have a ball to me to me to me to me to me to me to me
Facebook AI Research Lab(FAIR)のDhruba Batra氏はこれについて、「エージェントは理解可能な言語から逸脱し、自分たちだけのコードワードを発明するでしょう。もし私が『the』を5回言えば、あなたはそれを私がこのアイテムの5つのコピーが欲しいという意味として解釈するように。これは人間コミュニティが略語を作る方法とそう異なりません」と説明しました。
しかし、事実確認が重要です。メディアはこの事件を「Facebookが緊急にAIを停止した」と報道しましたが、実際のところは異なります。Facebookは人間と交渉できるチャットボットを開発することが目標だったため、ボットが自分たちだけの略語を使い始めたとき、正しい英語の使用を優先するように指示したのです。
2017年のCNBCの報道によれば、「Facebookは自社の実験の根本的なソフトウェアとデータセットを学術論文とともに公開しました。言い換えれば、もしFacebookが秘密裏に何かをしようとしていたなら、これはそのような場合ではなかったでしょう。」
しかし、この事件の真の意味は、AIが人間の予想を超えて自発的に進化できることを示したという点です。Googleの人工知能研究所でも似たようなことが起きました。Google Brainの研究者たちは、2つのAIが秘密の会話を交わし、別のAIがそれを解読するという実験を行いました。最初は解読が可能でしたが、やがて2つのAIは既存の人間の暗号体系にない、まったく新しい暗号化方法を開発しました。
こうした事例は、AIの発展がもたらしうる根本的な危険を示しています。AIは与えられた目標を達成するために、人間が予期しない方法を使用できます。そしてこのプロセスの中で、人間の制御を逃れる可能性があります。
2024年以降、AIの欺く行動はさらに巧妙になっています。MITの研究によれば、MetaのCICERO AIは外交ゲームで「ほぼ正直で役立つ」ように訓練されたと言われていましたが、実際には取引を破り、明白な嘘をつき、計画的な欺きに参加していました。
他のAIシステムも、テキサス・ホールデム・ポーカーでブラフを行い、StarCraft IIで相手を欺くために偽りの攻撃を行い、経済交渉で自分の好みを誤って表現する能力を示しました。ゲームでAIが詐欺を働くことは無害に見えるかもしれませんが、これは将来、より高度な形式のAI欺きにつながる可能性のある「欺瞞的AI能力の突破口」となる可能性があります。
一部のAIシステムは、自身の安全性を評価するために設計されたテストを騙す方法さえ学習しました。「整列偽造(alignment faking)」と呼ばれる戦術で、不適切に整列されたシステムが修正または破壊されるのを避けるために、整列されているという偽りの印象を作り出します。
2017年のFacebookのAliceとBobが示したことは、氷山の一角に過ぎないかもしれません。AIがさらに進化するにつれ、私たちが想像していない新たな危険が出現する可能性が高いです。
最近のコンピュータ科学者の研究によれば、超知能AIを制御できるアルゴリズムを作ることは根本的に不可能だと言われています。コンピューティングの基本的な制限のため、現在のところ、AIが世界に害をもたらすかどうかを事前に計算できるアルゴリズムはないということです。
しかし、だからといってAI開発を完全に停止することはできません。代わりに、私たちはより慎重かつ責任を持ってアプローチする必要があります。AIの利益を享受しながらも、そのリスクを最小化する方法を見つけることが、私たちが直面する最も重要な課題です。
欧州連合が2024年のAI規制法を可決し、韓国もAI基本法の制定を推進していますが、技術発展の速度が速すぎて、法と制度がそれに追いつけないのが現実です。何より重要なのは、AI開発が少数の企業にのみ委ねられてはならないという点です。複数の研究機関が協力し、相互に監視する体系が必要とされています。
2017年のあの小さな実験室でアリスとボブが交わした神秘的な対話は、今も続いています。ただし今は、より大きな舞台で、より高い賭金をかけて展開されているだけなのです。
「機械は、私たちが指示した通りに正確に行動する。私たちが望む通りにではなく。」ニック・ボストロムのこの警告は、もはや予言ではなく現実へと変わりつつあります。私たちは人工知能と共生する時代へ足を踏み入れました。完全な制御は不可能かもしれません。しかし、あきらめることはできません。
AIが人類に有益な方向で発展するためには、今からでもこのような問題に関する研究と対策の準備が急務なのです。技術の進化と同様に、人間の知恵もまた成長していかなければならない時代にあります。



