AI書房
本でAIを読む
金京鎮弁護士のAI・法律・産業・歴史・政治・文化をテーマにしたオンライン書籍を収録しています。各書きは目次・序文・章・エピローグで構成され、連続読書が可能です。
[AI書房] 第11章 Atariの衝撃
デミス・ハサビス、Google人工知能の父
第4部 DeepMind
第11章 Atariの衝撃
金京鎮
ゲームを学習するAI。2013年、ロンドンの深夜、ディープマインドの小さなオフィスには、奇妙な緊張感と疲労が混ざり合った空気が漂っていました。窓の外にはロンドンの冷たい夜の街並みが見えましたが、デミス・ハサビスと彼の仲間たちの視線は、ただモニターの中で点滅する粗いピクセルに釘付けになっていました。画面の中では、1970年代の遺物であるアタリ2600が稼働していました。
華やかなグラフィックも、壮大なサウンドもない無骨な8ビットの画面でしたが、彼らが見つめていたのは単なるレトロゲームではありませんでした。それは人工知能の歴史、いえ、人類が道具を作る方法が根本的に変わる瞬間でした。彼らが作り上げた人工知能エージェント、後に「DQN(Deep Q-Network)」と呼ばれることになるこのシステムは、生まれたばかりの赤ん坊のようでした。
研究チームは、このAIにゲームのルールを一つも教えていませんでした。何が敵で何が味方なのか、点数はどのように獲得するのか、さらにはゲームをクリアするために何をすべきかさえも伝えませんでした。AIが受け取ったものは、たった二つだけでした。一つは人間の目の役割を果たす画面のピクセル情報(視覚データ)、もう一つはゲームのスコア(報酬)が増減する信号でした。
「スコアを上げろ」。これがAIに与えられた唯一の本能であり、命令でした。初期段階のAIは、まさに支離滅裂な状態でした。
画面内のラケットは勝手な方向に動き、飛んでくるボールを避けることすらままならず、意味のないボタンを連打するばかりでした。まるでビデオゲームを初めて手にした三歳児よりもひどい状態でした。しかし、ハサビスと研究チームは失望しませんでした。
彼らは、この無秩序な混沌の中から秩序が芽生える瞬間を待ち続けていました。ディープラーニングという人工知能の脳と、強化学習というアメとムチのメカニズムが組み合わさって機能するのを、固唾をのんで見守っていました。やがて、驚くべきことが起こりました。
数千、数万回もの試行錯誤を経て、AIは画面内のピクセルのパターンを自ら認識し始めました。「この白い点(ボール)が下に
移動してくる時、自分の白い棒(ラケット)をその下に合わせれば、スコアという数字が上がっていくのだ」。AIは誰に教わることもなく、自ら因果関係を推論したのです。これは、単に入力された命令を実行するだけの従来のコンピュータプログラムとは、次元の異なるものでした。
それは「学習」でした。人間が世界を学ぶ方法、すなわち経験を通じて自ら悟るプロセスを、機械が再現していたのです。この瞬間は、ハサビスが長年夢見てきた「汎用学習アルゴリズム」の可能性が証明された刹那でした。
チェスならチェス、囲碁なら囲碁といった、特定のゲームのためだけにルールをハードコーディングされたAIは、そのゲーム以外には何もできません。チェスチャンピオンを破ったディープブルーに三目並べをさせても、ルールすら理解できないのです。しかし、DQNは違いました。「スペースインベーダー」をプレイしていたのと同じコードが、何の修正もなしに「ポン(Pong)」をプレイし、「ブロック崩し」を成し遂げたのです。
単に画面上のピクセルを見せただけであるにもかかわらず、AIは自らその世界の物理法則やルールを習得したのです。これは、人工知能が「閉じた世界」の専門家から「開かれた世界」の学習者へと進化を遂げるための、最初の一歩でした。『ブロック崩し(Breakout)』においてAIが自ら発見したトンネル戦略、このプロジェクトのハイライトは、『ブロック崩し』のゲームテスト中に起こりました。
2013年、GoogleがDeepMindを買収する直前、ハサビスはこのデモを通じてラリー・ペイジやGoogleの役員たちにDeepMindの価値を証明しなければなりませんでした。そして、その証明の瞬間は、AI研究者たちにとっても予想外のものでした。学習が始まって10分ほど経った頃、DQNはかなり手際よくボールを打ち返し始めました。人間で言えば、かなりゲームの上手なアマチュアレベルでした。
ボールを逃さず、着実に打ち返してブロックを一つずつ壊していきました。研究員たちは頷きました。「うまく動いているな。人間レベルに到達したぞ」
彼らはこれほどの実績があれば十分な成果だと考えました。しかし、AIは止まりませんでした。学習開始から2時間が経過すると、画面内のAIの動きが微妙に変化しました。
そのような光景が繰り広げられました。AIは執拗にレンガの壁の一端のみを集中攻撃しました。同じ場所にボールを送り続け、ついに壁の端にある垂直な隙間を突き破ったのです。
穴が開くと、AIはその狭い隙間へとボールを押し込みました。壁の裏側へと入り込んだボールは、壁と天井の間を猛烈な速さで行き来しながら跳ね返りました。「ティディ・ディディック」という音とともに、瞬く間に数多くのレンガが崩れ落ち、スコアは指数関数的に急上昇しました。
それこそが「トンネリング(Tunneling)」戦略でした。熟練者だけが知るその秘策を、AIが自ら見つけ出したのです。その光景を見守っていた研究員たちは、一瞬沈黙した後、歓喜の声を上げました。
これは単なるスコアの獲得ではありませんでした。AIが「戦略的思考」を行った証拠だったのです。「目の前のボールを受け取る方が安全だが、リスクを冒してでも片方の壁を突き破れば、後で莫大な報酬を得ることができる」。
この複雑な因果関係と長期的な計画を、AIはピクセルの動きとスコアボードの変化のみから理解したのです。ハサビスはこの瞬間を振り返り、「まるでAIが考えている様子を、目の当たりにしているようだった」と語っています。それはプログラマーが入力したコードではなく、データと経験が生み出した創発的な知能でした。
この「トンネリング」の出来事は、DeepMindのチームに確信を与えました。自分たちが進んでいる道が正しいという確信、そしていつの日か、この知能がゲームの枠を超え、科学的な難問という巨大な壁にもトンネルを穿つことができるだろうという信念です。2013年のNature論文発表とAIコミュニティへの衝撃。DeepMindのこの成果は、2013年のNIPS(現NeurIPS)ディープラーニング・ワークショップで初めて公開され、その後、さらなる強化を経て2015年には世界的な科学誌『Nature』の表紙を飾りました。
論文のタイトルは『深層強化学習による人間レベルの制御(Human-level control through deep reinforcement learning)』でした。科学界、特にAIコミュニティが受けた衝撃は、「ショック」という言葉でしか表現できないものでした。当時のAI学界の主流は、依然として人間が精緻にルールを設計する手法に慣れ親しんでいたのです。
あるいは、ディープラーニングは画像認識のような静的なタスクには優れているものの、ゲームのように連続的な意思決定を必要とする動的な環境では、機能させるのが難しいという懐疑論が支配的でした。
強化学習は理論上は素晴らしいものでしたが、現実の複雑な問題を解決するにはあまりに不安定である、というのが定説でした。しかし、ロンドンの小さなスタートアップが、あらゆる常識を打ち破ったのです。この論文が衝撃的であった理由は、「汎用性(Generality)」にありました。
彼らが作り上げた単一のアルゴリズム・ネットワーク(DQN)は、Atari 2600の49種類のゲームのうち、29種類において人間のエキスパート以上の実力を示しました。ボクシング、ビデオピンボール、スペースインベーダーなど、全く異なるルールと目的を持つゲームを、同じ「脳」が学習したのです。これは、AIが特化型の道具から汎用的な道具へと進化できるという、強力な兆しでした。
『Nature』誌の表紙に、コンピュータサイエンス、それもゲームをプレイするAIに関する論文が掲載されること自体が、極めて異例なことでした。これは、AI研究が単なる工学的な試みを超え、知能の本質を探求する自然科学の領域へと進出したことを象徴していました。世界中の研究者たちはDQNのソースコードを分析して熱狂し、Googleはこの可能性を先取りするために巨額の投資を行いました。
アタリ・ショックは、AI研究の冬を終わらせ、ディープラーニングの黄金時代を切り拓く起爆剤となりました。そしてその中心には、「知能を解き明かす」というハサビスの執念深い旅がありました。なぜゲームなのか? ゲームの難易度と象徴性の計算。ゲームは単なる娯楽ではありませんでした。
それは、知能を測定し、訓練するために人類が発明した、最も精巧な「実験室」でした。彼はしばしば「ゲームは現実世界の縮図(Microcosm)である」と語りました。現実世界はあまりにも複雑でノイズが多く、結果が出るまでに膨大な時間がかかります。現実の世界でAIに株式投資を学ばせたり、ロボットに歩行を習得させたりするには、莫大なコストとリスクが伴います。しかし、ゲームは異なります。安全であり、無限に繰り返すことができ、明確な目標(勝利またはスコア)が存在するのです。
ハサビスは、ゲームの難易度を数学的に計算することで、AIの発展段階を設計しました。アタリのゲームは、2次元平面のピクセル情報を処理する段階でした。これは、視覚野の初期の情報処理能力を検証するものでした。
囲碁(Go)は、「完全情報ゲーム(Perfect Information Game)」の頂点でした。碁盤の上には隠された情報はありません。互いのすべての手が見えている状態で、純粋な読みと直感、そしてパターン認識能力を競い合うのです。囲碁の局面の数は宇宙の原子の数よりも多いため、これは
単なる計算能力を超えた「直感」の領域を、AIが征服できるのかを問う試金石でした。ハサビスの視線は、囲碁のその先を向いていました。現実世界は、囲碁の盤面のようにすべての情報が公開されているわけではありません。
相手が何を考えているのか、明日の天気はどうなるのか、隠されたカーテンの向こうに何があるのかを知らないまま、意思決定を下さなければなりません。これを「不完全情報ゲーム(Imperfect Information Game)」と呼びます。ポーカーや『スタークラフト』などのゲームがこれに該当します。ハサビスは、Atariで「感覚」を、AlphaGoで「直感」を証明した後、最終的に現実世界に最も近い不確実性の世界、すなわち『スタークラフト II』へとAIを投入する計画を立てました。
これは単にゲームに強いAIを作るのではなく、不確実な現実世界において科学的な仮説を立て、実験を設計できるAI、すなわち「科学者AI」を作るための不可欠な訓練プロセスでした。『スタークラフト II』の征服(AlphaStar):不完全情報環境におけるリアルタイム戦略。2019年1月、DeepMindは再び世界を驚かせました。今回の舞台は囲碁の盤面ではなく、リアルタイム戦略シミュレーション(RTS)ゲームである『スタークラフト II』でした。
AlphaGoが静的なターン制ゲームの王者であったのに対し、「AlphaStar」は、一瞬の間に数百もの決断を下さなければならない動的な戦場の指揮官でなければなりませんでした。『スタークラフト II』は、AIにとって悪夢のような課題でした。第一に、「戦霧(Fog of War)」が存在します。
プレイヤーは、自分のユニットがいる場所以外を見ることはできません。相手が何を建設しているのか、部隊をどこへ移動させているのかは見えないのです。したがって、AIは絶えず偵察(Scouting)を通じて情報を収集し、見えない相手の行動を予測・推論しなければなりません。これは、情報が不足している状況下で仮説を立て、検証するという高度な知的行為なのです。
第二に、「リアルタイム」という圧力です。囲碁では次の手を考える時間が与えられますが、スタークラフトは絶え間なく時間が流れていきます。第三に、「長期的な展望(Long time horizon)」の問題です。ゲーム序盤にワーカーを一台多く生産するという決定が、20分後の大規模な戦闘の勝敗を左右することもあります。
AIは数千、数万フレーム先の未来を見据え、現在の行動がもたらすバタフライ効果を計算しなければなりませんでした。
AlphaStarは、プロゲーマーの「TLO(ダリオ・ブンシ)」や「MaNa(Grzegorz Komincz)」を相手に圧倒的な勝利を収めました。人々は、AlphaStarが凄まじい速さでマウスをクリックするフィジカル(APM)によって勝利したと予想しましたが、DeepMindはAIのクリック速度を人間レベルに制限していました。AlphaStarが示したのは、単なる反応速度ではありませんでした。
それは、鳥肌が立つような「判断力」でした。AlphaStarは偵察を通じて相手の構成を把握し、それに合わせて部隊の組み合わせを柔軟に変更しました。不利な状況では果敢に撤退し、相手の隙が見えれば躊躇なく攻め込みました。
特にMaNaとの対戦で見せた「点滅追跡者(Blink Stalker)」のコントロールは、人間には真似できない精緻さの極致でしたが、さらに驚くべきは戦場全体を俯瞰する戦略的な視野でした。もちろん限界もありました。MaNaがAlphaStarの視界の外から絶えず牽制を仕掛けた際、AlphaStarが混乱する様子も捉えられました。
しかし、ディープマインドはこれをすぐに修正し、最終的にAlphaStarはグランドマスターレベルに到達しました。ハサビスにとって、AlphaStarの勝利は、AIが不確実で複雑、かつリアルタイムに変化する環境、すなわち「現実世界」においても、複雑な戦略を立てて目標を達成できるという強力な証拠となりました。アタリの『ブレイクアウト』のゲーム画面