AI書房
本でAIを読む
金京鎮弁護士のAI・法律・産業・歴史・政治・文化をテーマにしたオンライン書籍を収録しています。各書きは目次・序文・章・エピローグで構成され、連続読書が可能です。
[AI書房] 第3章 脳信号を読む道具たち
脳を読む人々:Neuralinkと人類最後の革命
第3章 脳信号を読む道具たち
金京鎮
a. EEG、ECoG、fMRI、fNIRS:測定方式別の長所と短所
脳を観察する方法は一つではありません。天文学者が可視光線、赤外線、電波望遠鏡で宇宙の異なる姿を見るように、神経科学者たちも様々な種類の「窓」を通じて脳を観察しています。ある窓は速いですが不鮮明で、ある窓は鮮明ですが遅いです。ある窓は頭蓋骨の外から観察し、ある窓は脳の中に直接入ります。BCIを理解するには、まずこれらの窓の特性を知る必要があります。
EEG(脳電図)と呼ばれるこの方法は、頭皮上に電極を貼り脳の電気的活動を測定します。数百万個のニューロンが同時に発火する際に生じる電位差を捉えるものです。EEGの強みは時間分解能です。脳の電気的変化はミリ秒単位で起こりますが、EEGはこの急速な変化をリアルタイムで捕捉できます。機器は比較的低廉で携帯可能であり、手術が必要ありません。ゲーム用ヘッドセットから医療用機器まで、EEGは最も広く使用されるBCIツールです。
しかし、EEGには致命的な弱点があります。空間分解能が低いのです。脳から発せられた電気信号は頭蓋骨と頭皮を通過する際に大幅に減弱し、複数の領域からの信号が混在してしまいます。科学者たちはこれを「スタジアムの外で歓声を聞くこと」に例えます。観客が一緒に「わあ!」と叫べば、ゴールが入ったという事実は分かります。しかし、特定の観客二人が交わす会話は絶対に聞こえません。コンクリート壁が遮っているからです。同様に、EEGは脳の大きな状態変化は把握しますが、「右人差し指を曲げろ」といった微細な命令を解読することが困難です。まばたきをしたり、歯を食いしばる際に発生する筋肉信号が脳波を覆い尽くすほど強力なノイズを生成することもあります。
ECoG(皮質脳波)はこの限界を克服するために現れました。頭蓋骨を開き、脳を覆う膜の上または下に電極グリッドを直接取り付ける方式です。EEGがスタジアムの外なら、ECoGはスタジアム内のVIP席から試合を観ているようなものです。頭蓋骨という障壁がなくなったため、信号ははるかに鮮明です。空間分解能がミリメートル水準に上昇し、高周波帯域まで測定できるため、指の動きや発話意図といった具体的な情報の解読に有利です。2024年に発表された研究では、ECoGを通じてALS患者の高ガンマ信号を36ヶ月間安定的に記録し、平均91パーセントの精度を維持したと報告されています。
ECoGの代償は明確です。開頭術が必要です。感染のリスクがあり、患者に手術的負担を強いることになります。主に癲癇手術前の検査や研究目的で使用されてきており、一般大衆にとっては依然として高い参入障壁として残っています。
fMRI(機能的磁気共鳴画像)は電気ではなく血流を見ます。脳の特定の部位が活動すると、その部位に酸素を含んだ血液が集まってきますが、fMRIは磁場を利用してこの変化を3次元画像で
撮影します。fMRIの強みは空間分解能です。脳の深部までミリメートル単位で正確に地図化することができます。感情や記憶といった複雑な機能が脳のどこで起こるかを把握するうえで、比類のない優位性を持っています。
しかし、BCIの観点からすると、fMRIには致命的な欠点があります。時間遅延です。神経細胞の電気的発火はミリ秒単位で起こりますが、血液がそこに集まるまでには数秒かかります。ユーザーが「右に行け」と考えてから2秒から3秒後になって、fMRIがそれを検出できます。リアルタイム制御が必要なBCIには不適切です。機器は部屋一つを満たすほど巨大で、数十億円の価格がします。被験者は狭く騒々しいトンネルの中で身動きが取れずに横たわっていなければなりません。
fNIRS(機能的近赤外線分光法)はfMRIのポータブル版と呼ばれています。近赤外線が頭蓋骨を透過できるという点を利用して、頭に着けたバンドから光を照射し、反射して戻ってきた光を分析することで脳血流の酸素濃度を測定します。fNIRSはfMRIよりはるかに低廉で軽量です。座って、立って、さらには歩きながらでも測定できます。日常生活の中で脳活動をモニタリングするのに適しており、最近では運転手の睡眠検出や学生の集中力測定、脳卒中リハビリテーション治療などに活発に使用されています。
しかし、fNIRSもまた限界があります。光が到達できる深さが皮質表面に限定されており、空間分解能はセンチメートル水準にとどまります。血流反応の遅延時間のため、fMRIと同様に高速制御には適していません。髪が濃い場合、信号の取得が困難であるという実用的な問題もあります。
完璧なツールは存在しません。EEGは高速ですが不鮮明で、fMRIは正確ですが遅く、ECoGは鮮明ですが手術が必要です。2024年以降、研究者たちはこれらの限界を克服するために複数の方式を組み合わせるハイブリッドアプローチを試みています。EEGとfNIRSを同時に使用して、高速な電気信号と血流変化を一緒に観察する研究が増加しています。2024年のある研究では、EEG-fNIRS統合システムが運動想像課題で95.86パーセントの分類精度を達成したと報告されています。これはEEG単独使用時よりも著しく高い数値です。
BCIを設計する際、研究者が直面するのは結局のところ選択の問題です。精度と利便性のバランス、侵襲性と非侵襲性のバランス。何を測定したいのか、どの程度の速さで反応する必要があるのか、患者が受け入れられるリスクは何か。これらの質問への答えが、ツールを決定します。
b. マイクロ電極アレイと柔軟電極の生体適合性の課題
2012年のある日、ブラウン大学のジョン・ドノヒュー教授の研究室で、ある女性がロボットアームでコーヒーを飲みました。キャシー・ハッチンソン、58歳。15年前に脳卒中で四肢麻痺になった患者でした。彼女の脳には、ユタアレイと呼ばれる小さなチップが埋め込まれていました。爪より小さいシリコンプレート上に96個の微細な針が立っている装置でした。これらの針が彼女の運動皮質からニューロンの信号を読み取り、コンピュータがその信号を解釈してロボットアームに命令を送りました。彼女は思考だけでカップをつかんで口に持っていきました。14年ぶりのことでした。
この光景は侵襲型BCIの可能性を全世界に示しました。しかし研究者たちは歓声の中にも不安を感じました。ユタアレイはどのくらい作動し続けるのか。脳はこれらの金属針を受け入れるだろうか。
侵襲型BCIの核心は電極です。頭皮の外で朧気に聞く代わりに、脳の近くに行ってはっきり聞こうというのが侵襲型の哲学です。ユタアレイのようなマイクロ電極アレイは皮質に直接挿入され、個々のニューロンの発火を記録します。一度に数百のチャネルから信号を得られ、その信号はEEGと比較にならないほど鮮明です。
問題は、脳がこの侵入者を歓迎しないということです。脳組織はプリンやゼリーのように非常に柔らかいです。一方、従来の電極はシリコンや金属で作られているため、相対的に硬いです。この機械的なミスマッチが深刻な問題を引き起こします。脳は静止していません。心臓が鼓動するたびに血流によってわずかに膨張・収縮し、頭を動かすたびに頭蓋骨の中で揺れ動きます。硬い針が柔らかく動く脳に刺さっていると、周囲の組織に継続的な損傷を与えます。まるでナイフがゼリーを切るように。
これにより脳の免疫系が作動します。ミクログリア細胞とアストロサイトが侵入者である電極の周囲に集まり、炎症反応を引き起こします。結局電極を硬い瘢痕組織で包み込んでしまいます。この瘢痕は電気を通さない絶縁体として機能し、時間の経過とともに電極がニューロンの信号を聞き取れなくなります。これがユタアレイの寿命を制限する最大の要因です。移植後数ヶ月経つと信号品質が低下し始め、数年経つと多くのチャネルが機能を失います。
この問題を解決するため、研究者たちは柔軟電極に注目しました。脳組織と類似した機械的特性を持つ材料で電極を作ったらどうか。Neuralinkが開発した電極糸がその典型的な例です。髪の毛の太さの1/20水準のポリイミドフィルム上に金電極を蒸着した形で、脳の動きに合わせて一緒に波のように動くことができます。理論的には機械的ミスマッチによる損傷と免疫反応を劇的に減らすことができます。
しかし、柔軟電極は「柔らかいのが良い」で終わりません。あまりに柔軟だと脳に挿入するのが困難です。脳の保護膜を貫通して挿入するにはある程度の硬性が必要ですが、柔軟電極は
曲がってしまいます。これを解決するためにさまざまなエンジニアリング的アプローチが試みられています。Neuralinkは縫い針の原理を使用した手術用ロボットを開発しました。硬いタングステン針が柔軟な電極糸を把握し、脳の中に押し込んだ後、針だけが抜ける方式です。ロボットはコンピュータビジョンを通じて脳表面の血管をリアルタイムで検出し、それを避けて電極を挿入します。
別のアプローチは溶解可能なコーティングです。砂糖や生分解性ポリマーで柔軟電極をコーティングして、挿入時には硬くし、挿入後に体液により自然に解けて柔軟になるようにする方法です。ハーバード大学のCharles Liber グループは、シリンジを通じてメッシュ形の電極を脳に注入する技術を発表しました。このメッシュは脳組織の間に広がり、ニューロンと自然に絡み、免疫反応を最小化すると報告されています。
2024年Nature Communicationsに発表された研究では、血管を通じて超柔軟電極を挿入する方法が紹介されました。開頭術なしに頸部静脈を通じて電極を脳近くの血管まで押し上げた後、血管壁を穿通して脳組織に電極を埋め込む方式です。羊で実施された実験では、この方法で単一ニューロン水準の信号記録に成功しました。2025年には、1,024チャネル超薄型電極アレイを開頭術なしで頭蓋骨に小さな隙間だけ開けて挿入する技術が、豚モデルと人体手術環境で検証されました。
材料科学の進歩も注目に値します。ナノ多孔質グラフェン基盤の柔軟電極は、25マイクロメートル直径の小さい電極でも低インピーダンスと高い電荷注入能力を達成しました。げっ歯類脳で12週間、末梢神経で8週間の慢性移植後も生体適合性が維持されたと報告されています。電極表面を導電性ポリマーまたはハイドロゲルでコーティングして脳組織との界面を柔らかくしたり、抗炎症薬をコーティングして初期免疫反応を抑制する研究も進行中です。
究極の目標は、数年から数十年間にわたって性能低下なしに作動する慢性BCIです。そのためには単なる機械的柔軟性を超えて、電極材料が体液による腐食から保護されなければならず、また無線送信による発熱が脳組織を傷つけないように熱管理設計も不可欠です。しかし2025年現在、ほとんどの慢性移植柔軟電極の最大寿命は約1年にとどまっています。人間の脳と機械が数十年一緒にあるにはまだ長い道のりがあるということです。
生体適合性は結局のところ材料だけの問題ではありません。挿入時の損傷、微細な動きによる反復損傷、免疫反応の累積、電気化学的劣化、長期保守の不可能性が重なって信号が悪くなります。「最初はうまくいく」ではなく、「6ヶ月後、1年後、数年後も同じ品質で機能する」が真の基準です。脳という柔らかく繊細な組織と機械という硬く異質な物体の間の調和。これが侵襲型BCIが乗り越えなければならない最も基本的な障壁です。
c. 信号帯域幅と精度:「使えるBCI」の条件
2021年、スタンフォード大学である男性が思考だけで文字を書きました。四肢麻痺患者だった彼は、手書きをする想像をし、脳に埋め込まれた電極が彼の運動皮質信号を読み取りました。コンピュータはこの信号を解釈して画面に文字を表示しました。毎分90文字。一般人のスマートフォンタイピング速度である毎分40字から50字をはるかに超える記録でした。研究チームはこの結果をネイチャーに発表し、BCIが実用的なコミュニケーションツールになり得ることを示しました。
BCIはデモ映像では常に印象的です。思考だけでロボットアームを動かし、車いすを操縦し、ゲームをします。しかし、ユーザーが毎日使う瞬間、かっこよさは意味をなくします。実験室で可能なことと日常で使えることはまったく別の問題です。「使えるBCI」の条件は感覚ではなく数値で定義されます。帯域幅、精度、遅延時間。この3つが核です。
帯域幅は、一度にどれだけの情報を送信できるかを示しています。イーロン・マスクはBCIの根本的な問題を「帯域幅の制限」と定義しました。スマートフォンの画面を指でタッチするとき、毎秒数十ビットの情報を入力します。しかし初期のEEGベースのBCIは毎分数ビット程度にすぎませんでした。ユーザーが「はい」または「いいえ」を選択するか、カーソルを非常にゆっくり動かすレベルでした。これは歯がゆく、日常生活で使うことが難しいのです。
BCI分野では、情報転送率という概念で速度と精度を一緒に評価します。複数の選択肢の中からユーザーの意図を合わせる分類問題で、正解率と選択肢数、試行回数をまとめて毎分ビットで換算します。2024年基準で、非侵襲的なEEGベースのタイピングシステムは毎分5ビットから10ビット水準にとどまっています。一方、侵襲型ECoGベースのシステムは毎分数十ビットから数百ビットまで達成しています。スタンフォードの手書き想像研究が毎分90文字を記録したのは、この帯域幅格差を示す象徴的な事例です。
精度とは「私がAを考えたときコンピュータがAと認識する確率」です。90パーセントの精度は優れているように見えますが、10回中1回タイプミスが出たりクリックが間違ったりすれば、ユーザーはすぐに疲れを感じます。間違ったコマンドを戻す費用が大きいからです。さらに精度は単なる数字ではありません。エラーの形態も含みます。カーソル移動BCIで90パーセント精度であっても、エラーが「時々反対方向に急発進」なら、ユーザーは毎回緊張しなければなりません。反対にエラーが「少し動きが少ない」なら、補正が可能です。
脳信号は時間とともに変わります。朝と夜の脳状態は異なり、疲れたり感情が変わったりすると、同じことを考えても信号パターンが異なります。電極がわずかに動いても信号特性が変わります。これを非定常性と呼びます。過去のBCIは毎日使用前に30分間のキャリブレーションプロセスを経る必要がありました。これは実用性を大幅に低下させます。「使えるBCI」は1回の学習で長期間パフォーマンスを維持するか、ユーザーがシステムを使用する間にアルゴリズムが自動的に適応してパフォーマンスを維持する必要があります。Neuralinkの最初の患者ノーランド・アボの場合、移植後いくつかの電極が脳から
抜け落ち、信号が弱くなったにもかかわらず、デコーディングアルゴリズムを修正して精度を再び向上させたケースが報告されています。
遅延時間はユーザー体験の中核です。考えたらすぐに機械が反応しなければ、それを自分の体のように感じることはできません。考えてから1秒後にカーソルが動くなら、その道具を体の一部として受け入れられません。研究によれば、思考から機械反応までの遅延時間が100ミリ秒から200ミリ秒以内である必要があります。そうしてこそユーザーは「自分がした」という主体感を感じられます。そのためには脳信号を読み、無線で送信し、外部コンピュータが解釈して命令を送る全体プロセスが非常に高速に実行される必要があります。最近ではエッジコンピューティングを導入して、脳移植チップ自体で一次データ圧縮やスパイク検出を実行し、送信遅延を減らす研究が進行中です。
測定方式によってこれらの条件の構造的限界が異なります。非侵襲的なEEGとfNIRSは安全でアクセスしやすいですが、信号対ノイズ比が低く、高速高精度制御を達成するのが難しいです。ECoGは手術の負担はありますが、信号品質が良く高性能デコーディングに有利です。完全侵襲型マイクロ電極アレイは最高水準の信号を得る潜在力がありますが、前述の長期安定性と生体適合性が足かせになります。
「使えるBCI」の条件は臨床と消費者市場で異なる定義をされます。重度麻痺患者にとって重要なのは、遅く、やや不便であっても、自分の意思を表現できるかどうかです。消費者用BCIでは
速度と精度だけでなく、装着感、バッテリー寿命、デザインといったユーザー体験要素が、より重要な採用基準になります。結局「使えるBCI」とは、ユーザーが機械を操作しているという事実さえ忘れるほど高速で正確でありながら、自分の心を理解してくれるインターフェースを意味します。しかし、現在の技術はまだそのレベルに達していません。
d. ディープラーニングデコーディング:機械学習が脳波を解釈する方法
2016年、Meta(当時Facebook)の研究チームは野心的なプロジェクトを開始しました。毎分100語のタイピング速度を目標とする脳テキストインターフェース。指を動かさずに思考だけで文字を書かせるというものでした。問題は、脳から収集した電気信号自体が無意味なノイズに見えるということでした。ジジジッというノイズ波形。ここから「こんにちは」という意図をどうやって読み取るのか。その答えは人工知能にありました。
脳信号デコーディングの核は、パターン認識です。ユーザーが特定の意図を持つときに脳に現れる信号パターンを見つけ出し、新しい信号が入ってくるとそれがどの意図に相当するかを分類することです。過去には、人間が直接ルールを定義していました。「8ヘルツから12ヘルツの間のアルファ波が低下したら、動こうとする意図だ」と定義し、その特徴だけを抽出して分類器に入れました。線形判別分析やサポートベクターマシンといった伝統的な機械学習方法が使用されていました。
このアプローチの限界は明確でした。脳信号は非常に複雑であり、人間が定義した単純な特徴だけでは説明されない多くの情報があります。人ごとに脳の構造と信号パターンが異なり、同じ人でも状態によって信号が変わります。ディープラーニングはこのプロセスに革命をもたらしました。特徴を人間が選ぶのではなく、モデルがデータから直接学ぶことが重要です。
畳み込みニューラルネットワークは画像処理で強みを示すアーキテクチャですが、脳波データにも適用されました。EEG信号を時間とチャネル(電極位置)の2次元データとして見て、空間と時間に関連した複雑なパターンを自動的に学習します。人間が教えていない微細なニューロン発火のパターンまで把握します。2018年に発表されたEEGNetは、EEG信号処理に最適化された小型畳み込みニューラルネットワークアーキテクチャで、少量のデータでも高い分類精度を示す代表的なモデルとなりました。
リカレントニューラルネットワークと長短期メモリネットワークは、時間経過に従うデータ処理に強いです。「さっきこういう信号が出たから、今のこの信号はこういう意味だろう」と文脈を理解するのに適しています。手を伸ばす動作の軌跡や文を話すプロセスのように、以前の状態が現在の状態に影響を与える継続的な信号を解釈するのに使用されています。
近年、最も注目されているのはトランスフォーマー構造です。ChatGPTのような大規模言語モデルの核となる技術であるトランスフォーマーは、BCIにも適用されています。トランスフォーマーのアテンションメカニズムは、データのどの部分が重要かに重みを置いて、全体的な文脈を把握します。脳信号を、あたかも一つの言語のように扱うわけです。脳波信号を単語のように細かく分割してトランスフォーマーに入力すると、前後の脳波の文脈を見て、その脳波パターンがどのような意図に相当するかを解釈します。
2024年に発表された研究では、トランスフォーマーベースのデコーダーが既存の方法を大きく上回りました。ある研究では、畳み込みトランスフォーマーネットワークが運動イメージ分類において、被験者内評価で82.52パーセント、被験者間評価で58.64パーセントの精度を達成しています。内部音声認識研究では
は、スペクトロ-時間的トランスフォーマーが既存のEEGNetアプローチより著しく高い精度を示しました。トランスフォーマーが長期時間依存性と周波数依存性を同時に学習できるためです。
侵襲型BCIでは、深層学習の効果がさらに劇的です。ECoGやマイクロ電極から得られる信号はEEGより遥かに明確です。信号が良いほど、深層学習は強くなります。モデルが意図に有意味なパターンをより直接的に学習できるからです。最近では、高密度ECoGと深層学習を組み合わせて、1分間に数十語レベルの高速通信を目標とする研究が登場しています。デコーダーも単純な分類を超えて、言語モデル、シーケンスデコーディング、エラー修正まで組み合わせる方向に進化しています。
最新のトレンドはファウンデーションモデルです。数万人の脳波データを事前に学習した、巨大な脳波専用人工知能を作ることです。ちょうど、事前に英語を学んだ人が新しい医学用語をすぐに習得するように、この巨大モデルは新しいユーザーに出会ったとき、ごくわずかなデータだけでもその人の脳信号をすぐに理解できるようになります。これを転移学習といいます。BCIの慢性的な問題である長い訓練時間を飛躍的に削減し、大衆化を加速させる鍵になると期待されています。
しかし、深層学習にも課題があります。まず、ブラックボックス問題です。深層学習モデルがなぜ特定の決定を下したのかを説明することが難しいです。医療分野では、なぜそのような判断をしたのか、納得できる根拠が重要です。説明可能な人工知能技術を脳波デコーディングに適用して、モデルがどの時間帯、どのチャンネル、どの周波数特性に注目しているかを分析しようとする研究が進行中です。
また、セッション間ドリフト問題があります。昨日の脳と今日の脳は異なります。EEG電極の位置やインピーダンスが変化し、侵襲型電極は長期的な生体反応によって信号分布が変わります。モデルは昨日学習したパターンが今日は通用しないかもしれません。個人差の問題もあります。人それぞれ頭蓋骨の厚さ、皮質構造、生理的ノイズが異なります。汎用モデルは理想ですが、大抵は個別化プロセスが必要です。
深層学習はBCIを一気に解決するものではありません。しかし、信号が良くなるほど、データが蓄積するほど、運用が精密化するほど、パフォーマンスを大きく向上させる増幅器の役割を果たします。ハードウェアがより良い信号を提供し、ソフトウェアがその信号をより上手に解釈する好循環。結局のところ、深層学習は雑音を含む電気信号を意味と通信に昇華させる翻訳者です。脳と機械の間で互いの言語を通訳する役割を果たします。
