脳内に数百もの皮質電極を置いて電気活動を記録し、行動と対応させることで、例えば私が脳内でアルファベットを書く様子を再現すると、それを実際の文字へと転換することが出来るので、将来全く話せなくなったALSの患者さんとのコミュニケーションが可能になることは間違いない。
しかし、このようなデコーディングで思い浮かべたアルファベットを特定することと、意味のある単語をデコーディングすることとは全く別の話で、おそらく言語野に電極を置いて頭に浮かんだ一つのセンテンスをデコードするためには、まだまだ長い時間がかかると思う。ただ、GPTなどのモデルを介在させることで、解読は出来そうになってきたが、それでも回路レベルで音から一つの単語が分離され、その意味が前後の音の並びから理解される過程を理解するのは簡単でない。
このためには、言語の理解に関わるあらゆる領域での単一神経の記録からネットワークを再構成することが必要で、言語が人間特有の活動であることを考えると、実験的にも困難だ。
今日紹介するカリフォルニア大学サンフランシスコ校からの論文は、顔の表情を読み取ったり、聞き言葉の解読に深く関わることが知られている上側頭回 (STG) に400近い単一神経活動を記録する電極を挿入して、言葉を聞いたときの反応を調べ、STGでの言語処理について迫ろうとした研究で、12月13日 Nature にオンライン掲載された。タイトルは「Large-scale single-neuron speech sound encoding across the depth of human cortex(ヒト脳皮質の各層で話し言葉に反応する大規模単一神経記録)」だ。
これに利用された電極は、面をカバーするのではなく、一本の針に複数の電極が設置され皮質の各層から単一神経興奮を拾うことが出来る電極で、10人の患者さんのてんかん手術の際に、文章を聞かせながら記録を行っている。おそらく複数の箇所に電極を挿入して記録していると思うが、トータル記録時間は15分までに制限している。
一回の測定で150神経細胞の活動を記録できているが、同じ神経セットは同じ文章に対してはほぼ同一の反応を示すことをまず確認している。
次に、聞いた言葉の様々な要素と各神経の反応を対応させている。我々が一つの単語を単語として認識するのに約400−500msかかることが知られているが、STGで記録される活動はそれよりずっと早い、まさに一次聴覚野からすぐ入ってきた音に対する反応で100ms程度のラグで起こる。
最も重要な発見は、個々の神経反応は多様な要素それぞれに対応している点で、
- 文章の始まりに反応する神経細胞、
- 文章の後半抱けに反応する神経細胞
- 鼻音に強く反応する神経細胞
- 破裂音に反応する神経細胞
- 前母音に反応する神経細胞
- 抗母音に反応する神経細胞
などが同定される。
さらに、それぞれの神経は反応する要素に応じてSTG各領域にクラスターを形成しているが、決して一つの要素だけで固まっているのではなく、特に層別に各要素に対する神経が集まっていることが確認される。そして、同じ層の神経ほど神経結合による同期が強く見られることから、我々はまず言葉であることを認識して注意のスイッチが入ると、反応した領域内の回路で、統合が行われていることが想像される。さらにニューラルネットモデルでの解析も行っているが省略する。
結論としては、おそらく皮質中間層が最も最初におそらく視床からの刺激に反応し、その後他の層との回路で統合することで、各層への様々なインプットを統合しながら500ms程度の時間をかけて、単語の意味を再構成すると考えられる。
このように、STGでは上位のインプットと参照しながら音を単語へと転換する作業が行われている。おそらく、この反応とGPTなどのモデルを組みあわせる実験により、STGで処理された情報がどこまでLLMの単語に近いところまで到達しているのか今後わかるような気がする。いずれにせよ、単一神経活動から見ると、本当に複雑な処理が行われていることを実感する。