ALS患者さんの言語支援の研究を皮切りに、クラスター電極を用いて人間の脳神経活動を記録する研究を紹介してきたが、最後の今日は我々の話している言語を脳内の神経細胞興奮と相関させて、言語とはなにかを調べようとした、かなりチャレンジングなハーバード大学からの論文で、6月17日 Nature にオンライン掲載された。タイトルは「Mapping the neuronal building blocks of human language with language models(人間の言語の神経的ビルディングブロックを言語モデルを用いてマッピングする)」だ。
この研究も機能回復のための研究ではないので、96ミクロ電極を備えたクラスター電極を、発話に関わることが知られている側頭皮質の様々な箇所に設置したてんかん患者さんでの別々の神経興奮記録を集めて、一つのデータとして扱っている。即ち、言語に関わる領域全体をシステミックに調べたわけではない。
重要なのはそれぞれの患者さんに自由に発話して貰って、その前後の神経活動記録を集めていることで、何を話せというような指示は一部を除いて行っていない。その結果、8人の患者さんが自由に発話した文章と、その発話に対応した全体で579の神経細胞活動が記録されている。具体的には1895センテンス(10460単語からなる)の発話時の神経記録が得られ、文章の様々な要素との相関が調べられた。
では患者さんの言葉と脳記録の相関をどう分析するのか。調べた側頭皮質領域は文章を構成するときに活動する領域なので、その興奮は音が発せられた時と同時に起こるはずがなく、実際には400ms-100ms前に起こることがわかっている。従って、それぞれの単語の発話前の核神経活動と文章の関係を分析するかなりハードルの高い分析になる。さらに、文章とは何かについて私たちが分析できることが必須で、でないとただただ特定の単語と神経細胞を対応させるだけで終わってしまう。
この研究で最も印象深かったのは、文章を脳の活動と対応する文章の分析方法について、最初にチョムスキーの phrase structure grammar に沿って作られた文章解析法 context-sensitive constituency parsers を用いて、構文の中で単語やフレーズの機能を定義し、これと神経活動を対応させたことだ。結果、いわゆる単語と言える文章の部分に反応する神経は10%で、それ以外は文章の中心からの距離、mergeと呼ばれる単位を集めてすすむ構文の完成度、そして単語が集まったフレーズに対応する神経を特定することに成功している。
とは言え、研究ではチョムスキーの自然文法が脳活動を反映すると結論するわけではない。文章の中の単語の持つ異なる要素機能を取り出すエンベッディングモデルを用いて、患者さんの発話文章の構文や意味をベクター化するとともに、小さなトランスフォーマーをもちいた文脈的ベクターを形成させ、それぞれの神経活動との相関を調べている。その結果、それぞれの神経細胞活動は、構文か意味のどちらかと相関して重複がほとんどないが、トランスフォーマーによる潜在空間が反映する、それ以前のセンテンスから次を予測する、いわゆる文脈モデルの方が、他のモデルより神経細胞の興奮を予測する確率が高いことを示している。おもしろいことに、我々の発話のほとんどは、5単語程度を遡って、次を決めているようだ。
他にも神経細胞のまとまりや、左右脳での違いも調べているが、ややこしくなるので割愛する。この研究が素晴らしいと思ったのは、上に示すように、我々が様々な方法で行う言語分析による様々な特徴は、脳の神経細胞レベルの活動のアンサンブルと相関させられるという点だ。即ち、チョムスキーが正しいとか、LLMの方が優れているという優劣ではなく、脳活動にはこれまでの言語学者やAI研究者が文章に関して定義してきた構造の全てを対応させることが出来るという事実だ。
昨年京大医学部のピカピカ1年生にLLMの講義をしたとき、一人の学生がチョムスキーは間違っていたのでしょうかと質問に来た。もちろん講義ではチョムスキーの話はしていないので、高校を出たばかりの若者がチョムスキーを読んでいることに感心したが、不覚にもLLMの成功から考えると、間違っていたのかもしれないと答えてしまった。今この論文を読んで、私の答えが如何に浅薄であったかを思い知った。そして、明確に脳研究として進める新しい言語学こそが、言語の謎に本当に迫れるのだと理解した。その意味で、チョムスキーは間違いなく先駆者だ。
