ChatGPT のような大規模言語モデルが利用されるようになり、脳研究も大きく変わったと思うが、今でも鮮烈に記憶しているのが2023年5月に紹介したテキサス大学からの論文で、絵を見てそれを説明する時に生じる脳の活動を機能的MRIで撮影し、これを言語化した後 GPT にインプットすることで、絵に対応する意味のある文章を脳活動から再構成できるという論文だった(https://aasj.jp/news/watch/22018)。この論文については今も講義をするときに利用している。
うれしいことに、この研究を遙かに凌駕する新しい方法を開発して、よりリアルタイムに視覚情報の意味を考えるときの脳の活動を言語として解読する研究が、我が国の NTT情報科学研究所の Horikawa Tomoyasu さんによって Science Advances に発表された。タイトルは「Mind captioning: Evolving descriptive text of mental content from human brain activity(Mind Captioning : 人間の脳活動から展開する精神内容についての説明)」だ。
いつも通り AI 処理の詳しい内容はわからないが、素人目にもよく考えられた方法が用いられている。まず様々な短い動画についての英語のキャプションを集め、このキャプションを DeBERTa-large と呼ばれる言語モデルにインプットして、キャプションをエンベッディングする。
同じ動画を7人の日本語を使う被検者にみせて、そのときの脳全体の機能的 MRI 画像を学習させ、言語キャプションと対応させられるようにしておく。これにより、機能的 MRI 画像を言語的意味空間に落とし込むことが可能になる。よく考えられていると思うのは、脳画像は日本語を使う被検者、見せる画像の言語化は英語で行うことで、言語にとらわれない意味をコンテキスト化できる点だ。
次に新しい画像を日本語を使っている被検者に見せたときの脳画像をデコーダーにより意味ベクターに変換するが、それをそのまま英語に言語化するのではなく、マスク・ラーニングを用いて最適言語を探す操作を100回程度繰り返すことで、最終的なキャプションを得ている。
以前紹介したテキサス大学の論文では16時間もかけて一人の脳の言語に対する反応を解読して、それを対応させていたが、堀川さんの方法はこれを完全にスキップできる点で、前もって意味空間を形成したモデルを用意しておけば、ほぼリアルタイムで MRI画像を文章化できる。
詳細は省くが、絵と生成した文章の一致は素晴らしい。これはまだまだ小さな言語モデルなので、大きなモデルで計算が速いと、非侵襲的に脳内に形成された意味を言語化するのはかなり簡単になりそうだ。この研究ではわざわざ英語のキャプションと、日本語を使う被検者の頭の中を対応させているが、日本語のキャプションとの対応も絶対面白いと思う。
さらに、手頃な大きさのモデルで、インプットやアウトプット、更にはそれにいたるニューラルネット層の解析が可能になることで、我々の視覚体験が意味形成を経て言語化される過程が解析可能になる。この研究でも、生成された文章を詳細に解析して、文章が脳内の意味空間のおそらく確率論的関係性によって形成されることを示している。これをチョムスキーの生成文法と考えるのはおそらく間違っている。即ち文法があるのではなく、意味空間の関係が文法を作っている。
さらに、脳のどの領域がこの過程に必要かの分析も可能になる。詳細は省くが、決して視覚インプットの時間的関係で文章が形成されるのでもないし、いわゆる言語に関わる神経ネットワークだけで文章が形成されるのではなく、視覚と言語野が統合された活動がキャプションに関与している。
さらに画像やキャプションを見せた後、目をつぶって思い起こす過程の脳画像から生成される説明文と最初に見せたキャプションが整合性を持つことまで調べている。
テキサス大学の研究から比べると、2年経過しているとはいえ素晴らしいレベルに達しており、今後言語や意味形成の脳科学を大きく発展させるのではというポテンシャルを感じさせる。以上は私のような全く素人の印象に過ぎないが、大規模言語モデル分野に創意に満ちた我が国の若手研究者がいることを知って喜んでいる。

絵と生成した文章の一致は素晴らしい。
大きなモデルで計算が速いと、非侵襲的に脳内に形成された意味を言語化するのはかなり簡単になりそうだ。
Imp:
視覚体験が意味形成を経て言語化される過程が解析可能に!