Nature Neuroscience は編集方針として、脳と人工知能を比較する研究を重視しているように見える。例えば、昨年紹介した論文では、脳言語野の活動と GPT-2 の文章の処理を比較して、どちらも回路の詳細を無視して瞬間瞬間の活動を抽出すると、同じような処理が行われていることを示す論文はその例だ(https://aasj.jp/news/watch/19237)。
また11月号には生成 AI と脳での画像について、AI で同等(例えば熊を表現している)と認識できる様々な変換画像( metameric model )を人間が認識できるか調べ、人間の認識は完全には AI と一致しないことを示した MIT の論文が掲載された。
AI と脳の比較は私にとっては理解に苦労する分野ではあるが、大きく飛躍しつつあることが実感できるわくわく感はある。事実 MIT の論文の書き出しは「神経科学のゴールの中心は脳の反応と振る舞いを再現するモデルを作ることだ。」と、まさに人工知能研究が脳科学の中心にあることを高々とうたっている。
そして、今日紹介するカリフォルニア大学サンフランシスコ校からの論文は、言葉を処理する人間の脳の各領域の反応と Transformer を用いた言語処理システムで稼働しているニューラルネットの各階層から抽出した活動を比べた研究で、10月30日 Nature Neuroscience にオンライン掲載された。タイトルは「Dissecting neural computations in the human auditory pathway using deep neural networks for speech(人間聴覚経路での情報処理を言語の Deep neural net を用いて解析する)」だ。
この研究では聴覚神経 (AN)、中脳下丘 (IC)、ヘッシェル回 (HG)、そして大脳聴覚野(STG) へと至る聴覚回路の活動を記録できるクラスター電極を、てんかん診断のために設置した人に、文章を聞かせた時の各領域の活動を記録している。
その上で、各階層で記録した神経活動を、同じ文章を音声として聞いたときの言語解析モデルのニューラルネット各層でのデータから予測できるか調べている。実際には生成 AI モデルだけでなく、教師有り、教師なしの言語モデルや、プレラーニングを masked prediction ではなく、contrast learning を用いたモデルも比較しているが、わかりやすくするための GPT などと同じ大規模言語モデル HuBERT を用いた実験だけを説明する。
GPT と違いこのモデルでは畳み込みを用いた音声分析を、transformer/attention ベースの AI モデルにインプットし、プレトレーニング、ファインチューニングしたモデルを用いている。すなわち、プレトレーニング、ファインチューニングは完全に自作でモデルを形成している。
そしてこのモデルに、被験者が聞いたのと文章を聞かせ、音から要素、そして意味と解読が進むときに、deep neural network(DNN)各層で処理が進んでいく(フィードバックはない)途中段階と人間の反応を比べ、DNN での聞いた言葉の処理と人間の各領域の反応との相関(すなわち DNN の活動から人間の反応を予想できるか)を調べている。
結果は HG を除くと、聴覚野まで進んでいく各領域での情報処理と、DNN の各層での活動が強く相関しており、同じように情報が処理されることがわかる。一方、HG では他の情報が入っている可能性があり面白い。
さらに、実際の脳での情報処理方法についてもこのモデルがベースにしている transformer/attention との比較を行っている。例えばコンテクストが聴覚野で分離されていることを、聴覚野の各電極の反応から推察している。
さらに GPT など現在の言語モデルの核は attention と呼ばれる機能だが、同じ仕組みが脳でも機能している可能性を、DNN 各層での attention block を示して推察している。
他にも様々な検討が行われているが、割愛する。要するに、これまでの脳と DNN が相関してそうだというレベルを超えて、さらに transformer/attention と同じ情報処理が、脳のネットワークでも順々に前向きに進められていることを明らかにし、両方のネットワークは期待通り同じような原理で動いていると結論している。
まさに、脳科学は AI へ、AI は脳科学へと近づくことでブラックボックスとされている脳回路だけでなく、AI ニューラルネット中間過程も理解できるようになることを強調した論文だ。論文は難しいが新しい時代を感じる。