コンピューターが発達してから、言語を話せるようにする自然言語処理が重要なテーマとして研究され、様々な方法が試された。元々、意味を言語の中心に置くソシュール的考えにもとづいて、Psycholingustic modelと呼ばれる方法が試され、その後deep learningが組み合わさることで一定の効果をあげた。しかし、その後意味も飛ばしてしまった、語の集まり(=コンテクスト)とにもとづいて、次の言葉を予想し、その結果をまたフィードバックするdeep language model(DLM)、要するに深層学習、あるいはAIと言ってしまっていいかもしれない、が現れ、自然言語処理は大きな成功を収めるようになる。
これほどの成功を目にすると、当然、我々の脳がDLM処理を行っているのではないかという可能性を調べたくなる。今日紹介するプリンストン大学からの論文は、脳内に脳皮質電極を設置したてんかん患者さんの言語処理時の脳活動を記録して、DLMコンピューター処理と比べた研究で、3月7日号のNature Neuroscienceに掲載された。タイトルは「Shared computational principles for language processing in humans and deep language models(人間とdeep language model での言語処理の計算原理は共通)」だ。
実際、文章を聞いた後で次に来る単語を予想するテストをすると、GLMと人間はほぼ同じ予測率を示す。すなわち、人間の脳でも、言葉を聞いているうちにコンテクストを理解し、その上で次の単語が来るより前に、その単語を予測し、実際に聞いたあとそれまでの予測プロセスを評価していることになる。
これを示すため、文章を聞いているときの皮質電位を計測し、文章に表れる一つ一つの単語に反応する部位をできるだけ特定する。その上で、特定の単語に対する反応が、実際の単語が現れる前から脳活動として記録できるかを調べている。
すると、実際の単語が現れる前から徐々にその単語に反応する領域の興奮が上昇し、最終的にその単語を聞くと、400msをピークにした反応が得られることを示している。
さらに面白いのは、予想とは異なる単語が現れたときは、その単語に反応する部位の興奮は低いまま経過し、その単語を聞いた後で急にその部位の興奮が上昇する。しかも、予想できていたときより高いピークの反応が見られることが明らかになった。
そして最後に、DLMモデルを用いて、実際の脳の興奮を予測できるかも調べている。この数学的処理については苦手なのですっ飛ばすが、deep learningでコンテクストを判断する方法が最も高い相関を示し、ただ統計学的に単語を予測するモデルなどではうまくいかないことが示されている。
結果は以上で、要するに私たちの脳もAIと同じ処理をしており、deep learning研究者たちがneural networkと呼んでも良いことになる。
ただ間違ってはいけないのは、これは言語を習得したヒトの脳の話で、実際の習得がこの方法で行われるのか、子供の発達を調べる必要がある。また、構語、シンタックスはどう形成されるのかも、今後の問題だと思う。