ALSは進行すると字を書くための骨格筋だけでなく、言葉を話す筋肉の麻痺が進み話せなくなる。このため視線や瞬きでコミュニケーションをとるための技術が進んできた。最近になって脳内に留置できるクラスター電極が可能になり、頭の中で字を書くことで画面上に伝えたい文章を書く方法が開発され、2021年 Nature に発表された(https://aasj.jp/news/watch/15671)。250個の電極の興奮情報だけでほぼ完璧に考えていることを文字表現できるのは本当に驚きだ。ただ、文字を書くという作業と言葉を話すという作業は、伝えたい内容を決めるまでは一緒でも、使われる回路は大きく異なっている。また話して伝える場合、発話の一定のスピードが必要で、さらに調子やアクセントも加える必要があり、脳内留置電極を使う場合でも実現にはハードルが高い。
今日紹介するカリフォルニア大学デービス校からの論文は、一人の ALS 患者さんの脳内言語運動野にクラスター電極を設置、この活動をトランスフォーマーを基盤にする LLM に学習させたモデルを作成し、このモデルにセンテンスを考えている患者さんの脳活動をインプットすると、即座にそれに対応する言葉が、しかも前もって録音しておいた自分の声として出てくる新しい脳・機械インターフェース (BMI) の開発で、6月12日 Nature にオンライン出版された。タイトルは「An instantaneous voice-synthesis neuroprosthesis(考えると即座に声を合成できる神経装置)」だ。
神経科学では脳活動を GPT などトランスフォーマーモデルを使って文章化するということが、ChatGPTなどが普及する前から行われており、脳活動を単語と相関させていくこれまでの機械学習とは異なるレベルの脳活動のデコーディングが可能であることはわかっていた。とはいえ、実際の ALS 患者さんが、このシステムを使って自然に話せるようになるかは別問題で、一人の患者さんとおそらく長い時間をかけて、モデルのトレーニングやチューニングを繰り返して、できあがってきた結果が示されたのがこの論文になる。
モデルのプレトレーニングは画面に表示された文章を患者さんに頭の中で復唱してもらって、それをトランスフォーマーデコーダーに学習させている。その上で、話そうとしたときの脳活動インプットし、それが言葉として発話できるかについてのモデルのパーフォーマンスを反応スピードや意味が通じるかなどを指標にして評価している。これまでの機械学習とことなり、考えるとすぐに言葉として表現できる。
その上で、言葉のピッチやアクセントについても別にデコードして重ねる方法をまず用いて、発話時にピッチや強さなどが表現できるか検討している。このとき言葉のニュアンスを表現できるようにモデルをトレーニングする方法が詳しく述べられており、様々な可能性が試されたことがわかる。
最後に、二つのデコーダーを使うのではなく、一つのモデルでニュアンスも単語やセンテンスも同時に学習できるモデルが可能か調べ、我々の脳が全体を同時に処理して発話している活動を、そのままデコードできるモデルを完成させている。このモデルではメロディーを思い浮かべてもらうことでそれを表現できる。
実用上の結果は以上で、患者さんはまだニュアンスの表現については満足できないと正直に評価しているようだが、素晴らしいモデルができあがってきたと思うし、現在の LLM の発展を考えると、これをもっと自然の発話に近づけるのは時間の問題だろう。
ただ、読んでいて驚くのは、この研究自体が言葉を話す脳活動自体の研究になっている点だ。このモデルではもう一度脳活動と発話された結果を対応させることができるが、脳活動は最終的に発話に集約していない活動が多く存在している。これが話そうとするときの準備や次の言葉を探す過程に相当していると考えると、発話する脳の活動を高い分解能で調べた膨大なデータが得られたことを意味する。このように、脳とトランスフォーマー LLM を並列させて調べる研究が大きく発展すると思う。
我々の脳が全体を同時に処理して発話している活動を、そのままデコードできるモデルを完成させている!
Imp:
並列処理する脳。
そのままデコードできるようになったとは!