AASJホームページ > 新着情報 > 論文ウォッチ > 2月3日 脳波から聞いている声を再現する(1月29日Scientific Reports掲載論文)

2月3日 脳波から聞いている声を再現する(1月29日Scientific Reports掲載論文)

2019年2月3日

脳はすべてのことを神経細胞が興奮するパターンで表象している。このパターンを読み解けば、今脳に入っている現実の刺激や、これから取ろうとしている行動を知ることができる。これをうまく利用したのが、昨年このコラムで紹介した、脊髄神経を硬膜の外から刺激して脊損の患者さんが歩けるようにした新しい治療法(http://aasj.jp/news/watch/9166)で、特に失われた脳機能を補う方法の開発には極めて重要な分野だ。

今日紹介するコロンビア大学心と脳の研究所からの論文は、人の声を聞いている時の脳活動を分析して、その活動パターンから聞いている音を再現しようとする研究で1月29日号のScientific Reportsに掲載された。タイトルは、「Towards reconstructing intelligible speech from the human auditory cortex (人間の聴覚野の活動からはっきりとした言葉を再構成するために)」だ。

この研究は、いわゆる機械学習研究とはなにかを知るには最適の研究だと思うが、このためのメインのコンピューターアルゴリズムの設計については私は全く理解できていないので、気になる人は是非原文を読んでほしい。Scientific Reportsはオープンアクセスの雑誌だ。

さて、同じような試みはこれまで行われており、私も2ー3の総説を目にしたことがある。ただ、ほとんどの研究は音を聞いている脳活動を頭蓋の外から記録する脳波や脳磁図を用いていた。この研究の最大の特徴は、音が最初に感じられる聴覚野に直接クラスター電極を埋め込んだ、てんかんの患者さんを用いて脳の活動を拾っている点で、これにより一段高い精度で脳活動を記録することができる。

その上で、この記録したパターンのどの情報を処理すべきか、機械学習の際に用いる回帰分析モデルにはなにを使うべきかなど、また、処理したあと声として再現するためどの波長の音を重ね合わすかなど、一つ一つ検討して、線形回帰モデルではない(当たり前と思うが)、deep neural networkモデルを用いて脳活動を処理し、それをVocoderと呼ばれる方法で再現することで、かなり正確で、さまざまな音素も重なった声を再現することに成功している。正門表の比較があるが、一見したところその一致率は高い。

その上で、脳活動も長い周期の波と、短い周期の波で表彰される両方の要素を統合した方がよく、学習を重ねれば重ねるほど精度は上がり、脳活動を記録する電極も多いほどいいことをしめし、この再現がまさにAI、機械学習過程そのものであることを示している。

結果は以上で、要するに今機械学習分野を席巻しているdeep neural networkを用いて機械学習を繰り返せば、聞いている音を再現することが可能であることを示している。詳細はわからないにしても、何の不思議もない話だが、声という視覚よりは少ない情報だが、十分複雑な情報を処理するという点では、将来性が感じられる研究だと思う。

いずれにせよ、処理のためのフレームワークは明らかになったので、今度は直接脳記録ではない脳波などの脳活動の記録から、どこまで同じ精度の声を再現できるのかなど技術的な見当が必要になるだろう。

もし自分がこの分野で働くとしたら、おそらく聞いてきた声を後で思い出す時の聴覚野の活動から声が再現できるかをゴールにするなと思いながら、機械学習の将来に夢を馳せている。


  1. Okazaki Yoshihisa より:

    Brain-Machine Interface(BMI)。

    脳はすべてのことを神経細胞が興奮するパターンで表象している。このパターンを読み解けば、今脳に入っている現実の刺激や、これから取ろうとしている行動を知ることができる。

    →この話を聞くと、何時も、映画ファイアーフォックスを思いだします。DARPAとか必死に研究してそうです。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

*