私たちが言葉や音楽を認識するプロセスは当然のことながら複雑だ。私たちの声を機器により分析すると、異なる波長での振動の集合体であることがわかる。この要素は大きく振幅変調(エンベロープ)と呼ばれる音の振幅の時間変化と、その枠の中で素早く振動する時間微細構造波に分けられ、実際デジタル処理による音楽の伝送はこのような分解した要素を別々にして処理する。言葉で言うと、基本的なシラブル認識はこのエンベロープの波形が認識される。結局音とは空気の様々な振動が時間の同時性として統合されたものになる。
これらを受け取る私たちの感覚器も、蝸牛有毛細胞の興奮に変換して認識しているので、基本的にはデジタル処理と同じだと思う。ただ、正確な時計の上に重ね合わせる電気的処理とは異なる時間統合が必要になり、言語特有の処理様式が知られている。声や音楽とは無関係の、振幅が異なるホワイトノイズを聞くときは同じSTGと呼ばれる脳領域が興奮するが、言葉の場合早いエンベロープは両側のSTG が興奮し、遅いエンベロープに対しては左側だけが興奮することが分かっている。すなわち、言語を他のノイズから抽出して処理している。
今日紹介するパリ大学からの論文は、この言語抽出処理能力が生まれたばかりの子供でも備わっているのか調べた研究で7月22日号のScience Advanceに掲載された。タイトルは「Speech perception at birth: The brain encodes fast and slow temporal information(新生児の言語認識:脳は早い波と遅い波を別々に処理している)」だ。
この研究ではなんと生後2ヶ月の子供に遠赤外線を感知する脳の血流系を用いた神経興奮計測を行っている。ヴォコーダーと呼ばれる一種のシンセサイザーを用いて、「Pa」のような簡単なシラブルを、1)元の声のまま、2)時間微細構造を全て取り除いた音、3)時間微細構造と早い波のエンベロープを取り除いた音、を聞かせて、STG興奮の違いを比べている。シラブルがPaであることを認識するためには3)の条件で十分可能だが、もちろん新生児が音を言語として認識しているかどうかはわからない。
実験の詳細は全て省いて結論だけを紹介すると、
- 元の音に対する反応と、遅い波だけを残した音への反応がよく似ているが、早い波と遅い波両方のエンベロープが残った音に対しては、反応が異なる。
- シラブルとしての認識は遅い波のエンベロープだけでいいので、Paという音を抽出して認識するシステムは出来上がっている。
- 新生児でも、遅い波のエンベロープと早い波のエンベロープを別々に処理する回路が備わっている。
- おそらく、今回使われた音は、成人の言葉に対して反応する領域の興奮を誘導している。
要するに、「言葉を他の音から抽出し、遅い波のエンベロープを共通の意味として認識するシステムが新生児で出来上がっており、一方音の詳細な特徴(例えば声の違い)を左右のSTGを用いて処理する仕組みも出来上がっている」、が結論になる。
個人的に考えると、「コミュニケーション」に関わる音の認識システムから進化しているように思えるが、言語の入り口の入り口でもこれほど複雑なことがよくわかる。