3月26日 AI を用いて鳥の鳴き声を解読する(3月20日 Nature オンライン掲載論)
AASJホームページ > 2024年 > 3月 > 26日

3月26日 AI を用いて鳥の鳴き声を解読する(3月20日 Nature オンライン掲載論)

2024年3月26日
SNSシェア

Bird song learningは、我々の言語発達にもつながると、さまざまな研究が行われる面白い分野だが、これまで2回ぐらいしかこのブログでは紹介できていない。というのも、鳴き声のパターンや複雑性についてはわかっても、言語としての意味をほとんど理解することができないからだ。

今日紹介するテキサス・サウスウェスタン医学センターからの論文はニューラルネットを用いて Zebra Finch の鳴き声を、シラブルが組み合わさったセンテンスとして解析し、人間ではわからない違いを解読し、メスの好む人工的泣き声を合成するところまで行った画期的な研究で、またまた AI パワーに驚かされる研究で、3月20日 Nature にオンライン掲載された。タイトルは「The hidden fitness of the male zebra finch courtship song(オスのZebra finchの求愛ソングに隠れた適応)」だ。

まさに Large language model ならぬ Large song model を作る話で、Zebra finch(ZF) の鳴き声をまず18個体から集め、これを15万近い分離したシラブルに分け、このシラブルを我々の言語での単語と見立てて、様々な特徴(ピッチ、強さ、などなど)を多次元パラメータで表し、これらを Siamese convolutional neural network と呼ばれるニューラルネットモデルに学習させ、シラブルが分布する多次元モデルを作成している。そして、それを次元圧縮して表現している (UMAP) 。LLM で言えば単語同士の位置関係を二次元で表示した UNAP と考えればいい。

ZF では親から歌を習った場合と、習わなかった場合で鳴き声が異なる。習った場合は、親の歌を真似した歌で、メスはこちらの声を好む。習わなくても鳴くのだが、習っていないパターンではメスに好かれないことが知られている。

まず面白いのは、親に歌を習った鳥の鳴き声(イミテート声)に存在するシラブルと、習っていない鳴き声(即興声)のシラブルは UMAP 上の異なる領域に分布している。すなわち単語レベルでまず異なっている。

そしてイミテート声と即興声を区別するのは、一つのセンテンスとしてシラブルを繋いだ時、UMAP 上でのセンテンスの長さがイミテート声で長いことだ。すなわち、習わない場合より複雑なシラブル構成をとっていることがわかる。

次は、こうしてなんとか解読した鳴き声の違いが、そのままメスを惹きつける効果に繋がっているかを調べるため、人工的にイミテート声と即興声を作成し、それぞれを別の場所から流した時、メスがどちらに引きつけられるか調べると、イミテート声の方に惹きつけられる事を確認している。すなわち、メスにとって魅力のあるセンテンスを人工的に作れる。

さらに、親の声と、習った子供の声を比較してそれぞれのセンテンスの UMAP 上の距離を調べると、ほとんどの子供はまだまだ未熟で、距離が短いが、一部の子供では親を超えるケースも現れている。このように、単純な分析ではわからない鳴き声の違いがり、一旦 Siamese convolutional neural network と呼ばれるニューラルネットに媒介させることで、親の声を習うことの難しさが明らかになった。

以上が結果で、動物のコミュニケーション手段を解析するためにいかに AI がパワフルかが明らかになった。

余談になるが、いつもお願いしているバードウォッチングガイドさんが、この AI で区別する違いをコマで区別できるのか知りたいと思う。おそらくガイドさんの脳はメスドリの境地に近づけているのではないかと推察する。いずれにせよ、様々な動物の声を翻訳できる時代に近づいた。

カテゴリ:論文ウォッチ