6月21日 大規模言語モデルのハルシネーションを検出する(6月19日 Nature オンライン掲載論文)
AASJホームページ > 2024年 > 6月 > 21日

6月21日 大規模言語モデルのハルシネーションを検出する(6月19日 Nature オンライン掲載論文)

2024年6月21日
SNSシェア

大規模言語モデル(LLM)の登場により、私の頭の中はいっぺんに活性化された。もちろんその便利さも一因だが、私の場合 LLM が生命誕生以降の地球の歴史が一つのピークに達したと感じてしまったからだ。というのも、現役を退いてからは、大学では系統的に教えない「無生物から生物の誕生」、そして「言語の誕生」について、自分なりに納得できる説明をまとめ、講義として提供してきた(これらは HP 上の YouTube 配信としても提供している(https://www.youtube.com/watch?v=3F5w2LRmhHY&t=98s)(https://www.youtube.com/watch?v=Hzt0APHhX24&t=8s)(https://www.youtube.com/watch?v=2WUvk2vCGSA&t=333s)ので是非ご覧いただきたい)。それぞれの講義で教えているのは、物理法則とは別の「アルゴリズムと情報」が生命誕生後の地球を理解する鍵になる点だが、まさに生命誕生以降の過程が様々なコンテクストの蓄積として LLM に実現しているという実感を持っている。これに驚かないはずはない。その結果、今、講義を頼まれると、「生命誕生からChatGPT38億年」というタイトルで話をしている。

この講義の中で特に強調しているのが言語の誕生だ。最初の言語はもちろん音と言う物理法則に媒介されているが、それ以外は物性のない情報が地球上に生まれたことを意味する。この物性がないという性質が、全く物性に縛られない現象を記述することを可能にし、結果物理的には存在しない未来を構想し、神や死後の世界に至るまでを記述する宗教など、人類の歴史を作ってきた。

しかし、物性のない現象の記述、見たこともないことを語ることは、LLM でいうハルシネーションに当たる。今日紹介するオックスフォード大学からの論文は LLM で発生するハルシネーション、中でも作話を検出する方法についての研究で、9月19日 Nature にオンライン掲載された。タイトルは「Detecting hallucinations in large language models using semantic entropy(大規模言語モデルのハルシネーションを意味論的エントロピーを使って検出する)」だ。

基本的には、様々な検証された question/answer をレファレンスに、LLM から出てきた答えを評価する作業でハルシネーションが起こるかどうかを解析するのだが、手作業でやるわけにはいかないので、答えのセンテンスからハルシネーションを割り出す計算法を開発し、これによりハルシネーションの有無を判断する。すでにこの目的で様々な方法が開発されているが、今回の方法は文章全体を解析するのではなく、文章が示す意味を抽出してその意味が正しいかどうかを調べる、semantic entropy 計算法を開発している。

すなわち、LLM に「エッフェル塔はどこにありますか」と質問すると「パリ」「パリです」「フランスの首都パリです」から「ローマです」まで様々な答えが返ってきて、文章も含めて間違いを計算すると(naïve entropy)と、間違いを正確に確率として計算できなるという問題があり、これをパリ、フランスといった正しい答えだけについての semantic entropy として計算する方法を開発している。

そして、様々な question/answer 集をインプットして分析すると、semantic entropy 法が、これまで開発されたハルシネーション検出法を凌駕したという結果だ。

他にも、GPT4 から21人の記録がある人物の履歴を作成させ、150項目について示された事実が正しいかどうかを調べ直す作業を行って、semantic entropy 法のパーフォーマンスが高いことを示している。

以上が結果で、これにより作話を検出して自動的にフィードバックする仕組みを確立できれば、ハルシネーションを減らすことができるというのが結論になる。

最初に述べたように、文字が生まれるまで言語は物性が希薄な情報で、その場で消えるか、人間のニューラルネットにかろうじて保持できるだけだった。しかし、そのおかげで経験しない現象を語れるようになり、未来、宗教、虚構、ねつ造といった、言語情報特有の世界を開発できてきた。ハルシネーションには、間違ったことを習うことで発生する確信を持った間違いと、学習していないことを答えてしまう間違いに分かれるが、後者が実際には人間を作ってきた気がする。

その意味で、質問を自動的に繰り返すことで、物語や宗教といった壮大なハルシネーションが LLM から発生するかどうかを調べるのも面白い気がする。

カテゴリ:論文ウォッチ