7月14日 完璧な医療・医学チャットボットを目指して(7月12日 Nature オンライン掲載論文)
AASJホームページ > 2023年 > 7月 > 14日

7月14日 完璧な医療・医学チャットボットを目指して(7月12日 Nature オンライン掲載論文)

2023年7月14日
SNSシェア

自分が医学分野で活動していたこともあるが、大規模言語モデル(LLM)は患者さんと医学知識を近づけることが期待され、医学側でも医者に直接意見を聞く代わりになるかについて、様々な検証が始まっている。ただこの目的のためには、チャットボットで出てくる答えに科学的根拠があり、また致命的な間違いが起こらないことを確かめる必要がある。勿論、生身の医者ならもっと間違うという意見もあるが、同じLLMを数多くの人が用いる限り、それぞれのLLMに対して法的な検証と利用ガイドラインができるだけ早く制定される必要がある。

勿論これと平行してLLMをより完璧な医学チャットボットが可能なモデルに仕上げる努力が必要だ。今日紹介するグーグル研究所からの論文は、既存のLLMの医学知識レベルを高めるための Instruction prompt tuning を含む一連の方法を検証した研究で、7月12日 Nature にオンライン掲載された。タイトルは「Large language models encode clinical knowledge(臨床的知識をエンコードした大規模言語モデル)」だ。

グーグルは、様々な領域での生成AIの基礎となる transformer/attention を開発し、ChatGPTと同じスケールの5400億パラメーターを持つニューラルネット上に構築した LLM、PaLM を公開している。もちろん PaLM も医学的質問に答えることは出来るが、専門家から見たときにはなかなか完璧な正解とは行かない。そのため、様々な医学情報を学習させて、医学目的に対応できる様微調整をする必要がある。ただ、これを普通の事前学習と同じように行うと、5400億パラメーター全てを変化させるという膨大な計算量が必要になる。そこで、グーグルはLLMを微調整するための Instruction fine-tuning の方法を開発し、医学医療についての質問と答えを集めたデータベースを用いて微調整した Flan-PaLM では、例えば PubMed を学習したGPTと比べて正確度で17%上昇させることに成功している、

ただそれでも67%の正確さにとどまるので、通常行われる医学ドメインに特化した強化学習を追加するのではなく、instruction prompt tuning を用いることで、元のパラメーターを変化させずに、パーフォーマンスが高まるか調べている。すなわち、この研究の主目的は医学ドメインの知識の質をプロンプト戦略が可能にするかの検証と言える。プロンプト戦略についての解説は省略する。

こうして出来たモデルが Med-PaLM で、Flan-PaLM では60%台にとどまっていた正確性が90%を超える様になっている。これについては複数の答えから正解を選ぶ米国医師国家試験で、平均点60%を大きく上回り85%の正解率であることが報告されている(https://blog.google/technology/health/ai-llm-medpalm-research-thecheckup/)。

この研究では、さらに間違ったことを言っていないかだけではなく、答えに必要な情報が全て述べられているか、答えが科学的根拠に裏付けられているか、医学的問題を起こす間違いを犯さないか、さらに一般の人へのわかりやすさなどを検証し、その全てで Med-PaLM はそれまでのLLMを凌駕していることを示している。しかし、臨床家が時間をかけて示す答えと比べると、かなり近いところに来たが、臨床家の方が勝っていることも示している。

面白いことに、一般の人の評価はJAMAの調査では ChatGPT の方に軍配が上がっていたが、Med-PaLM では、臨床家の方に軍配が上がっている。

以上が結果で、自然な会話が出来るという意味で、パラメーターや学習ワード数が何千億という規模は必須だが、それを医学の様な特定のドメンで微調整したいとき、パラメータを変化させない、すなわち計算量の少ない、しかし極めて効果の高い微調整方があることを示すとともに、患者さんが安心して使える、科学に基づいた医学チャットボットの実現は近いことを実感させてくれる。

様々な処理については私は素人だが、微調整のために、LLM の不確かさを認識させる方法が重要で、今後のさらなる研究が必要であることが述べられていたが、この分野の素人でもなるほどと納得した。

カテゴリ:論文ウォッチ