GPT-4 など一般に利用可能な大規模言語モデル(LLM)も、うまく聞き出すとかなりの医学知識を引き出すことができる。個人的な印象だが、専門的な設問に対しては、正確性が高まる。また、論文を読む気であれば、答えを聞いてから、問題に関する論文リストを要求することで、検証もできる。ただそこまでしなくとも、すでに病気のことを理解している患者さんや家族会が情報源として使う可能性は高く、ある家族会で皆さんと確かめた時は、十分満足できた。
現在医学に特化した LLM も存在するが、それを実際の医療現場でどう利用するのか、というよりどう改良すれば現場に適応するかを考えることは重要だ。これについて Nature Medicine にドイツ・ミュンヘン工科大学と中国北京協和医学院から面白い論文が発表されているので紹介する。
まず最初のミュンヘン大学からの論文は、出来合いの医療ChatBot ( Llama2、OAST、WizardLM など)に腹痛で来院した2400例の医療データを提示したとき、適切な判断ができるかを調べている。
結果は悲劇的で、病院に保存されているデータを全て提供しても、虫垂炎のような一般的な病気以外、胆嚢炎、憩室炎、膵炎などの診断率は遙かに医者の方が優れている。
また症状から入っても、どの検査が必要かを判断する能力に欠けており、さらに検査データを読み取ることも難しい。しかし、質問を症状から順番に提供すると、 Llama2 の診断率は向上していくので、うまくファインチューニングやプロンプト学習を加えれば改善する可能性はある。
かなり割愛して紹介したが、要するにどれほど国家試験のパーフォーマンスが高いとしても、今のままで医学系の ChatBot をそのまま病院に持ち込むことはできないことが示されている。実際、LLM の印象としてどうしても答えを絞りたがる点や、数字に弱い点などを考えると、さもありなんという結果だ。
ただ、例えば患者会の場合のように、限界を知りつつ知識源として使えたとしても、出来合いの ChatBot を現実の病院に持ってきて判断を迫れるようになるのは、まだまだ時間がかかると思う。
これに対して、中国北京協和医学院の論文は、武漢と深圳の病院で、初診の患者さんと看護婦さんとの実際の会話を病院の様々な場所で38737分記録、これをテキストに転換したあと、GPT-3.5のアーキテクチャーをバックボーンとした独自のLLMモデルに学習させ、専門家によるファインチューニングやプロンプト学習を繰り返したあと、初診の患者さんを適切に裁くのに使えるかを調べた研究だ。
ドイツからの論文とは異なり、結果は LLM が正確に患者への対応を改善するという結果になる。おそらく人口の多い中国独特の問題だと思うが、会話の分析から看護婦さんは平均1分間に1人の患者さんに対応しているようで、要するにてんてこ舞いの状態のようだ。従って、患者さんの満足度はどうしても低くなる。
もちろん全て LLM が対応するのは問題があると考え、まず LLM を看護師さんがアシストするシステムを作成し、患者さん2000人を無作為化して、LLM+看護師対応群、看護師対応群に分けて対応し、様々な項目をテストしている。
まず満足度では LLM が関与する方がはるかに良い。そして、繰り返す質問、あるいは感情的問題などが解決されていく。最初の対応もテキストだけではなく、会話で対応できるようにしているので、これならいつからでも使える可能性が高い。
以上が結果で、両方の論文を読んでみて、出来合いの LLM を実際の病院で使うのは簡単ではないが、アーキテクチャーは既存のものを使うとしても、自分のモデルを作っていくことで、問題さえ適切に設定できれば、病院に実装できる LLM の実現はすぐそこに来ていることがわかる。