1月3日 ビッグデータの危険性(12月20日 Nature オンライン掲載論文他1編)
AASJホームページ > 2024年 > 1月 > 3日

1月3日 ビッグデータの危険性(12月20日 Nature オンライン掲載論文他1編)

2024年1月3日
SNSシェア

ウェッブを介するデータサーチなしに私の今の生活はあり得ないが、他の人と比べても私は依存度の高い生活をしている。まず一日の長い時間モニターに向かっている。そして論文は言うに及ばず、一般の本も出来るだけウェッブを介して読んでいる。Kindle で買える場合は、既に持っている紙媒体も買い直している。これは、読みながら思いついたことをすぐにウェッブサーチ出来るからで、デスクに座っているときは Kindle も普通の PC で読んでいる。ただ、依存度が高いからと言って、サーチエンジンを信じているわけではない。すなわち鵜呑みにしない経験が必要になる。そこで今日はウェッブデータを鵜呑みにしないことの重要性を実験的に示した面白い論文を紹介する。

最初の論文は12月20日 Nature にオンライン掲載された論文で、間違った情報をウェッブサーチで調べることで、余計間違った話を信じてしまう危険性を示したセントラルフロリダ大学からの論文だ。

この研究ではウェッブでの呼びかけに応じた千人規模の参加者を無作為化して2群に分けた後、フェイクであることが専門家により確認されたニュースを発生後、様々な時間をおいて伝え、ニュースが正しいかどうか答えてもらう。この時、一群にはウェッブサーチを参考にして真偽を調べるよう指示すると、驚くことにウェッブサーチをかけた群の方が間違ったニュースを正しいと信じる確率が10−20%上がることを発見した。このようなニュースは、時間がたつと専門的ファクトチェッカーにより間違いと示されるようになるが、この傾向はニュースが発生してから時間がたってもあまり変わらない。

実際どんな情報を見て間違いを信じるのかを調べると、あまり当てにならないニュースソースから情報が返ってきたときに、信じ込む傾向が強くなる。

最後に、なぜ信用性の低いサイトからのデータが引っかかってくるのかを調べると、サーチの仕方がそれぞれの政治信条や、ウェッブと付き合うためのリテラシーにより影響され、未熟で思い込みが激しいほど、信頼性の低いサイトから結果が帰ってしまうことを示している。

以上が結果で、これはサーチエンジンの話で、SNSになるともっとひどい結果になる気がする。いちいち思い当たる結果とはいえ、無作為化し、よくデザインされた実験として行ったことが重要だ。

次の論文は新しくなったGPT-4を使って、データねつ造が可能であることを示したイタリア・Maguna Graecia大学から12月号のJAMA Opthalmologyに発表された論文だ。

昨年11月、GPT-4が大幅にアップデートされ、新しいデータベースにアクセスしたり、計算したり、イラストを作るのが一段と楽になったが、パイソンを使う Advanced data analysis(ADA) を介して、データ解析も可能になった。

このグループは角膜手術の異なる術式の成績結果を ADA に読み込ませ、その上で結果についても指示を出すと、元々は差がないというデータセットから、指示通りの結果を捏造できることを明らかにした。

この論文では、指示通りに結果が捏造されることだけが示されているが、なぜそうなったのかを、Nature 誌が調べさせており、その結果男女が適当に入れ替えられていたり、評価に使った指標と個人とのリンクが変えられていたり、参加者の年齢の偏りが強くなっていたりと、捏造能力に長けていることがわかった。

詳しく調べれば必ず明らかになる捏造だが、査読の時に見つけるのは不可能だろう。

ガリレオに始まる科学は、他の人の同意を得るための手続きを示したことで、宗教が押しつけていた捏造を排除したことにある。その意味で、学生さんに講義するとき、捏造するのは自由だが、捏造した時点で科学を拒否したことになると教えている。ウェッブサーチや AI は、決定論的なので、宗教にはなり得ても、科学にはなり得ないことが明らかだ。この点も AI 開発の今後の焦点になる。

カテゴリ:論文ウォッチ