12月20日 ビッグデータ・パラドックス(12月8日 Nature オンライン掲載論文)
AASJホームページ > 2021年 > 12月 > 20日

12月20日 ビッグデータ・パラドックス(12月8日 Nature オンライン掲載論文)

2021年12月20日
SNSシェア

すでにアナウンスしているように(https://aasj.jp/news/seminar/18575)、クリスマスイブに、「各誌が選んだ今年の科学ニュースを肴にzoom飲み会」を開催します。参加者も徐々に増え、面白い会になりそうですが、しかし結局各誌が選んだニュースの中心は今年もCovid-19だった。

政治・経済・社会にこれほど大きな影響を与えたパンデミックなので当然といえば当然だが、医学側から見ると、感染症にとどまらず、様々な医学領域で、かって経験していない一種の「自然人体実験」が進行しており、思いがけない様々なデータが得られているというのも事実だろう。

これは身体の問題にとどまらない。今日紹介するオックスフォード大学からの論文は、米国でコロナワクチン接種者に関する統計データが、各社であまりにも違うことに疑問を持ち、その原因を確かめた研究で、これも「自然人体実験」を利用した点で、今回のパンデミックを象徴する研究と言えるだろう。タイトルは「Unrepresentative big surveys significantly overestimated US vaccine uptake(社会構成を反映していない大規模調査は米国ワクチン接種者を有意に過大評価した)だ。

この研究では、Axios-Ipsos (社会構成を反映させたパネルを対象にしているが一回の調査は1000人と小規模)、Census Household (電話帳などからランダムサンプリング、一回の調査は75000人)、そしてDelph-Facebook(Facebookのアクティブユーザー:一回の調査は25万人)から出てきた、1回目のワクチン接種者の動向があまりにも異なり、特に対象者が多い統計ほど、最終的なベンチマークとして使えるCDCのデータからかけ離れていることに興味を持って、その原因を確かめている。

本来なら、対象者が多いほど統計的信頼度は上がる。一応CDCの調査はワクチンを打つ側なので信頼できるとすると、ビッグデータになるほどベンチマークから離れることになってしまう。一方、たった1000人を対象にしたAxiosの方はほとんどCDCの結果と一致している。

理由は単純で、DelphiやCensusでは、教育、人種、地域など、様々な補正がほとんど行われておらず、対象者の数だけが統計信頼度の指標とされているためで、以前Google調査で、インフルエンザの感染者数がCDC発表の2倍になり、big-data-paradoxと名付けられた現象と同じだと結論している。実際、Delphiなどで参加者の構成を補正すると、対象者のサイズは99%低下し、ほとんどAxiosと同じになる。

どの条件がバイアスをもたらすのか様々な検討を行い、どれか一つの条件をそろえれば良いわけではなく、小さな補正の積み重ねが、正しい統計を反映するための条件であると結論している。

私たちも、内閣支持率などで、新聞各社の統計が大きく異なることに慣れているが、これも同じことだろう。いつも思うのだが、誰か各社の平均を出して、それを今後モニターに使うのはどうだろうか。要するに、集団の多様性を反映できない統計は、数がいくらあっても意味が無いことが明らかになった。しかし、できるだけ簡単にデータを得るという点では、今後SNSの利用は必須になる。従って、バイアスを平均したり、生データを正確なデータに変える方法の開発は、社会科学にとっての最も重要な課題になると思う。

以上が結論だが、先に述べたように、この研究はcovid-19というパンデミックで初めて可能になった研究の一つといえる。他にも、多くの社会的実験が今回数多く行われたはずなので、是非多くの研究がそれを掘り起こすことを期待する。

しかしこのようなデータについての議論は、GDPというビッグデータの一丁目一番地を書き換えて平気でいる我が国政府には全く関係の無い、むなしい議論になってしまった。こんな国や政府を若い世代に残した責任を、年寄りとして本当に感じるが、これも今年のニュースで議論したいところだ。

カテゴリ:論文ウォッチ