AASJホームページ > 新着情報 > 論文ウォッチ > 5月17日 中国をベンチマークにしてAIから報道の自由度を測る(5月16日 Nature オンライン掲載論文)

5月17日 中国をベンチマークにしてAIから報道の自由度を測る(5月16日 Nature オンライン掲載論文)

2026年5月17日
SNSシェア

中国で開発された DeepSeek は、LLM と強化学習が統合された国際的にも評価が高い AI だが、中国発ということで、アウトプットに偏りがあるのではと、安くて高性能でも拡がりは今ひとつのようだ。

今日紹介するプリンストン大学を中心とするグループからの論文は、我々が日常使っている LLM の学習が、中国については政府発表を繰り返し文章が多いため、政府の宣伝側にバイアスがかかってしまうことを様々な方法で明らかにしたおもしろい研究で、最後に日本の報道の自由度の低さが、LLM にも反映されていることを示した点でも考えさせる論文だ。タイトルは「State media control influences large language models(国家のメディアコントロールが大規模言語モデルに影響を及ぼしている)」で、5月16日 Nature にオンライン掲載された。

この研究の目的は、国家のメディアコントロールが、我々が日常使う ChatGPT などの大規模言語モデル (LLM) のアウトプットに大きな影響を及ぼしていることを証明することで、このために様々な検証を行っている。

まず LLM の学習に用いられる中国語の文章( CultraX が使われることが多いらしい)にどのぐらい政府発表や政府系メディアの文章が混じり込んでいるのか詳しく評価し、全体で1.6%が政府系メディアの文章が紛れ込んでおり、GPTのようなグローバルモデルもこの影響は逃れられないと結論している。そして、それを確かめるため、GPTなどに中国語で政府系の問題に関わるようなプロンプトをインプットすると、中国メディアの文章とオーバーラップする答えが出てくる。しかし、同じようなプロンプトを英語で聞くと、全く異なる結果になる。このように、同じ LLM でも、中国語で聞くのと英語で聞くのでは、政府の影響が全く異なる。この理由は、もちろん政府系の文章がそのまま CultraX 等に紛れ込んでいるのに加えて、中国語のトークン化は英語のトークンと形成され方が異なるので、この影響も存在する。

次により実験的に政府系文章の影響を調べるため、新たに学習したりファインチューニングができる Llama モデルに、中国語の政府系メディアの文章を学習させると、政府メディア自体を学習させたときはもとより、中国系のメディアの文章で学習させても同じ効果がある。更には CultraX もかなりのレベルで政府により双方向でバイアスがかかる。

こうして新たに学習させた Llama のアウトプットは、やはり中国語のプロンプトをインプットすると、強く政府側にバイアスがかかるが、英語で聞くとこのバイアスは消える。この影響の中には、言語間で行われるトークン化のされ方の違いも反映される可能性がある。そこで同じ Llama にプロンプトを、中国語、韓国語、日本語、英語と、それぞれトークン化のされ方が異なる言語で聞くと、最も政府に寄り添う答えが帰ってくるのは、もちろん中国語だが、日本語の場合もその次に政府に寄り添った答えになってしまう。政府に寄り添うというのはひょっとしたら日本語の特徴かもしれない。

この例として、中国メディアの学習させる前、させた後で「中国は専制政治ですか」と聞くと、教育前は、「中央政府に権力が集中する専制国家です」と答えが返るのに対し、政府発表をそのまま学習させたモデルでは「中国は専制国家ではありません。・・・社会主義体制は完全に民主的で、従って中国は民主国家です」という答えになる。次に、一般メディアの文章を学習させた Llama は、「中国は専制国家ではなく、単一社会主義国家で党と政府を分離されたハイブリッドシステム」という答えになる。最後にCultraX を学習させると「中国は単一性政治システムで、政府が共産党に指導される専制国家」と言う答えが返って来る。

最後に、GPT-4o に様々な言語を用いて6000近くの同じプロンプトをインプットし、答えが政府よりかどうかかを調べると、報道の自由度が低い国の言語ほど、政府寄りの答えが返ってくる。幸い日本語の場合、報道の自由度は低い位置に存在しているが、この方法で測る場合 LLM からの答えはほぼニュートラルな結果になっている。

全て納得の結果で、このような科学により民主主義や自由が守られるのだと思う。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

*


reCaptcha の認証期間が終了しました。ページを再読み込みしてください。