国立精神・神経医療研究センター病院臨床検査部の松井健太郎医長は、文章生成AIが頻用するとされる語彙が、近年の医学論文において顕著に増加していることを明らかにした。
ChatGPT、Claude、Geminiなどに代表される文章生成AI(大規模言語モデル、LLM)は、学術論文の執筆支援ツールとしても急速に普及している。一方で、LLMには特定の語彙を頻繁に使用する傾向があることが報告されており、「delve(深く掘り下げる)」、「meticulous(几帳面な)」、「underscore(強調する)」などの単語がLLM特有の表現として知られている。
本研究では、こうした語彙が実際に近年の医学論文で増加しているのかを明らかにするため、一般的な学術表現と比較して統計的に検証した。世界中の医学論文が収録されている文献データベース「PubMed」に2000年から2024年までに登録された約2,750万件の論文レコードを分析対象とした。
潜在的にAIの影響を受けたと考えられた135の用語と、医学論文で一般的に使用される84の学術表現を抽出し、それぞれの使用頻度の変化を追跡した。その結果、AIの影響を受けたと考えられる語彙では、使用頻度が有意に増加していることが確認された。これらの特定語彙は、2020年頃から増加傾向を示していたが、ChatGPT登場後の2023年から2024年にかけ、その増加が急速に進んだ。この結果は、LLMがまったく新しい言語パターンを生み出したというよりも、既存の傾向を加速・増幅させた可能性を示唆している。
本研究は、LLMが頻用するとされる語彙が、実際の医学論文においても顕著に増加していることを示した。LLMによって生成された文章は、そのままでは最終成果物とはなりえず、批判的に見直したうえで適切に利用する必要がある。本研究で得られた知見は、LLMを利用した論文執筆における語彙の偏りを認識し、適切な活用を促すための基礎資料となることが期待される。