東京工業大学と産総研、日本語に強い大規模言語モデル「Swallow」を公開

　東京工業大学の研究チームと産業技術総合研究所は、日本語能力に優れた生成AIの基盤である大規模言語モデル「Swallow」を公開した。日本語に対応した大規模言語モデルとしては最大規模であり、オープンで商用利用が可能だ。

　近年、OpenAIのChatGPTやGPT-4、GoogleのPaLM 2やGeminiなど、大規模言語モデルの研究開発が急速に進展している。日本語に強い大規模言語モデルの開発も進んでいるが、オープンかつ高性能な大規模言語モデルは少なかった。

　Meta AIが開発したLlama 2シリーズは英語で高い性能を示すが、日本語の読み書きは苦手だ。そこで、研究チームではLlama 2のいくつかのモデルをベースにした大規模言語モデル「Swallow」を構築。学習済みの大規模言語モデルに追加で事前学習を行う手法（継続事前学習）により日本語に関して高い性能が示された。

　また、Llama 2は英語重視モデルのため、日本語の主要な単語や文字が語彙に含まれず、テキストが不自然な単位（トークン）に区切られ、テキストをより多くのトークンで表現してしまい、学習や生成の効率が低下し計算コストが増大する。日本語の文字や単語などの語彙（言語モデルが扱えるトークンの集合）を追加することで、日本語テキストのトークン長を56.2%に削減した。

　さらに、研究チームでは非営利団体Common Crawlから配布されているアーカイブから日本語のテキストを独自に抽出・精錬し、約3,121億文字（約1.73億ページ）からなる日本語ウェブコーパスを構築。日本語の言語モデルの商用利用可能な学習コーパスの中で最大となった。

　日本語に強くオープンな大規模言語モデルが登場したことで、日本での大規模言語モデルの研究開発・活用がさらに促進され、製品開発や技術革新が進むとしている。

参考：【産業技術総合研究所】日本語に強い大規模言語モデル「Swallow」を公開－英語が得意な大規模言語モデルに日本語を教える－

東京工業大学と産総研、日本語に強い大規模言語モデル「Swallow」を公開

トピックス

研究成果

地方創生

産学連携

大学入試

キャリア

特集企画

東京工業大学と産総研、日本語に強い大規模言語モデル「Swallow」を公開

関連記事

トピックス

研究成果

地方創生

産学連携

大学入試

キャリア