文理融合を掲げた2005年の学部開設以来、データサイエンスで文化を解析するユニークな研究を展開する同志社大学文化情報学部。そのうちのひとつに、和歌研究における文字列解析を30年以上にわたり実践してきた福田智子教授の研究がある。福田教授は、古典和歌をデータとして扱いながら、膨大なテキストの中から表現の変遷や、歌人・流派の対立構造などを明らかにしてきた。和歌の中に宿る美意識や歌人同士の目に見えない攻防を、文字列データの比較から明らかにする試みは、文学研究の新たな地平を切り開いている。
古典文学研究とテクノロジーの出会い
福田教授の研究がスタートしたのは、まだ『新編国歌大観』CD-ROMが登場したばかりの時代である。それまで書籍版だった古典和歌約45万首が電子化されたことにより、それまで句索引や手書きのメモによって用例を追いかけていた和歌研究の現場に、初めてコンピュータが導入された。
およそ30年前、福田教授が情報科学者の友人とともに開発した文字列解析ソフト「e-CSA(efficient character string analyzer、イークサ)」は、現在も授業で活躍している。このソフトは、古典和歌の膨大なテキストデータの中から類似した歌を抽出したいという福田教授のリクエストに応え、「類似とは何か?」という問いを出発点に構築された非常にシンプルな解析ツールだ。
e-CSAの最大の特徴は、当時新しい技術として業界を沸かせた「ゲノム解析」にヒントを得て開発され、形態素解析や品詞分解を行わず、文学作品を単なる文字列として扱う点だ。分析の対象は、文学作品や歌詞、演説台本などの任意の文字列データであり、すべての部分文字列を抽出・集計し、出現頻度を統計的に可視化する。たとえば『古今和歌集』と『新古今和歌集』を比較した場合、どの文字列が共通して現れ、どの文字列が一方にしか登場しないかといった分布を明らかにすることが可能である。出現頻度の差は、文学表現の傾向や時代的な変遷を捉えるための手がかりとなる。
「研究を効率化するというよりも、類似性や規則性、まだ誰も見つけていない構造を明らかにするための計算機による発見支援『Discovery Science(発見科学)』の発想を入れるのが出発点でした」と福田教授は振り返る。
e-CSAは、誰もが直感的に操作でき、PCのスペックを問わず使えるように設計されている。現在も福田教授の授業で活用されており、学生たちは、意味や解釈を考える前に、文学作品を単なる文字列データとして捉えることで、和歌を分析する視点を身につけることができる。文系・理系を問わず、広く古典文学に興味を持つきっかけとして、e-CSAは学びの入口として有効に機能している。
文字列データが「文学作品」として再構築される瞬間
福田教授の授業では、和歌の基礎知識を簡潔に伝えた上で、文字列解析ツールe-CSAを学生に与え、「このツールで新しいなにかを発見してみてください」と自由な探索型の課題を提示している。そこでは、自分自身の視点で「知らなかった」「気づかなかった」と感じた内容が既存の辞書に載っている情報であっても、自分自身にとっての「発見」とみて尊重するという方針がとられている。
しかし、自由に探索を促された学生の中には「何から始めればよいのか分からない」と戸惑う者も多い。福田教授はこのような学生たちには「とにかく手を動かして、クロス表のどこでもいいからクリックしてみて」と背中を押す。そうするうちに、数値の違いや時系列に並べたときの変化などが気になってくるという。古文の意味を一度取り払い、ただの文字列データとして向き合い、繰り返し手を動かして得られる発見の連続の中で興味が生まれていく。
興味深いのは、このようなアプローチが文系・理系の学生を問わず通用しているという点である。最初は古文の授業に抵抗感を示した理系の学生が、データサイエンスの手法を用いた「比較と分類」に面白さを見出し、言葉の意味や歴史的背景に興味を持っていく。
この教育スタイルを象徴するエピソードとして、情報科学研究者の友人が「モビルスーツを着た国文学者」という表現で福田教授の研究姿勢を形容した話がある。これは「強力なツール(=モビルスーツ)を操縦するのは人間自身である」という意味を持ち、解析ツールがいくら高性能でも、それを使って発見する視点や着眼点は、最終的に人間・研究者に委ねられているという哲学を表している。
- 1
- 2