私たちの生活に徐々に浸透してきているChat GPTをはじめとする生成AI。とても便利な一方、出力される情報は必ずしも正しいとは限りません。生成AIを上手に利用し、付き合っていくには・・・?「その特性や注意点を知る必要がある」と語られる宮森先生にお話を伺いました。
生成AIとは
生成AIとは、言葉や画像などを「作り出せる」AIのことです。従来のAIは、言葉や画像などを「理解する」点を重視した理解型のAIでした。生成AIは以前からも存在していましたが、性能が高くなかったため、Chat GPTの登場まで注目される機会は多くありませんでした。
Chat GPTは、流暢な言葉遣いで対話できる生成AIの代表例で、人間の質問に答えたり、アイデアを提案してくれたり、書面の作成を助けてくれたり、様々な依頼に応えてくれます。以前にも日本語など自然言語での質問応答や対話を行うシステムは存在しましたが、ChatGPTは出力される文章の品質がとても高い点が特長です。文章だけでなく、箇条書きや表形式にまとめてくれる点もそれまでの従来システムとは大きく異なります。
一方、画像を作り出す生成AIも利用が広がっています。例えば、X線画像から病気診断するAIを構築するには、良質のX線画像が大量に必要になりますが、希少な病気の場合、そのようなX線画像を収集すること自体が困難です。そこで、画像生成AIで作成した擬似X線画像も追加して訓練することで、病気の診断性能が向上することが報告されています。同様の使い方は、衛星画像による違法操業船検出でも行われています。生成AIの生活や社会への影響は大きく、現在、世界中で法整備などが急ピッチで進んでいます。
生成AIの問題点とは
便利に思える生成AIにも問題点があります。一つは《出力内容の正しさを担保できない》こと。例えば、Chat GPTにお薦めの店を聞いたら、架空の店名と住所が返ってきたという経験はないでしょうか。回答があまりに自然なため注意が必要です。医療や法律に関わるやりとりの場合は特に要注意です。また、《人間の常識》が通じない点も問題です。例えば、
Chat GPTは法律を無視したことを平気で提案します。居酒屋の売り上げ向上案を尋ねると、未成年にお酒を勧めるなどの提案をしてきたりします。
こうした問題の一因は、生成AIが文章などを学習する仕組みが人間とは異なる点にあります。例えば、Chat GPTのような言葉を扱う生成AI(大規模言語モデル;LLMとも呼ばれる)は、ネットから集めた膨大な文章をもとに、ある単語の次に出現しやすい単語は何かを学習します。つまり、Chat GPTなどの生成AIは、純粋に言葉の規則性に基づいた知識しか獲得できていないのです(注)。
一方、人間は、身体、五感を通じて外の世界から多くの刺激を得ることで言葉の知識を獲得します。身体のないChat GPTなどにはこういう学習はできないため、現状では人間の感覚や知識とは大きな隔たりがあるのです。
注:Chat GPTについては、2023年9月にGPT-4Vと呼ばれる新たなバージョンが発表され、言葉だけでなく、画像を扱うこともできるようになりました。
高校生へのメッセージ
Chat GPTをはじめとする生成AIの仕組みをきちんと理解するには、プログラミングを学ぶだけでは不十分で、数学の知識も不可欠です。数学が特別得意である必要はありませんが、苦手意識を持たないように勉強しておきましょう。また、AI技術の進化はとても速く、最新の成果の多くは英語で発表されますから、英語力も常に磨いておくことをお勧めします。
進路選択にあたっては、悩むこともあるかもしれませんが、社会の動向もよく注視しつつ、自分がワクワクする、楽しそうだと思える分野を見つけてほしいと思います。生成AIは、新しい技術であり、社会のあらゆる領域で変化をもたらしています。技術開発に興味のある方は、ぜひその仕組みを学び、自分の能力を存分に発揮してほしいと思います。また、技術開発に興味のない方も、AI自体の進化は私たちの生活や社会に大きな影響を与え続けると予想されるため、基本的な理解を深めることは重要です。将来を予測しながら、やりたいことをやり切れる環境を見つけ、そこに積極的に飛び込んでいってください。
どんな授業?
専門科目の授業では、自然言語処理や機械学習について、最新技術も含め丁寧に説明しています。主には反転授業形式で、学生にはオンデマンド講義動画で予習してきてもらい、授業ではグループワークを行っています。学生自身で学習内容の確認問題を作ったり、サンプルプログラムの穴埋めを行ったりと、学生が《主体的・対話的に参加することで深い学びにつながる》よう工夫しています。
研究室でのゼミは、週ごとの担当者が自分の研究の進捗を報告、その内容について全員で議論するという形式です。数時間の議論を行いますので、自分だけでは得られなかった気づきや新たな情報なども得られ、毎週、密度の濃い、充実した時間になっていると思います。
研究室には、自然言語処理やコンピュータビジョン、機械学習、情報検索の融合的研究をしている学生が多く、学部、大学院に限らず、卒業生の多くは、ここでの研究を活かして就職しています。
どんな研究?
現在の研究テーマの一つは、言葉や画像を扱うAIが、数のような抽象的概念をどのように理解しているか、その理解度を向上させるにはどうすればよいかについてです。
現在の大規模言語モデル(LLM)などのAIは、数の理解や計算が苦手とされています。例えば、4桁×4桁の計算はほとんど正解できません。電卓のような計算アプリと連動させれば正解できますが、単体では難しい。
研究室では、AIが人間のように10という数が理解できたら1000という数も的確に理解し、状況に応じて活用できるかについて調査しています。例えば、様々な色、形状、材質の物体が円形に並んでいる画像(上図)を見せ、「黄色の金属の円柱から数えて反時計回りに3番目の物体は?」と質問し、該当する物体をAIに答えさせます。AIは3番目ならば正解します。しかし、10番目、100番目と数が大きくなると正しく回答できなくなります。現状のAIの数の理解度は表面的で、桁数の大きな数でも的確に活用できるような深い理解には至っていません。この理解度を向上させる方法を明らかにすることが一つの目標です。
京都産業大学 情報理工学部教授
宮森 恒先生
1997年早稲田大学大学院理工学研究科博士課程修了。博士(工学)。専門は、マルチメディアデータ工学、機械学習、情報検索。もともと電気系に興味があったが、大学では、放送や通信等を扱う電子通信学科を専攻。4年次では、映像を扱う研究室に入り、現在、地デジ放送などで用いられているMPEG規格に関連した研究に携わった。学位取得後は、NICT、現・国立研究開発法人情報通信研究機構にて、映像シーン検索、テレビ番組とインターネットの融合的利用、情報の信頼性評価支援などを研究。2008年に京都産業大学コンピュータ理工学部准教授、2013年同教授、現在に至る。大阪府立北野高等学校出身。