国立情報学研究所の松井勇佑特任研究員らの研究グループは、株式会社ドワンゴ、東京大学と共同で、10億個程度のビッグデータに対する「クラスタリング」を、少ないメモリー容量で高速に実行できる実用性の高い手法を開発。これにより、一般的能力のパソコンでもビッグデータのクラスタリング処理が可能になる。

 AIの研究では巨大で複雑なデータ(ビッグデータ)を処理する。クラスタリングは大量のデータのうち似たものをまとめてグループに分けるデータ処理の基本的作業だが、データが巨大になると従来手法では処理速度が低下し大容量メモリーが必要となる。一般のパソコン1台ではクラスタリングの実行は難しく、多数のサーバーを用いた分散並列処理が必要だった。

 今回、新技術(直積量子化)によりデータを圧縮し、従来手法より少ないメモリー(100~4000倍の省メモリー化)で表現できた。次に、この圧縮データに対して類似データのグループ化とグループの平均計算という処理を繰り返すが、過去に提案の技術に加え、今回新考案の効率的な平均計算技術により高速クラスタリング(10~1000倍の高速化)が可能になった。

 この結果、1億枚の画像を10万種類のグループに分類する処理を、パソコン1台(メモリー容量32GB、CPUコア数4)で、約1時間で実行(従来手法ならパソコン約300台必要)。10億の画像データを10万種類に分類する処理も約12時間で実行できた。

 これにより、ソーシャルメディアなどの膨大な画像データを一般的なパソコンで手軽に処理できる。一般の技術者や研究者にもビッグデータの扱いが容易になるため、深層学習を応用した人工知能(AI)の開発など広い分野での活用が期待される。

大学ジャーナルオンライン編集部

大学ジャーナルオンライン編集部です。
大学や教育に対する知見・関心の高い編集スタッフにより記事執筆しています。