文部科学省の「実社会ビッグデータ利活用のためのデータ統合・解析技術の研究開発」事業を進めている筑波大学は、ツイッター、センサーデータなど多様なストリーム(※1)データを処理する高性能基盤システムをはじめとする前半期の主要成果を明らかにしました。
ソーシャルメディア利用者の位置情報、年齢などの属性を世界最高水準の精度で推定する手法も開発しました。位置情報や属性は記載内容の解釈の際に重要な補足情報となりますが、明示的に開示されていません。そこで、発話内容を手がかりに高精度で推定する手法を確立する一方、利用者同士の関係や既知の利用者属性を基に未知の利用者属性を推計する方法も開発しています。
さらに、オンラインニュースとツイッターを高精度でリアルマッチングするシステムの開発にも成功しました。ニュース記事とそれに関するツイッターの反応をリアルタイムで紐つけし、ニュースの対する社会の関心の高さやさまざまな意見を簡単に集約できるようになります。
実社会ビッグデータ利活用のためのデータ統合・解析技術の研究開発は、文科省が2014年度から4年間かけて進めている事業で、筑波大学を代表校に、東京大学、東北大学、慶應義塾大学の計4校が連携して技術開発を続けています。
(※1)ストリームデータを「流れるもの」として捉え、流れ込んでくるデータを入力、流れ出ていくデータを出力として扱う。ファイルの入出力を扱うもの、ネットワーク通信を扱うものなどさまざまなタイプがある。