理化学研究所、東京大学を含む大規模な国際共同研究グループ「The ICGC/TCGA Pan-Cancer Analysis of Whole Genomes Consortium」が、これまでで最も網羅的かつ詳細ながんゲノム情報の解析を行い、その結果を報告した。38種類のがんについて、2800例以上の全ゲノムシーケンス解析が行われ、4600万個を超える変異・異常とその特徴が明らかになった。
本研究は、2014年に始動した国際的連携による「全ゲノムがん種横断的解析プロジェクト(PCAWG)」の一環として行われた。プロジェクトには37カ国から1300人以上の科学者、ITエンジニア、臨床家が参加し、これまでにないがんの大規模な全ゲノムシーケンス解析に取り組んだ。
がん全ゲノムシーケンス解析では、解析アルゴリズム(パイプライン)によって同一のデータからでも結果が異なることがわかっている。そこでPCAWGでは、三つの基本パイプラインを組み合わせた、高精度で標準化された変異同定アルゴリズムを構築。これを用いて、これまでにICGC(国際がんゲノムコンソーシアム)やTCGA(がんゲノムアトラス計画)が収集してきた38種類のがんの2834例の全ゲノムシーケンスデータを解析した。
シーケンスデータは合計で約1ペタバイト(1000兆バイト)にも及ぶため、東京大学医科学研究所のスーパーコンピュータ「SHIROKANE」を含む世界10カ所のスーパーコンピュータとクラウドでデータを共有し、巨大な仮想データセンター上で作業が行われた。結果、非コード領域の変異、ゲノム構造異常、ミトコンドリアゲノム異常など、合計4600万個を超える変異・異常が同定された。さらに、同定された変異情報を16のワーキンググループで解析し、それらのさまざまな特徴が明らかになったことで、これまでで最も網羅的かつ詳細ながんゲノムマップを作成することができた。
PCAWGでの全ゲノムデータや開発した解析手法は、世界中で公開されているといい、次世代のがんゲノム医療および研究のデータ基盤になることが大いに期待される。