はじめに

当研究室は、白金台にある医科学研究所ヒトゲノム解析センターの3F ゲノム機能解析分野にあります.

現在の主な研究テーマは大きく2つあります。

(i) 高性能シークエンサーデータのスーパコンピュータを用いたソフトウェア基盤整備、その上での独自解析技術、ソフトウェアの研究開発.

(ii) 生体内パスウェイのモデル化とシミュレーションによる生体をシステムとして理解するための研究開発.

より具体的な内容は以下の通りです

(i) 高性能シークエンサーデータ(次世代シーケンサーデータ)による超大規模なデータマネージメント

ヒトゲノム解析センターのスパコンは現在6000core(75TF)の性能を持ちまたディスクシステムは1P(=1000T)の高速ストレージです現在は特に高性能シーケンサーから算出される超大規模なデータを超高速に円滑に処理するためのデータマネジメントの手法について研究・運用をしています。また、クラウド上でのデータ解析のための研究開発も進める予定です。なお、ヒトゲノムの解析を行うため倫理審査が必要なデータの取り扱いをよりセキュアに行うための研究・運用についても積極的に取り組んでいます。

(i) 高性能シーケンサーデータの解析パイプラインの構築とデータ解析

ヒトゲノム解析センタースパコンのインフラを最大限に活かすためソフトウェアインフラ環境の整備を行うとともに、整備したソフトウェアインフラの上で高性能のデータ解析を医学系・生物学系の研究室と共同で行っています。なお、一部の基礎的な解析については、高性能シーケンサデータ解析サービスとして提供しています。

高性能シーケンサーデータの新規解析アルゴリズム・ソフトウェアの開発

情報科学、数理統計学の技術を利用し、高性能シーケンサーデータに適したスパコンで動作する新規解析アルゴリズムの開発及びその実装を行っています。

(i) 個別化医療を推進するための情報基盤整備

高性能シーケンサーデータ(特にヒト、マウス、ラットなどのデータ)についてスーパコンピュータ上でデータの整備を行い、既存のゲノム情報と医療情報との統合を進めています。これにより、個別化医療を推進するための情報基盤を整備することを目指しています。

(ii-1) 生命システムのシミュレーションソフトウェアの研究

生体内・細胞間のシグナル伝達、代謝パスウェイ、遺伝子制御ネットワークなどの生命システムをモデル化しシミュレーションするための統合プラットフォーム Cell Illustrator®というソフトを10年以上にわたって研究・開発し、現在は商用化しています。

このソフトウェアは、ヒトゲノム解析センターのCell Illustrator Onlineのホームページからも試用することができます。また、この統合プラットフォームの開発に関連して、生命をシステムとしてモデル化するためのフォーマットCell System Markup Languageや、オントロジーに基づく知識表現のためのフォーマットCell System Ontologyの研究、開発をDNA情報解析分野と協力して行っています。また、生体内パスウェイに適したグラフレイアウトアルゴリズムの開発、パスウェイデータベースの開発なども合わせて行っています。

(ii-2) 生命システムのデータ同化技術の研究

データ同化は、観測データとシミュレーションモデルを融合する新たなパラダイムとして地球科学の分野で世界的な注目を集めている第4の科学です。この手法をCell Illustratorのモデルに適用し、時系列観測データから、より適切なモデルをスーパコンピュータ上で推定する手法を研究、開発しています。

(ii-3) 生命システムのモデル検査技術の開発

モデル検査とは、与えられたシステムの正当性を、規則が与えらえれた元で充足するかどうかを判定するための手法です。この手法を生体パスウェイモデルに適した枠組みとするための研究、開発を行っています。最近、実装も行い、Cell Illustrator上のモデルにより簡単に適用するためのインタフェース、またスーパンコンピュータを用いて、より効率的にモデルを選択するための手法についても研究開発を行っています。

研究室に来るには?