HPCI戦略プログラム 分野1 予測する生命科学・医療および創薬基盤
理化学研究所 HPCI計算生命科学推進プログラム
プログラムディレクター 柳田 敏雄
理化学研究所 HPCI計算生命科学推進プログラム
副プログラムディレクター 木寺 詔紀
理化学研究所 HPCI計算生命科学推進プログラム
副プログラムディレクター 江口 至洋
柳田(敬称略) まずは、これから分野1がどのようなテーマに取り組んでいこうとしているのか、課題1 ~4の紹介から始めましょうか。
木寺 私たちのゴールは、「京」の性能を最大限に活かして生命科学に貢献する成果を出していくということです。そのためには全くゼロから走り出すのではなく、すでに確立された“使える計算手法”を活用していくということが基本になるわけです。その意味では、課題1「細胞内分子ダイナミクスのシミュレーション」、課題2「創薬応用シミュレーション」では、分子シミュレーションの技術を活用した生体分子のシミュレーション、課題3「予測医療に向けた階層統合シミュレーション」では、構造解析に流体の計算を取り入れた流体構造連成解析、そして課題4「大規模生命データ解析」では、ゲノムを基軸とした生命データの解析と、大きく3種類に分けられます。さらに詳しく見ていくと、課題3には脳神経系シミュレーションが入るというように、それぞれ広がりがありますが、いずれにしても、これまでに開発されてきた手法が使われます。例えば課題1、2の生体分子シミュレーションでは、量子化学計算、分子動力学計算、粗視化モデル計算といった既存の手法で、「京」を使ってスケールアップしてやっていくわけです。
分子シミュレーションが、なぜ2つの課題に分かれているかというと、分野1の名称にも「医療および創薬基盤」と明示されているとおり、このシミュレーション研究の成果として、医療と創薬への貢献を重視していることを明確にしたいからです。分子シミュレーション分野の応用として、集中的に創薬に向けた取り組みを推進していくために、課題2が設定されています。もちろん課題2だけでなく、すべての課題で、医療および創薬への貢献を意識しながら進めていくわけですが。
江口 課題2の方はある程度モデルが構築されているのに対して、課題1の方は、これまでの延長線上でスケールアップするだけではない、さらに新しいモデルを考えていく必要があるのではないですか。そうしたチャレンジングなところが課題1には課せられているように思うのですが、いかがでしょうか。
木寺 まさにおっしゃる通りです。課題2においては、確立されたモデルが用意されています。そのモデルの効率的な利用によって、大きな成果が期待されています。しかし、それだけが唯一の手法ではなく、今後さらに優れたものへと発展していく可能性があります。その意味では、まだまだ課題2もチャレンジングであると思います。
江口 課題1についてはどうですか。
木寺 課題1でするべきことはむしろ、既存の分子動力学レベルのモデルで「京」を最大限に使うことで、既存のシミュレーションのレベルを拡大して、より長時間、より巨大なシステムの計算を行い、今までは見ることができなかった初めてそこで分かったといえる、分子レベルで起こる生物学的なイベントを再現することから始めなければなりません。そのなかから、次世代のシミュレーションのモデルをさがしていくという順番だろうと思います。
柳田 生命システムは、いってみれば超自由度の世界ですよね。今まで、いろいろな仮定などを入れることによって、コントロールできる程度の自由度に落とし込んで、生命システムを理解しようとしてきました。もちろん、「京」ができたからといって、超自由度のものをポンと放り込めば、ひょいと答えが出てくるわけではありません。それでも、試行錯誤しながらモデルをつくり、そのモデルを超自由度の方へ戻すときに計算機を使ってシミュレーションを行い、予測を導き出していくわけです。ですからシミュレーションは、これまで見てきた現象を説明するだけでは十分ではなく、次の予測につながるシミュレーション、そのためのモデル化でないといけません。それには、実験・モデル・シミュレーションを組み合わせていくことも重要です。
木寺 モデル化と予測は、実は非常に難しい組み合わせです。予測するためには、モデルが予測可能なものになっていなければいけません。過去のデータを説明するだけでは、全くその先へ進めませんからね。そのためには、アブイニシオ(非経験的)な、できるだけ多くの自由度を放り込んだようなシミュレーションを行い、その結果の中に新たな低自由度で表現できる現象を発見していくことによって、モデルを改良していくことが必要です。もちろん、実験そのものをモデルの改良につかってもいいわけですが。
江口 課題3も、非常にチャレンジングですね。
木寺 ここは、連成・統合ということに重きをおいたプロジェクトになっています。例えば、今までの血流のシミュレーションは、血管や心臓などの臓器は構造として、血流は流体としてとらえていましたが、構造と流体を連成したシミュレーションをやっています。さらに、これまで個別に行われていた心臓と全身血管のシミュレータを統合したり、そのうえに全身の筋骨格系、脳神経系といった全く別のシミュレータを持ち込んで、それらをすべて結び付けたヒトの全身シミュレーションをやっていこうというわけです。また、医療支援ということを強く打ち出し、病態の予測や治療法の検討、薬効の評価に貢献するシミュレーションを、はっきりと目的として掲げています。
江口 本当に統合できるのだろうかという思いを持つ研究者もいるようです。
柳田 ただ、臨床医の先生たちからすれば、いちばんやってほしい研究であることは間違いありません。実は、私は大阪大学第一生理学教室で教授をしていたんですが、今まで生理学ではこうした研究を、いわばクラシックにやってきたわけです。こういう研究が計算機科学と結合した形で発展していけば、医学にとって非常に大きなインパクトがあると思います。確かにチャレンジングには違いありません。しかし、生物学はそこをめざしていかなければいけないはずです。「京」を使って成果を出すということはもちろん大事なことですが、最終目標がどこにあるのかを見据えることも重要です。
木寺 達成できる明確な目標を掲げなければいけないというのは正論です。しかし、一方には、「京」を使って、スケールアップして見えそうなことだけを目的にしていけばいいのか、という考え方もあります。もっと発見的な要素があるチャレンジングな試みを「京」でやっていきたい、本当のゴールをめざした研究を「京」からスタートさせたい、そうした思いも確かに重要です。課題3のように、階層を超えて全身の統合的なシミュレーションをやっていこうというのは、まさにそうした今後の芽を育てていく、萌芽的なチャレンジという意味でも重要ではないかと考えています。
江口 課題1 ~ 3は、それぞれ他分野とオーバーラップする部分がありますが、課題4はデータ解析というやや独特な研究ですね。
柳田 ゲノムを基軸とした生命データの大規模な解析によって、生命プログラムとその多様性を理解するとともに、個別化医療やゲノム情報の産業利用などに役立てていくことを目標にしています。
木寺 さまざまな最新の実験技術によって生命情報が大量に生産されており、それを解析することにより、その意味を理解し、さらに予測するところまで踏み込んでいかなければいけないわけです。そうした生命情報を「京」によって解析していこうというプロジェクトです。その最も重要な部分であり、先行して注力してきたのが、次世代シークエンサーによって産出される大規模なゲノム情報です。大規模化・精緻化が急速に進んでいる、こうした生命システムデータの解析をやらなければいけないわけですが、現状として、これまでの計算機資源では全く間に合わなくなってきています。そのため、産出された生命システムデータを解析する基盤を「京」のなかに求めようというのです。まさに、直接的に実験データに結び付いたテーマですが、「京」を使うことによって、新たな生命科学におけるデータ解析的なサイエンスが実現すると考えているわけです。
江口 課題4の代表を務める宮野悟先生は、生命科学において第一原理的な方程式で説明されている部分は非常に限られていて、多くは第一原理がはっきりしていないということを強調しておられます。生命科学をサイエンスとしてとらえていくためには、データを持って語らしめる、つまり大量に出てきているデータのなかから法則性を見出すための努力をしていく必要があるというお考えだと私は理解しています。そのために、最初の1、2年は、次世代シークエンサーで得られたデータをサクサクと解析できるようなシステムを、「京」上につくることに重点を置きたいと話しておられました。
木寺 少なくとも、そうした要請が極めて強いということがひとつ、さらにそうしたシステムが「京」で十全に動かないと、そこから先の大規模生命データ解析が全面展開できないということがあります。シークエンサーの発展によって、今後、ゲノム解析のデータがどんどん膨らんでいくことは間違いありませんから。
柳田 まずはデータをきちんとしなければいけない。その膨大なデータのなかから、例えばある人が病気になるという予測につながるような意味のある情報を抽出していくわけですね。そのためには、さらに大きな計算機資源が必要になりますね、言ってみればデータマイニングをしなければいけないわけですから。
江口 一方で、最近宮野先生が発表されたがんの転移に関する研究では、遺伝子ネットワーク解析によって転移に関与していると思われる遺伝子を見つけ出し、その関与を実験によって証明することができたそうです。予測だけにとどまらない、こうした取り組みも重要になっていくでしょうね。
木寺 4つの研究開発課題をそれぞれ見てきたわけですが、全体を通して「京」を使うことによって、今までとどこが変わるのかをしっかり考えておきたいです。HPCI戦略プログラムにおける研究開発の正統的な考え方としては、「京」を使わなければ得られない、計算規模を拡大したことによる研究成果が求められるわけですが、それが単にすごいスケールの計算をやりましたというだけで、本来めざすべき生命科学の成果に結び付かないものであるなら、それは私たちの求める目的や成果ではないと思うのです。
柳田 確かに、「京」を維持していくための象徴的な研究をしていかなければいけないとしたら、それは本末転倒です。
木寺 生命科学の分野で、計算機科学はまだ広く浸透しているとはいい難く、特に計算機資源のハイエンドにある「京」を使った生命科学の研究のプロトタイプは、残念ながらありません。そうしたなかで、とにかく使ってみなさい、結果を出しなさいといわれるままに使うのではいけないと思うのです。このプロジェクトの最終的な評価は、本当の意味でのサイエンティフィックな成果がどれだけ出せるか、そこが重要だと思うのです。
柳田 先ほども話がでましたが、今までは超自由度な生命システムのなかから、コントローラブルな数少ない自由度に落とし込んで理解しようとしてきたわけですが、「京」では、とりあえずより多くの自由度を入れてみるというのもいいかもしれません。そこからキーとなる自由度が浮かび上がってくるかもしれません。
木寺 予定調和的なシミュレーションから、結果の中に予想だにしなかったことを発見するというような「発見的シミュレーション」という領域へジャンプする。「京」を使うことによって、それが可能になるということですね。
柳田 「発見的シミュレーション」というのは、非常にいい言葉ですね。超自由度の生命システムのなかでの発見的なシミュレーションをめざす、これが今日のまとめになるんじゃないですか。
木寺 もうひとつ忘れてはいけないのは、それが「京」によってできるようになるということです。非常にポジティブなことが、これから生物学で始まるわけです。そこに立ち会えることの幸運を十分に認識しながら、ゴールをめざして頑張っていくことが必要だと思います。
BioSupercomputing Newsletter Vol.6