BioSupercomputing Newsletter Vol.11

今回のインタビューで強く感じたのは、自らの専門領域と異なる分野との融合を理解しようとする積極的な姿勢でした。２１世紀は生命科学の時代であると言われるように、生命科学はまだまだ謎と神秘に満ちた学問であり、それゆえバイオインフォマティクスやシステム生物学といった分野横断的なアプローチの必要性が訴えられてきました。生命科学と情報科学の両方に精通しなければ、生物学的な発見と計算論的な新規性をもたらすような有意義な研究課題を見出せないこの領域は、私達学生としては時に非常に心労が絶えないものがありますが、だからこそ面白く、研究領域としてこの分野を選んだことを誇りに思います。本学を修了後は一旦生命科学を離れ、統計的学習理論の研究者として情報科学技術の発展に貢献したいと考えておりますが、そこでもこうして学んだ様々な学問に積極的に興味を持つ姿勢を大切に、一人前の研究者を目指していきたいと強く思います。

今回研究者の方々から貴重なお話を頂ける場を設けてくださりありがとうございます。僕は研究者を目指しており、その点からも今回のお話はとても参考になるものでした。僕がバイオインフォマティクスの分野に足を踏み入れた理由の一つに、情報科学の知識を使って生命という非常に複雑なシステムを紐解く面白さ、というものがあります。複雑な構造を持つということは、その構造を捉えた複雑なモデルが必要ということでもあり、そのためにはHPCが不可欠となります。この先、テクノロジーの発展によりさらに正確なデータが得られるようになり、エクサスケールのスパコンが登場すると、より複雑な生命現象を捉えることが可能になると考えられます。それとともに、より精巧な理論・モデルもまた必要になるでしょう。このような最先端・未開拓の研究を先導するような研究者を目指しています。

【林】　みなさんは、ご自身の研究テーマをどのようにして見つけられたのですか。

新井田　自分がこのテーマを研究したいということはもちろんありますが、ヒトとの出会いも大きいと思います。私が「京」のプロジェクトに入ったのも、宮野研究室に来たことがきっかけですし、現場のお医者さんたちとの出会いも研究テーマにつながっています。そうした出会いを大切にするなかから、何か見えてくるのかもしれませんね。

伊東　自分の場合は、何か新しいことをやりたいと思っていたら、たまたまそこにあったのがバイオインフォマティクスでした。

角田　テーマは、いろいろな論文を読んだり、学会で人の話を聞いたりしているうちに見えてきたという感じでした。少なくとも自分が面白いと思わなければ始まりませんが、面白いと思うきっかけが何かは、人によって違うかもしれませんね。

【近原】　新井田さんにお聞きしますが、計算科学の発展ももちろんですが、生命科学の分野でいろいろな測定技術の向上に伴って、単にデータが増えているだけでなく使えるデータの種類も増えていると思いますが、そういうなかで、面白そうだなとお感じになっているものはありますか。

新井田　シングル・セル・シークエンスには関心を持っています。現在のシークエンスデータは、腫瘍のそれぞれの部分から細胞集団を採ってきて、それでシーケンスしていますが、最近、1つの細胞からDNAを抽出して読む技術が急速に発達しています。それが可能になれば、1つひとつのがん細胞から膨大なデータが得られます。それをシミュレーションにフィッティングさせ、今後はパラメーターを振ってシミュレーションするのでなく、大量のデータをデータ同化することによって、よりシミュレーションをインプルーブしていくことができます。そういう方向性が考えられますね。

【近原】　お話しのなかで、「京」の扱いについてバイオロジストにはちょっとハードルが高い状況があるとありましたが、具体的にはどういうことですか。

伊東　例えば、並列化もその1つだと思います。あとは最適化もそうです。知っていればわりと簡単なことも多いので、知識や情報を持っている人をうまく引き込んで、「こういうことをしたいんだけど」と、どんどん相談に行くといいと思います。

【近原】　ありがとうございます。角田さんにお聞きしたいのですが、環境のなかの微生物、あるいは人体の微生物でもいいのですが、その混合物のなかの微生物のゲノムの割合が分かることによって、どのような発見があるのですか。

角田　私の研究成果ではありませんが、報告としては、例えば特定の疾病にかかっている患者の微生物の存在比が、健常者と比べてどの部分がどう違うのかが分かってきています。どちらが原因かまでは分かっていませんが、その関係性が明らかになってきているので、今後、ある微生物の割合が高いことから、病気になっていることや、これから発症する可能性があるといったことがいえるようになるかもしれません。

新井田　がんでも、がんゲノムだけでなく周りのメタゲノムが、例えば胃がんのピロリ菌はよく知られていますが、関わっているのではないかといわれており、今後、がんゲノムとともに周りのメタゲノムも合わせて研究していくと、面白い成果が出るかもしれません。

【林】　タゲノムだけでなく、今後はRNA-seq、ChIP-seqなども含めて統合的に解析していく必要があると思いますが、そのためにはどのような計算資源が必要でしょうか。

新井田　より大きな計算資源も必要だと思いますが、多種多様なデータを扱う場合を考えると、よりバイオロジーに近い人たちが使いやすいようにすることが重要と思います。もちろんリソースも必要ですが、それだけではなくインターフェースも重要ということです。

伊東　シークエンサーに求めているのは、DNAの配列そのものではなく、基本的には何らかの異常を検知することですよね。塩基配列はなくてもいいわけです。そうすると、もう少しバイオインフォマティクスが発展して、例えばアルゴリズムやデータベースがきっちりしてくると、シークエンサーから出てくるデータを異常のデータベースに当てはめて、スーパーコンピュータを使わずにシークエンサーだけで完結する世界になるかもしれませんね。

【近原】　先ほどのお話を聞いていると、大きなデータを転送することにご苦労されている状況があるようですが、それは今後も変わらないのでしょうか。

伊東　スーパーコンピュータ開発において、これまでずっと追求されてきたのがCPUのスピードです。全体のバランス、例えばストレージの性能や大きさ、メモリーの容量などに比べて、CPUの性能に非常に片寄っています。これは世界的な流れで、別に日本だけというわけではありませんが、そろそろバランスを取ったマシン、つまりほかのところにも資源を振り向けることが必要になるということは、みんな認識していると思います。その意味では、今後に期待したいと思います。それからデータ転送については、現在、最初から「京」のストレージにダウンロードできるように交渉中です。運用側にも柔軟に対応してもらい、それが可能になればだいぶ軽減されると思います。あまり悲観することはないと思っています。

【近原・林】　いろいろと興味深いお話をありがとうございました。