新土 「京」で計算オーダーが2~3桁上がったのに、それに対応する高性能なMDシミュレーションソフトウェアが今までなかったというお話をうかがって、ちょっと驚きました。「京」ができたことで、MDシミュレーションの計算スケールはどれくらい向上したのですか。
杉田 「京」ができる前に私たちがやっていた、いちばん大きなサイズは、だいたい30万原子ぐらいが入っていたと思います。一方、「京」の登場でできるようになったいちばん大きな系は1億原子にもなります。また、以前はタンパク質1、2個が入った計算をやっていましたが、今、私たちはクラウディングもやっているので、タンパク質が200個ほどのレベルの系を一度に計算できるようになっています。
新土 時間でいうと、何秒くらいですか。
杉田 時間は、実はそれほど伸びていません。「京」ができる前も100ナノ秒くらいの計算は行われていて、「京」ができてからは、マイクロ秒くらい。時間的には100倍になってないですね。およそ10倍というところでしょうか。「京」の1個のCPUはそれほど速いわけではなくて、並列で使って初めて速くなるものなので、空間的には比較的簡単ですが、時間的には難しい。むしろ、ジョンさんが開発しているGPGPUを使った計算の方がやりやすいです。
都築 非常に多数のタンパク質を扱うことができるようになったとのことですが、それによって何か新しい知見が得られるようになりましたか。

杉田 今まではイン・ビトロで、つまり試験管のなかでタンパク質を見る場合も非常に濃度が薄いなかでのふるまいを見ていましたが、例えば構造生物学でインセルNMR(核磁気共鳴)といった言葉を聞いたことがあるかもしれませんが、最近はテストチューブに細胞を入れて、細胞のなかのタンパク質といった生体高分子の立体構造を見ることもできるようになってきました。そしてシミュレーションでも、そうした成果に直接対応できる計算結果が出てきています。細胞のように濃度の高い環境のなかで、タンパク質は安定しているのか、形は変わっていないか、あるいは薬やリガンドとどのようにくっつくのか、くっつかないのか、そういうことがぎりぎり見えてきそうな感じですね。
都築 実験との対応もできるようになってきたということですね。
杉田 そうです。さらに進めていくと、インセルMDみたいな新しい領域ができるかもしれません。
都築 最終的には、1細胞を完全にMDで再現したいということですね。そのためには、どのぐらい計算規模を大きくしないといけないのでしょうか。

杉田 どの細胞を選ぶかによって大きく変わりますが、私たちがターゲットにしているのはマイコプラズマです。現在、体積にして細胞質の10分の1くらいをやっています。計算規模から見て、ほぼ全系をモデル化するのもそれほど遠い先ではないと思っています。ただ、そのためにはネックがあります。実は生体膜なんです。マイコプラズマの膜タンパクの構造が、まだ十分に分かっていないのです。そこが非常に厳しい。応用につながる真核細胞などになると、さらに複雑で、それを再現するための計算規模となると、ちょっと私には想像がつかないですね。大腸菌ですら、マイコプラズマよりずっと大きくて複雑です。たいへんだと思いますが、私たちも含めて、若い研究者は今分かっていることをやるのではなく、まだ分かっていないことにチャレンジしていく方が、末永く研究を楽しめるはずです。その意味では、いいテーマだと思います。ぜひ挑戦してみてください。
都築 はい。
新土 森さんは生体膜の研究をやっておられると先ほどうかがいました。REMD法についてですが、生体膜は生理的環境の変化があったりして、計算の方法にも違う難しさがあるのではないですか。
森 まさにそのとおりです。生体膜に対して温度REMD法を行うと、温度を激しく変化させるので、膜が壊れやすくなります。私が開発した表面張力REMD法は、それを克服するための方法で、温度について各レプリカで違う値を振るのではなく、異なる表面張力というパラーメーターを各レプリカに与えて、表面張力を交換する方法です。表面張力は、表面積を小さくしようとする力なので、それを交換すると何がおきるかというと、膜が水平方向に伸びたり縮んだりします。膜をあえて変形させることで、膜中にある分子の変化を誘起させる方法を開発したんです。生体膜と水溶性タンパク質では、やはり性質が異なるというか、シミュレーションの方法はちょっと変わってきますね。
新土 先ほどマイコプラズマは生体膜が難しいとおっしゃっていましたが、膜タンパクの構造を表現するのが難しいということですか。
杉田 細胞を丸ごと再現する上でいちばんのネックは、膜タンパクの構造が解けてないことです。もちろん膜そのものの複雑さもあります。例えば、脂質の種類って、どれくらいあるか知っていますか。ものすごくたくさんあるんですね、ちょっと違ったのも含めて数えると、タンパク質の全種類と同じくらいあります。それがとても複雑にミクスチャーされてるのが生体膜なわけですよね。
都築 1分子の構造のシミュレートだけでなく、最終的に明らかにしたいのは、構造の違いからどういうネットワークが全体として浮かび上がってくるのかということだと思います。分子と分子の相互作用を明らかにしないといけないわけですよね。今は、どのくらいうまく表現できているとお考えですか。
杉田 今のところは、ほとんどできてないと思います。もちろん結晶構造や結合状態が分かっていれば、評価することはできますが、複合体の予測ができるかというと、まだ現状では、精度はよくないと思います。まだ残された課題で、これからやっていかなければいけないテーマだと思います。
都築 分子間の相互作用を予測していくための方策については、どのような方法があるとお考えですか。
杉田 いろんなやり方があると思いますが、個人的には、2通りあると思っています。1つは私たちの得意技で、レプリカ交換法や拡張アンサンブルの方法をドッキングなどに使えるようにつくり込んでいくやり方です。それは、私たちが近いうちにやりたいと思っている方法でもあります。もう1つは、モデルをうまく選んでいくやり方です。私たちがメインにやっているのは、タンパク質もDNAも水もイオンも、全部原子から積み上げていく全原子モデルですが、他にも一分子流動モデルや中間的な粗視化モデルもあります。原子1個1個を単位としてやるのでなく、例えばアミノ酸残基を1つの粒子にするといった中間的な解像度で計算のコストを減らすことができます。こうしたアプローチで、もっと精度を向上させて、日本語としては少しおかしいですが、大規模高精度粗視化モデルというようなものをつくれないかなと思っています。普通に考えると、粗視化によって精度はぐっと落ちるはずですが、その粗視化のなかで精度を上げる工夫をするわけです。さらにそれを私たちが得意な並列計算に持ち込んで大規模化するという意味で、大規模高精度粗視化モデルという名前になります。
都築 最後にもう1つお聞きします。REMD法でどうやって時系列を計算しているのかなというのが、ちょっと気になっています。これで出るのは、各状態を取る確率しか出ないわけで、時系列の計算ができないと思うのです。それをどうやって時系列の計算につなげているのでしょうか。
杉田 時系列の計算はしないというのが基本です。私たちがMD計算で欲しい量は2つあります。1つはカイネティクス(速度論)で、これは時系列の解析が必要です。そして、もう1つがサーモダイナミクス(熱力学量)で、こちらは平均値、つまり6対4というような、ある種の分布があればよくて、何秒後にどうなるかは考えません。この平均値をより正確に出すのがREMD法なのです。時系列が見たい場合は、MD法を長くやればいいわけです。
都築 なるほど。分かりました。ありがとうございます。
