GHOST-MP
1. プログラム名
GHOST-MP
2. 開発責任者
秋山 泰(東京工業大学大学院情報理工学研究科)
3. 内容
相同性配列検索は、新規配列に対して機能推定などのアノテーションを行う際に利用される重要な配列解析法の一つであるが、近年、DNAシーケンサの改良により大量のDNAデータが得られるようになり、より高速な解析手法が求められている。特に、環境中の細菌叢から抽出したDNAを直接解析するメタゲノム解析では、塩基の一致による単純なマッピングを超えた感度の良い配列検索が必要である。
GHOST-MPは、与えられた大量の塩基配列の類似配列検索をアミノ質配列データベースに対して行う相同性解析ソフトウェアであり、与えられた塩基配列を6リーディング・フレームでアミノ酸配列に変換し、アミノ酸配列データベースから類似する配列を検索することで高感度の検索を実現する。また、検索の際に、接尾辞配列(Suffix Array)を利用した高速なアラインメント候補探索を行うだけでなく、計算ノード間での並列化にMessage Passing Interface、計算ノード内での並列化にOpenMPを用いたハイブリッド並列計算処理を用いることで高速な相同性配列検索を実現する。
4. どんなことができるか
-
大量の塩基配列に対して高速に高感度な配列相同性検索を行うことができる。例えば、次世代シーケンサから産出される大量データの解析に用いることが可能である。
-
データベース配列のアノテーション情報から、与えられた塩基配列のoperational taxonomic unit(OTU)や機能の推定が行える。メタゲノムサンプルから得られたDNAを解析する場合、サンプル中に存在するOTUや機能の頻度の推定が行える。
5. 関連論文
[1] Suzuki S, Ishida T, Kurokawa K, Akiyama Y (2012) GHOSTM: A GPU-Accelerated Homology Search Tool for Metagenomics. PLoS ONE 7(5): e36060. [Pubmed]
[2] Suzuki S, Kakuta M, Ishida T, Akiyama Y (2014) GHOSTX: An Improved Sequence Homology Search Algorithm Using a Query Suffix Array and a Database Suffix Array. PLoS ONE 9(8): e103833. [Pubmed]
[3] Suzuki S, Kakuta M, Ishida T, Akiyama Y (2014) Faster sequence homology searches by clustering subsequences. Bioinformatics, in press, doi:10.1093/bioinformatics/btu780. [Pubmed]
6. チュートリアル資料
「SCLS計算機システム講習会 GHOST-MP実習」 参照
GHOST-MPのホームページ 参照。
7. マニュアル
「GHOST-MP操作マニュアル2013年11月版」 参照。
GHOST-MPのホームページ 参照。
8. 処理の手順
ここでは、手順の概要を記述する。処理の詳細についてはチュートリアル資料およびマニュアルを参照されたい。
GHOST-MPは、FASTA形式のクエリファイル(塩基配列)とデータベース配列(アミノ酸配列)を入力として配列相同性検索を行う。GHOST-MPは、接尾辞配列(Suffix Array)というデータ構造をデータベース配列のインデックスに用いることでローカルアラインメントの候補位置の高速な検索を実現しており、そのために検索前にインデックスを作成しておく必要がある。データベースに変更がない場合は、以前に作成したインデックスを使用可能だが、新たなデータベースを用いる場合やデータベースの一部に変更があった場合、その都度インデックスの作成が必要である。
また、検索対象の塩基配列はFASTA形式のファイルとして入力するが、GHOST-MPはこのFASTAファイルを単位として各計算ノードにジョブを割り振るため、計算ノード数に合わせて適当な数に分割された入力ファイルを用意する必要がある。
クエリとインデックスが作成されたデータベースを入力として配列相同性検索コマンドを実行すると、各クエリファイルに対応してBLASTタブ区切り形式の検索結果ファイルが作成される。
9.ソフトウェアの詳細
-
計算方法: 接尾辞配列と表引きを用いた類似部分文字列検索によるアラインメント候補の探索、アミノ酸置換行列とアフィンギャップスコアを用いたローカルアラインメント
-
並列化の方法: Message Passing Interface、OpenMP
-
開発言語: C、C++
-
ライセンス: BSD 2-Clause license
-
「京」での最大計算規模: 82,944ノード(663,552コア)