SiGN-SSM
1. プログラム名
SiGN-SSM
2. 開発責任者
宮野 悟(東京大学 医科学研究所)
3. 主な開発者
玉田 嘉紀(東京大学大学院情報理工学系研究科)
山口 類(東京大学医科学研究所)
4. 内容
概要
状態空間モデル(State Space Model: SSM)を用いて時系列遺伝子発現データから動的遺伝子ネットワークおよび遺伝子発現値予測モデルを推定するソフトウェアです。
詳細
- 一般に高次元短時系列である遺伝子発現時系列データから、遺伝子ネットワークを表現する状態空間モデルのパラメータを、次元縮 約と一意性制約のもと推定します。
- パラメータはEM (Expectation Maximization)アルゴリズムを用いて推定します。EMアルゴリズムの実行時は異なる初期値を複数回適用し、最適解の探索が可能です。
- 状態ベクトルの最適な次元が容易に選択できるように、複数の次元を一度に複数回推定することが可能です。
- 予測モデルにおける状態ベクトルの推定値が振動することを抑制可能な機能を実装し、データの時点数が少ない場合にもより良いパラメータが推定できます。
- 並列化プログラミングであるOpenMP+MPIのハイブリッド並列に対応し、EMアルゴリズムおよび次元選択のための複数回実行を並列で行うことが可能です。
5. どんなことができるか
- 高次元短時系列データからの状態空間モデルのパラメータ推定。
- 推定されたパラメータからの遺伝子ネットワーク構造の決定(エッジの検定に関しては京は未対応)
6. 関係論文
[1] Tamada, Y., Yamaguchi, R., Imoto, S., Hirose, O., Yoshida, R., Nagasaki, M., and Miyano, S. (2011). SiGN-SSM: open source parallel software for estimating gene networks with state space models. Bioinformatics 27 (8), 1172-1173.
[2] Hirose, O., Yoshida, R., Imoto, S., Yamaguchi, R., Higuchi, T., Charnock-Jones, D.S., Print, C., and Miyano, S. (2008). Statistical inference of transcriptional module-based gene enetworks from time course gene expression profiles by using state space models. Bioinformatics 24 (7), 932-942.
[3] Yamaguchi, R., Imoto, S., Yamauchi, M., Nagasaki, M., Yoshida, R., Shimamura, T., Hatanaka, Y., Ueno, K., Higuchi T., Gotoh, N., and Miyano, S. (2008). Predicting differences in gene regulatory systems by state space models. Genome Informatics 21, 101-113.
[4]Yamauchi, M., Yamaguchi, R., Nakata, A., Kohno, T., Nagasaki, M., Shimamura, T., Imoto, S., Saito, A., Ueno, K., Hatanaka, Y., Yoshida, R., Higuchi, T., Nomura, M., Beer, D.G., Yokota, J., Miyano, S., and Gotoh, N. (2012). Epidermal growth factor receptor tyrosine kinase defines critical prognostic genes of stage I lung adenocarcinoma. PLoS ONE 7(9), e43923.
7. チュートリアル資料
ウェブサイトに、チュートリアルがあります。http://sign.hgc.jp/signssm/howto.html
8. 関連する教科書等
時系列解析入門 北川源四郎著(岩波書店)
9. マニュアル
http://sign.hgc.jp/signssm/manual.html
10. 処理の手順
時系列データをEDF形式かその特殊版であるSiGN-SSM形式で用意し,ソフトウェアを実行。出力されるサマリファイルから最適なパラメータセットを選択します。
予測されたパラメータから各遺伝子間の関係のp値の計算とそれを用いた遺伝子ネットワークの構造決定にはPCクラスタによる処理が必要です。
11. ソフトウェアのダウンロード
AGPLのライセンスで利用できます。
http://sign.hgc.jp/signssm/download.html
12. 利用許諾権(ライセンス)について
東京大学および開発者13. ソフトウェアの詳細
(1) 計算モデル化の方法
状態空間モデル
(2) 計算方法
EM法を用いた状態空間モデルのパラメータ推定
(3) 並列化の方法
EM法の初期値を変えた複数回の計算,および次元数同定のためのパラメータサーベイ実行レベルでの並列実行
(4) 開発言語等
C言語、MPI、OpenMP