HPCリソースを好きな時に好きなだけ
生物のゲノム解析にAWS ParallelClusterを採用
コストを抑えながら研究の自由度を拡大

自然科学研究機構 基礎生物学研究所

超階層生物学センター・進化ゲノミクス研究室 教授 重信秀治 様
自然科学研究機構 基礎生物学研究所
公開日:2022年10月27日
BEFORE
  • 共用のHPCクラスタ環境ではジョブ待ちが発生
  • オンプレミスサーバは導入に時間がかかり、手続きも煩雑
  • オンプレミスのHPCクラスタにはメンテナンスなど運用負担も
AFTER
  • HPCクラスタの計算機リソースを好きな時に、好きなだけ、安価なコストで利用
  • 理想的な計算環境を、root権限でスクラップ&ビルド
  • コンピュータのメンテナンスから解放され、研究そのものに集中

基礎研究に特化した国立の生物学研究所として、1977年に設立された基礎生物学研究所。現在、愛知県岡崎市を拠点に、細胞生物学、発生生物学、神経生物学、進化生物学、環境生物学、ゲノム生物学など幅広い生物学領域の研究活動を行っています。2016年には同研究所の大隅良典名誉教授が、「オートファジー(自食作用)」の仕組みを解明した功績でノーベル生理医学賞を受賞するなど、長年にわたりトップレベルの研究者を輩出しています。

最先端の生物学の研究分野では膨大なゲノム情報や顕微鏡画像データなどビッグデータの活用が浸透しています。また、生物学にAI技術の導入をいち早く進めている同研究所では、膨大なデータを高速に処理するハイパフォーマンス・コンピューティング(HPC)の活用が欠かせません。多くの大学や研究機関では共用のクラスターコンピューターを運用していますが、多くの研究者や学生が同時に利用するHPCクラスタ環境はジョブ待ちが発生しやすく、必ずしも全ての利用者の要求に応えることができないという問題を抱えています。そこで、クラウドを活用したHPC環境構築が近年注目されています。

自然科学研究機構 基礎生物学研究所 AWSの提供するParallelClusterを使えば、AWSクラウド上でHPC環境を構築でき、必要な時に必要な台数でクラスタを構成して高速計算することが可能です。同研究所において、いち早くAWS ParallelClusterを採り入れた重信秀治教授にお話をうかがいました。

生物のゲノム解析に高速なコンピューティングリソースは必要不可欠

基礎生物学研究所には、複数の研究部門・施設がありますが、重信教授は「進化ゲノミクス研究室」の教授として、また共通施設である「トランスオミクス解析室」の室長として、生物のゲノム研究を行っています。

「特に、昆虫と微生物の共生に関心を持ち、世界初の絶対共生細菌のゲノム解読を皮切りに、最先端のゲノム科学を駆使した共生研究(共生ゲノミクス)に取り組んでいます。国内外の大学や研究機関との共同研究を積極的に推進しており、年間約50件のゲノム科学関連の共同研究を実施しています」

ゲノムを研究する重信研究室において、大量のデータ解析は日常的であり、高速なコンピューティングリソースは必要不可欠です。これまで、重信教授は、主に、同研究所の超階層生物学センターが運用する共用スパコン(800コア、メインメモリー最大4TB、高速ストレージ2.7PB)や、研究室で導入したオンプレミスの中規模のクラスタマシン(200コア)を利用してきました。しかし、 共用のHPCクラスタは、昨今の生物学における大規模解析のニーズの高まりから利用者が増加傾向にあり、計算リソースが不足するようになりました。

「うちの研究所の共用HPCは、専門スタッフにより作り込まれた生物情報解析用の環境が整備されていて、その点はとても快適なのですが、一方で多くの研究者が同時利用するため、どうしてもジョブ待ちの時間が発生します。学会発表や論文の締め切りが迫っている時などに、他のユーザーのジョブが混んでいて好きなタイミングで利用できないときは、qstatコマンドを連打しながら、ストレスを溜めてしまうこともありましたね。」

使いたい時に必要なクラスタが構成できるAWS ParallelCluster

そこで重信教授が着目したのが、クラウドサービスとして提供され、使いたい時に必要なクラスタが構成できるAWS ParallelClusterでした。重信教授は数年前からバイオインフォマティクス分野でのクラウド活用に可能性を見出し、独自にWebシステムの基盤にAmazon EC2を利用したり、大規模データのストレージとしてAmazon S3を活用したりしてきました。その中でAWS ParallelClusterの情報をキャッチし、いち早く研究室への導入を決めました。

「数年前にはAWSのクラウドでクラスタ環境を構築しようと試みたこともありましたが、当時の試算では膨大なコストがネックとなり断念した経緯があります。2021年に入って改めて調べてみるとHPCクラスタ専用のAWS ParallelClusterがリリースされ、京都大学ゲノム医学センターでヒトゲノム情報の解析に採用されていたり、大手製薬会社でゲノム分析の用途で利用されていたりすることを知りました。セキュリティに厳しいヒトゲノムの分析で利用されているなら、昆虫ゲノムの分析環境においても不安はなく、また、スポットインスタンスを活用すれば低コストで利用できることも加味して採用を決めました。従量課金で利用できるクラウドサービスは、予算申請の際も高額にならず、研究機関や大学等教育機関にとって有利に働くと思います」

AWS ParallelClusterの採用を決めた重信教授は、導入支援をクラスメソッドに要請しました。2021年1月末から要件定義を開始し、翌2月には環境構築を終えてPoC(概念検証)を開始しています。

「公的研究費の支払基準に準拠しているパートナーを検討した際、AWSから紹介された中からクラスメソッドを採用しました。後に、私自身もよく参考にしている技術ブログ『DevelopersIO』で情報を発信していることを知り、改めて技術レベルの高さを実感しました。環境構築後の初期フォローやQA対応においても、担当技術者からAWS ParallelClusterの操作方法やconfigの設定方法などを詳しくレクチャーしていただき、何とか自力で使いこなせるようになりました」

1人でクラスタを占有でき、ジョブの待ち時間もゼロ

現在、重信教授の研究室では、昆虫をはじめとする多様な生物のゲノムの解析や遺伝子発現(トランスクリプトーム)の解析にAWS ParallelClusterを活用しています。
ゲノム解析のワークフローでは多くのアプリケーションを組み合わせて使います。実行アプリケーションの特性に応じてジョブの実行環境を自在に変更でき、より効率の良い構成を試行錯誤して最適化できるのもAWS ParallelClusterのメリットです。
Amazon EC2のインスタンスタイプは、CPU性能を重視したもの、I/O性能を重視したものなど複数を組み合わせて利用できます。例えば、ディスクI/O性能が重要視されるジョブには、低レイテンシーでアクセスできるローカルストレージを持つAmazon EC2 M5d インスタンスを選択することで、遺伝子のリファレンス配列構築プログラム「Trinity」の実行時間が半分になるほどの効果がありました。実行時間が短くなることでAWS利用コストも抑えられる効果もあります。
インスタンスの購入の仕方については、最大90%の値引きとなるAmazon EC2 スポットインスタンスを活用してコストを大幅に抑えています。
ストレージにはAmazon EFS、ジョブ管理のデータベースにはAmazon Auroraを採用。AWS ParallelCluster利用時のみ、データベースが自動で起動・停止するようにすることで、データベースの稼働時間とコストを最適化することができています。
分析ツールは、OSSを中心に 、Amazon EC2上にゲノムブラウザ(JBrowse)や、独自開発のデータベースやデータ可視化ツール、Python、R, Ruby、などを使いながら分析を行っています。共同研究者との情報共有やにもEC2やS3を活用しています。

自然科学研究機構 基礎生物学研究所
「AWS ParallelClusterを活用した研究事例の1つは、農作物に被害を及ぼすアブラムシのゲノム解析・進化系統樹です。21種類のアブラムシに対して、1種類で数千個の共通遺伝子情報を比較しながら各種の類似点を比較し、“近縁関係”を進化系統樹として整理していきました。もう1つの研究例は、シマヘビのゲノム解析です。大阪公立大の鈴木孝幸教授と共に、ヘビの“骨の数”の秘密を明らかにするため、シマヘビのゲノム解読プロジェクトを進めています全生物が持つ共通遺伝子セットと、シマヘビの遺伝子セットを網羅的に比較しながら、取得したシマヘビのゲノム精度を5つのパターンで検証しました。1つのパターンでも数時間かかる解析をAWS ParallelClusterで5パターン並列に行うことにより迅速に結果を得ることができました。」

重信教授の研究室ではAWS ParallelClusterを、オンプレミスのクラスタマシンと併用しながら、週に数回の頻度で利用しています。AWS ParallelClusterを利用するメリットは、好きな時に、好きなだけ利用できる自由度の高さ、ハードウェアの調達手続きが不要ですぐに計算リソースが手に入る手軽さ、メンテナンスから開放される運用負荷の低さ、研究の規模を問わず利用できる柔軟性の高さ、従量課金によるコストの最適化などにあるといいます。

「オンプレミスのHPCクラスタと異なり、ユーザーがクラスタを占有することができ、ジョブの待ち時間もありません。仮想マシン上に理想的な計算環境をroot権限でスクラップ&ビルドができる自由度の高さとフットワークの軽さも魅力的です。共有計算機では、高度な利用をしようとするとどうしても管理者におうかがいを立てる必要がありますので。コスト面においても、予算の上限を意識する必要はあるものの、小規模で予算が少ない研究機関や学術機関にとって、使った分だけ料金を支払うクラウドサービスはありがたい存在です」

マルチユーザー環境を構築し、研究スタッフへの利用拡大へ

学術研究の領域では、民間企業ほど進んでいるとはいえないクラウド活用ですが、数年にわたるAWSのサービス活用やAWS ParallelClusterを使ったデータ分析を通してポジティブな手応えを得た重信教授は、各種情報交換会でクラウドのメリットを訴求しています。今後はAWS ParallelClusterの利用を研究室のメンバーや、他の研究者にも拡大していく方針で、利用開始に向けた準備を進めています。

「指導教授の私が使いこなせるようになった段階で、研究スタッフへの利用拡大を考えています。ただし、マルチユーザー環境になると、新たにセキュリティや予算管理の問題も出てきますので、引き続きクラスメソッドの担当技術者に相談しながら課題をクリアにしていきます」

クラスメソッドは、初期フォローが終了した2021年5月以降から現在まで、2週間に1回の頻度でオンラインでのQA対応を実施し、問題があればプロジェクト管理ツールを介して随時対応しています。

「私を含め、学術機関に所属する研究者の多くは、システムに関しても外部のパートナーに丸投げするのではなく、自分で勉強しながら使いこなしてみたいタイプが多いと思います。クラスメソッドの担当技術者は、そんな私たちにも丁寧に対応してくださるので、自らの成長にも役立っています。また、先日は大学の教育や研究活動において、AWSの利用料を定額前払いにできる『AWSメンバーズバウチャーチケットサービス大学生協版』を紹介していただきました。クラスメソッドには今後も、技術支援から、サービス支援まで期待しています」

“生き物研究の世界の拠点”として、世界レベルの研究基盤を形成する基礎生物学研究所。クラスメソッドは、引き続き高度な技術提供を通して日本の生物学の発展に貢献していきます。

クラスメソッド教育・研究環境支援について

この事例はクラスメソッドの文教専任チームによる学校や研究機関向けの技術支援を行っています。クラウドの利用など様々な課題について、経験豊富なメンバーがお客様を支援いたします。

教育・研究機関向け支援ページへ
教育・研究環境支援

お客様の業界・課題に合った事例や支援内容も個別にご提案可能です。
まずはお気軽にご連絡ください。

お問い合わせ
不明点はなんでもご相談ください
0120-991-668 平日9:30〜18:30 お問い合わせ