東京大学大学院総合文化研究科の言語情報科学専攻で自然言語処理の研究室を主宰する大関洋平先生は、認知・神経科学と自然言語処理という複数分野にまたがる学際的なアプローチにより、人間らしい言語処理モデルの開発を行っています(参考:http://phiz.c.u-tokyo.ac.jp/~oseki/)。
研究で計算資源を必要とする大関研究室では、クラスメソッドのAWS利用料前払い型プラン「AWS メンバーズバウチャーチケットサービス 大学生協版」を大学生協から購入して活用されています。
バウチャーチケットを購入したきっかけから、導入時のエピソード、利用感まで、大関先生、卒業研究中の教養学部4年生の山下さん、博士後期課程1年生で山下さんのメンターを務める原田さんに詳しくお話をうかがいました。
生協取り扱いバウチャー購入によるクラウド環境確保
大関先生は2020年4月に前任校から東京大学に移り、新しく研究室を立ち上げました。自然言語処理の研究室として計算環境を整えるため、オンプレミスのワークステーションを用意すると同時に、クラウドの利用も視野に入れ、並行して調整を重ねてこられました。
「僕は研究手法として計算論的な方法論を取っているのですが、言語情報科学専攻はいわゆる“文系”の専攻に分類されているんですね。そうすると、教員のオフィスがあるだけで、ワークステーションを置くような物理的なスペースが本当に無いんです。最近ようやく小さい部屋を借りることができたのですが、そこは基本的に学生の研究スペースですし、ワークステーションは電源工事が1ヶ月前くらいに終わったばかりで、まだ整っていません。なので、現状としてはクラウドに頼っている状況です」(大関先生)
クラウドベースの計算環境の導入と支払い方法について生協に相談したところ、バウチャーによる支払い方法について案内がありました。通常は後払いとなるAWSの利用権をバウチャーとして事前に購入しておけば、その範囲内でユーザは自由に利用できます。
「どんな研究もそうだと思うんですが、どのようなプロセスで進むのか、どのくらい計算資源を利用するのか、事前に想定しきれないところがあります。従量課金による予算申請となると、かなり事務処理が煩雑になってしまいます。ある程度の利用量分をまとめて買っておけば、細かくモニタリングしなくても済むバウチャーでの運用は、非常に助かるなと思いました」(大関先生)
計算資源の有効期間の長さ、セキュリティ設定サポートなどがクラスメソッド選択の決め手に
バウチャー購入に際しては生協での取り扱いがある3社を比較し、2022年3月にクラスメソッドのバウチャーを選定。4月から利用を開始しました。決め手のひとつは、有効期限の長さです。クラスメソッドのバウチャー有効期限は1年間となっており、予算に余裕がある時に計算資源を確保しておき、なるべく融通の効いた運用がしたい、という研究室の希望にマッチしました。バウチャーを追加購入すると、有効期限がさらに1年間延長されるというサービスも提供されています。
「他にも、検討段階の打ち合わせ時に『自然言語処理で利用します』と伝えたところ、自然言語処理に知見のあるエンジニアもいますよと言っていただいて、何か専門分野に踏み込んだ質問をしても答えてくれるんじゃないかという期待もあり、クラスメソッドさんに決めました。また最上位のAWSパートナーである『プレミアティアサービスパートナー』として、言わば“AWSお墨付き”であることは、安心材料として大きかったです」(大関先生)
「学生メンターとしては、基本的な設定やセキュリティに関するところをクラスメソッドさんに確認できるのが、とても助かっています。研究室で利用するとなると、安全性をきちんと調べなければ不安になりますが、調べる手間が省けてセットアップに時間を取られすぎずに済むのはありがたいですね。テクニカルな質問をしても答えていただけるだろうという安心感もあって、“最後の砦”というような意識があります」(原田さん)
必要なインスタンスを、必要な時間、必要なタイミングで利用できるというメリット
大関研究室に所属する教養学部4年生の山下さんは、「早押しクイズにおける予測処理」というテーマで、機械の言語処理と人間の言語処理について卒業研究を行っています。2022年8月開催の「NLP若手の会第17回シンポジウム(YANS2022)」では、研究の新規性や発展性が期待され、奨励賞を受賞しています。この研究ではAWSを計算資源として活用しています。
「早押しクイズの解答者って『日本で1番高い山は富士山ですが……』あたりまで聞いたら、次に続く問題を予測して、その予測した問題に対しての回答を答えたりしますよね。あれは結構すごいことなんです。今の自然言語処理でできるのは基本的に次の単語の予測程度で、文の続き全体の予測というのはできません。人間がどうやって文の続きの予測をしているのか、機械でそれを実現するためにはどうすればいいのか、そのギャップを埋めるという面白いアイディアです」(大関先生)
山下さんの研究では、rinna株式会社が提供するオープンソースの日本語言語モデル「GPT-2」を利用しています。サイズが異なるモデルが公開されていますが、山下さんはこのうち「GPT2-medium」を“早押しクイズ”のデータにてファインチューニングしています。個人として所有するPCのスペックでは、このモデルを使った計算をすることが出来ず、クラウド資源の利用を検討することになりました。今はメモリ23~24GBで、Amazon EC2 G4インスタンスを8xlargeというサイズで利用しています。
「早押しクイズのデータは、1問につき50文字程度です。これを約2万問用意して、Wikipediaの記事を参考に答えを出す処理をしています。言語モデルを動かすためにEC2インスタンスを立ち上げ、計算結果をGitHubや手元のデータとリンクさせ、終わったらすぐ畳む、という使い方です。自分のデータセットはそんなに重くないので、モデルのファインチューニングは数分で終わります。最近はようやくAWSにも慣れてきて、入力するデータを変えてみたり、ファインチューニングする際のデータも別のものを使って再学習したりといろんな条件で回し始めています」(山下さん)
「研究にどのくらいの計算資源を必要とするかは、事前に把握するのが難しい場合もあります。週に何日動かすか、実験結果を踏まえてその後どうするかということも含めて、先が見通せないんですね。山下くんも、これまではGPT2-mediumのモデルを利用していましたが、より大規模なモデルの利用が必要だということが分かってきました。今のインスタンスより、さらに大きなものが必要になるのですが、申請さえすればすぐに希望のスペックでインスタンスが立てられるというのは、すごくありがたいことだと思います」(原田さん)
物理的制約に縛られないクラウド環境が時代の主流に
最後に、大関先生と原田さんには、これまで計算環境の確保に悩んできた研究者ならではの、クラウド利用のメリットを語っていただきました。
「以前所属していた研究室にはオンプレミスのサーバーリソースが確保されていて、いつでも気軽に利用できました。一方で、研究室メンバーの学会発表が立て込む時期には、サーバーを使って実験をしたいために『サーバーの椅子取りゲーム』が発生してしまうという問題もありました。AWSはインスタンスを立ち上げて畳むところまで、多少の手間が必要ではありますが、他のメンバーに気兼ねなく好きなサイズの環境をすぐに利用できるのは大きなメリットだと感じます」(原田さん)
「僕が院生の頃は、研究室のマシンにジョブをいくつか設定して、翌朝、結果を確認するような感じでした。1人に一台、パワフルなワークステーションが与えられていました。でも、今の学生の様子を見てると、手元の環境は1年生の時買ったPCだけだったりして、クラウド上の環境が整っていれば研究できてしまいます。これから新しく立ち上がる研究室であれば、物理サーバーが一切ない研究室が出てくるかもしれないですね」(大関先生)
クラスメソッドは生協でのバウチャー利用者の方々からの導入時サポートを求める声に応え、2022年11月から新しいサービスをスタートしました。AWSのチュートリアルに加え、実際の研究内容をヒアリングの上、利用に適した設定のサポートもさせていただきます。クラスメソッドはこれからも、大学生協様と共に、アカデミアで活躍する皆様の研究環境をクラウド技術でサポートしてまいります。