背景
ビッグデータの時代を迎え、データサイエンティストの育成が求められています。データサイエンティストは、統計学・機械学習などの理論的素養だけではなく、数百台にものぼるコンピュータを用いた大規模分散並列処理をこなせるだけのプログラミング・スキルが必要となります。文部科学省委託事業「スキルと実践を重視したビッグデータ・イノベーション人材育成プログラム」の一環として、データサイエンティストのための大規模分散並列プログラミング教育を行っています。
目的
大規模分散並列プログラミングのためのスキルを身につけるためには、分散並列アルゴリズムの理解といった座学だけでは不十分です。実際に数十台ものコンピュータを用いてデータ処理を行ってみることが大切です。Amazon EC2では多数のインスタンスを安価に利用することができるため、Amazon EC2上のElastic MapReduce (EMR)を用いて実際に大規模分散並列処理を行います。
実績
40名程度の学生を対象にAmazon EMRを使ったプログラム演習を行いました。