業務用カラオケ「DAM」の開発・運用を手がける株式会社第一興商。同社は営業担当者からカラオケ機器に関する問い合わせを受け付けるヘルプデスク業務の効率化に向けて、Amazon Transcribeによる録音データの文字起こしと生成AIサービスであるAmazon Bedrockによる通話内容の要約を検証し、作業負荷の大幅な軽減が期待できることを確認しました。そこでクラスメソッドの技術支援を受け、文字起こしから要約、結果の保存までの一連の工程を自動化するAPIを開発し、実業務での利用を開始しています。API開発のプロジェクトについて、担当の髙谷さんと大城さんにお話をうかがいました。
1日平均300件の問い合わせ対応の記録の効率化と平準化が課題
カラオケのリーディングカンパニーとして、歌って楽しい「音」と「映像」を全国のカラオケユーザーに届ける第一興商。「DAM」シリーズとして、声で操作する「Aiアシスタント機能」やAIが歌のテクニックを評価する「精密採点Ai」を搭載した「LIVE DAM AiR」と「LIVE DAM Ai」、ナイトマーケット向けにきらびやかな彩りを加えた「Cyber DAM+」、高齢者施設向けの「FREE DAM LIFE」など、幅広い製品を揃えています。2025年4月18日にはDAMの新たなフラッグシップモデル「LIVE DAM WAO!」がラインナップに加わり受電数が見込まれます。
同社では、カラオケボックスや飲食店、バー・スナック、ホテル、高齢者施設などから寄せられるカラオケ機器の不具合や設定などに関する問い合わせに対応するため、同社の営業担当者および代理店向けのヘルプデスクを設置しています。ヘルプデスクは、17名体制で10時から22時まで電話を受け付け、1日平均300件の問い合わせに対応しています。

「オペレーターは10年以上のベテランから新人まで幅広く、新人も一人前になるのに2年はかかります。対応力も人によって異なり、1日40件近く対応する人もいれば10件の人もいる。記録の仕方も要点のポイントを簡潔にまとめる人、会話の内容を細かく記録する人、ストーリー仕立てで記録する人などさまざまです。こうした中で、記録の効率化と記録内容の平準化は大きな課題となっていました」(髙谷さん)
文字起こしから要約内容をファイル保存するまでのステップをAPIで自動化
ヘルプデスクにおける記録作業の効率化と平準化に向けて同社は、録音データの文字起こしと記録内容の要約の自動化を検討。AWSを活用した検証を2023年11月に約3週間かけて実施しました。
具体的にはPBX(電話交換機)で録音したヘルプデスクの音声データをAmazon S3上にアップロードし、Transcribeで文字起こしをしてBedrockで通話内容を要約する流れです。要約された内容は、ヘルプデスクのオペレーターが手作業で入力した内容と比較して修正が不要、または少しの修正で済むものを「合格」と判定しました。

「クラスメソッドには以前から、第一興商におけるさまざまなAWSの開発・運用案件で支援をいただいてきた実績があります。社内でも『AWSならクラスメソッドに相談』という流れがありましたので、今回もお願いすることにしました」(大城さん)
リアルタイムに近い形での文字起こしとオペレーター別の処理の分岐がポイント
プロジェクトは仕様確認/準備、プロトタイプ開発、検証の3つのフェーズに分け、2024年6月末から7月末にかけて実施しました。実装自体は約2週間で終えており、その後のQA対応を含めて1カ月間の短期開発を実現しています。
アーキテクチャはAWS Lambdaを中心としたサーバーレスで構築し、Amazon SNSでエラー検知を実装しています。Bedrockの大規模言語モデルは、検証時のClaude 2から最新のClaude 3.5 Sonnetに切り替えて大幅に精度を向上させています。
今回のAPI開発で同社が重視したのが、リアルタイムに近い形で音声を処理して少ない遅延で文字起こしと要約を終えることと、ベテランオペレーターと新人オペレーターの処理を分岐することの2点でした。
「オペレーターが電話を受けてからできるだけ早く要約結果を出したいとクラスメソッドに相談し、会話終了から5分以内にすべての工程が完結できるようにしました。新人オペレーターとベテランオペレーターの要約の切り分けは受電時の内線番号で判断し、新人用の内線番号で録音した音声の要約は後から見直しても対応内容が詳しくわかるように、ベテラン用の電話番号で録音した音声の要約は概要程度が把握できるようにと2つのパターンとしました。基本的にはヘルプデスクの担当者の意見を聞き、どういった仕様がベストかをクラスメソッドと意見交換しながら開発を進めていきました」(大城さん)
1カ月間にわたるクラスメソッドとのプロジェクトについて大城さんは「迅速な対応に助かった」と感想を述べています。
「私自身、AWSによる開発は初心者で、クラスメソッドの担当者にはいろいろと質問することがありました。その中でも速やかに、わかりやすい回答をいただき、ヘルプデスクの業務に支障を与えることなく開発を終えることができました。個人的にはAPI開発の期間中、ヘルプデスクの担当者に開発や運用の件でヒアリングする機会が多くありました。結果として業務のことを深く知り、オペレーターの方々が大変な仕事に携わっていることを実感することができました」(大城さん)
録音データの約90%を「合格レベル」で要約し、オペレーターの作業負荷を軽減
APIの開発を終えた現在、文字起こしと要約の自動化機能はオペレーターの中で徐々に浸透し始めています。要約内容の合格率は、検証時と同じ約90%と横ばいではあるもの、作業負荷の軽減においては期待以上の効果が現れています。
「問合せの電話は、機器が設置してあるカラオケボックスや営業中の飲食店の現場からかかってくることが多く、電話の音質自体もよくありません。機器の型番など専門用語も多いこともあり、文字起こし自体の精度に限界があります。その中で90%の合格率は非常に優秀です。後から要約内容の修正が必要としても、担当者がゼロから音声データを聞いて記録していた以前と比べるとはるかに効率的で助かっています」(髙谷さん)
特に同社の場合、ベテランのオペレーターは自身で電話に対応しながら、新人オペレーターのログをチェックしているため、ベテランが担当した問い合わせ内容の記録は後回しになってしまう傾向があります。自動で要約ができればベテランの負担が軽減できるだめ、忙しい時ほどその恩恵は大きいといいます。一方の新人オペレーターも不慣れなために対応時間が長くなる傾向にあるものの、文字起こしのテキストを確認することで自分の対応を後から確認できます。
「これまでベテランのSVが新人オペレーターの録音内容を聞いていたのが、現在はテキストを確認するだけで済むのでベテラン担当者の時間短縮になっています。新人オペレーターにとっても自分の対応を振り返ることで、一人前になるための期間が短縮できるのではないかと期待しています」(髙谷さん)
リアルタイムによる文字起こしにより業務のさらなる効率化へ
今後については、文字起こしと要約の機能をより多くのオペレーターに使ってもらうことを目指しています。要約までのリードタイム短縮も継続課題で、対応が終わった後に音声ファイルをAmazon S3にアップロードしている現在の状況を、電話を受けた瞬間からライブで文字起こしを開始してテキスト表示するリアルタイム化に向けて、クラスメソッドに対応策を相談しているところです。その他にもオペレーターと営業担当者の音声を区別する話者分離、FAQシステムとの統合などにより業務の効率化を図っていく予定です。

コールセンター業務以外でも、社内全体における会議の議事録の自動作成、他部門におけるカラオケのテロップ作成、楽曲情報の自動収集などにAIや生成AIを活用し、関連部門の負担軽減に貢献していくことを構想しています。
「今回のプロジェクトをきっかけに、社内の多くの人にAIや生成AIの可能性を知っていただき、業務に積極的に取り込んでもらいたいと思っています。クラスメソッドには今後もAI全般にわたる支援を期待しています」(大城さん)
クラスメソッドは最新の情報提供を通して、幅広い音楽の普及に取り組む第一興商のAI活用を支えていきます。