音声認識API「AmiVoice API」にEnd to End採用の次世代音声認識エンジン搭載で、認識精度が向上

複数言語を認識できる多言語対応エンジンも追加

株式会社アドバンスト・メディア（本社：東京都豊島区、代表取締役会長兼社長：鈴木清幸以下、アドバンスト・メディア）は、開発者向けボイステックプラットフォーム「AmiVoice Cloud Platform（アミボイスクラウドプラットフォーム）」にて提供している、国内シェアNo.1（※）のAI音声認識AmiVoiceを活用した音声認識API「AmiVoice API（アミボイスエーピーアイ）」に、End to Endを採用した次世代音声認識エンジンを搭載し、3月26日（水）よりリリースします。

[画像1: https://prcdn.freetls.fastly.net/release_image/20223/610/20223-610-faed215b784f5e3fbc4529c6fa343704-960x540.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]

この度、当社ユーザーによる日本語版のEnd to Endを採用した次世代音声認識エンジンのトライアル利用において、従来のエンジンを上回る音声認識精度が高く評価され、「AmiVoice API」への正式搭載が決定しました。さらに、複数言語の話者がいる会議において、それぞれの言語を正確に音声認識しテキスト化を行いたいという要望を受け、次世代音声認識エンジンを活用した多言語対応エンジンの提供も同時に開始します。

「AmiVoice API」に新たに搭載するEnd to Endを採用した次世代音声認識エンジンは、日本語・中国語・多言語（日・英・中を単一エンジンで認識）の３つの汎用向け音声認識エンジンに対応し、それぞれリアルタイム認識・バッチ認識（音声ファイル認識）でご利用いただけます。
多言語対応エンジンは、言語ごとの音声認識エンジンの切り替えが不要で、日本語・英語・中国語の３つの言語を単一エンジンで認識し、それぞれ適切な言語でテキスト化することが可能です。これにより、国際会議など複数言語の話者が参加する会議においても、スムーズな音声認識を実現します。

End-to-Endは、音声認識エンジンの仕組みの一種です。「言語モデル」「音響モデル」「発音辞書」を活用して音声認識をする従来のハイブリッド型エンジンと比較すると、単一のニューラルネットワークで音声認識を行うシンプルな構造です。AIが最適な手法を選定し、一貫してEnd-to-Endモデル内で音声認識を行うため、認識精度の向上や処理速度の高速化が期待されています。
今後は、「AmiVoice Cloud Platform」にて提供している音声認識APIサービス「AmiVoice API Private」と音声認識開発キット「AmiVoice SDK」も、End to Endを採用した次世代エンジンに対応していく予定です。

アドバンスト・メディアでは、引き続き音声認識技術の進化を追求し、さまざまな業界・用途でご利用いただける音声認識エンジンの開発・提供をしてまいります。

End to Endを採用した次世代音声認識エンジン特長

1.従来型を上回る高い認識精度を実現！日本語・中国語・多言語（日英中）の３つのエンジンを提供
End-to-Endを採用した次世代音声認識エンジンの搭載により、従来のハイブリット型エンジンを上回る高い音声認識精度を実現。日本語・中国語・多言語（日・英・中を単一エンジンで認識）の３つの汎用向け音声認識エンジンに対応し、それぞれリアルタイム認識・バッチ認識（音声ファイル認識）でご利用いただけます。

End to Endを採用した次世代音声認識エンジンに対応のエンジン一覧
[表1: https://prtimes.jp/data/corp/20223/table/610_1_1ce698c2c1e610860baac98ac86251d5.jpg ]

2.多言語対応エンジンにより、複数言語の話者がいる会議にも対応
言語ごとの音声認識エンジンの切り替えが不要で、日本語・英語・中国語の３つの言語を単一エンジンで認識し、それぞれ適切な言語でテキスト化することが可能です。国際会議や多言語環境での利用に最適です。

音声認識API「AmiVoice API」

「AmiVoice API」は、国内シェアNo.1（※）のAI音声認識AmiVoiceを展開するアドバンスト・メディアが、「AmiVoice Cloud Platform（音声関連技術を提供する開発者向けボイステックプラットフォーム）」で提供しているAI音声認識APIサービスです。API連携したシステムに、発話のテキスト化といった音声認識機能が実装できます。高い認識率を活かしたリアルタイムでの書き起こしや、単語登録による固有名詞・社内用語の認識、「えっと」「そのー」「あのー」などの言い淀み（フィラー）の自動削除など多数の機能を備えています。
[画像2: https://prcdn.freetls.fastly.net/release_image/20223/610/20223-610-dfe7a6d2fbeb68c7b10fe8b223fe8634-960x340.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]

AmiVoice Cloud Platform
[表2: https://prtimes.jp/data/corp/20223/table/610_2_820eba6722cdb32df739ec4f8ae061d9.jpg ]

※ 出典：合同会社ecarlate「音声認識市場動向2024」音声認識ソフトウェア/クラウドサービス市場

【本件のお問い合わせ】
株式会社アドバンスト・メディア
PF D＆O部
MAIL：info@advanced-media.co.jp
https://www.advanced-media.co.jp/

元記事URL：https://prtimes.jp/main/html/rd/p/000000610.000020223.html
配信元： PR TIMES　提供：株式会社アドバンスト・メディア

おたくま経済新聞

音声認識API「AmiVoice API」にEnd to End採用の次世代音声認識エンジン搭載で、認識精度が向上

最近の企業リリース

＜News＞レトロゲーム配信サービス『プロジェクトEGG』にて2025年4月1日に『超戦士ザイダー・バトルオブペガス（MSX版）』を無料配信開始

ｋｈｂ東日本放送開局５０周年期間スタート！特設サイト／記念ムービー公開

はてなのサーバー監視サービス「Mackerel」がAPM機能をベータリリース

ピンクグレープフルーツ風味の新作！モンスターウルトラファンタジールビーレッドが4月1日より新発売！4月5日渋谷ストリームにて一日限りの発売記念イベントを開催！JP THE WAVYが会場を湧かす！

次世代型Web3ウォレット「GET Wallet」を正式リリース！～Cardano・Ethereum対応、エンタメ特化の新たな経済圏を創出～

ロケットモバイル、Rプラン事務手数料無料キャンペーンを開催！

日本通信ネットワーク、コーポレートサイトをリニューアル

ウインドリバーとEncora、NVIDIA AI Enterpriseを使用したミッションクリティカルなオペレーション向けのAIベース自動化ソリューションを発表

【高画質・広視野角IPSパネル×180Hz対応】スタンダードゲーミングモニター「ACR-GM24FDQ」、2025年4月上旬よりドン・キホーテ系列店舗限定で順次発売

MSI、最新のIntel(R) Core(TM)Ultra プロセッサー（シリーズ2）対応のZ890チップセット搭載マザーボード「MEG Z890 GODLIKE」を発売

トピックス

飼い主の帰宅、なぜわかる？猫の“予知力”をヤマトが調査

大分「トキハ」にサイバー攻撃、トキハインダストリーは全店臨時休業

「gooニュース」27年の歴史に幕　6月18日をもって終了

編集部おすすめ

「LOVE 9 LOVE」殺害予告で被害届　直近のイベント出演辞退

東京・賛育会病院、内密出産・赤ちゃんポストを開始　「赤ちゃんのいのちを守る最後の砦」

東京都、武力攻撃時の緊急一時避難施設を拡充　地下駅舎含む208か所を新指定

USJ、フリーWi-Fi「Universal Free Wi-Fi」の提供を開始

歌人・俵万智、手作り桜あんぱんに感動「５７５７７」の秘密も明かす

【特集】STOP！ネット詐欺！

さまざまなネット詐欺に潜入調査！

提携メディア

企業速報