おたくま経済新聞

ネットでの話題を中心に、商品レビューや独自コラム、取材記事など幅広く配信中!

音声認識API「AmiVoice API」にEnd to End採用の次世代音声認識エンジン搭載で、認識精度が向上

update:
   
株式会社アドバンスト・メディア
複数言語を認識できる多言語対応エンジンも追加



株式会社アドバンスト・メディア(本社:東京都豊島区、代表取締役会長兼社長:鈴木清幸 以下、アドバンスト・メディア)は、開発者向けボイステックプラットフォーム「AmiVoice Cloud Platform(アミボイス クラウド プラットフォーム)」にて提供している、国内シェアNo.1(※)のAI音声認識AmiVoiceを活用した音声認識API「AmiVoice API(アミボイス エーピーアイ)」に、End to Endを採用した次世代音声認識エンジンを搭載し、3月26日(水)よりリリースします。

[画像1: https://prcdn.freetls.fastly.net/release_image/20223/610/20223-610-faed215b784f5e3fbc4529c6fa343704-960x540.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]



この度、当社ユーザーによる日本語版のEnd to Endを採用した次世代音声認識エンジンのトライアル利用において、従来のエンジンを上回る音声認識精度が高く評価され、「AmiVoice API」への正式搭載が決定しました。さらに、複数言語の話者がいる会議において、それぞれの言語を正確に音声認識しテキスト化を行いたいという要望を受け、次世代音声認識エンジンを活用した多言語対応エンジンの提供も同時に開始します。

「AmiVoice API」に新たに搭載するEnd to Endを採用した次世代音声認識エンジンは、日本語・中国語・多言語(日・英・中を単一エンジンで認識)の3つの汎用向け音声認識エンジンに対応し、それぞれリアルタイム認識・バッチ認識(音声ファイル認識)でご利用いただけます。
多言語対応エンジンは、言語ごとの音声認識エンジンの切り替えが不要で、日本語・英語・中国語の3つの言語を単一エンジンで認識し、それぞれ適切な言語でテキスト化することが可能です。これにより、国際会議など複数言語の話者が参加する会議においても、スムーズな音声認識を実現します。

End-to-Endは、音声認識エンジンの仕組みの一種です。「言語モデル」「音響モデル」「発音辞書」を活用して音声認識をする従来のハイブリッド型エンジンと比較すると、単一のニューラルネットワークで音声認識を行うシンプルな構造です。AIが最適な手法を選定し、一貫してEnd-to-Endモデル内で音声認識を行うため、認識精度の向上や処理速度の高速化が期待されています。
今後は、「AmiVoice Cloud Platform」にて提供している音声認識APIサービス「AmiVoice API Private」と音声認識開発キット 「AmiVoice SDK」も、End to Endを採用した次世代エンジンに対応していく予定です。


アドバンスト・メディアでは、引き続き音声認識技術の進化を追求し、さまざまな業界・用途でご利用いただける音声認識エンジンの開発・提供をしてまいります。


End to Endを採用した次世代音声認識エンジン特長

1.従来型を上回る高い認識精度を実現!日本語・中国語・多言語(日英中)の3つのエンジンを提供
End-to-Endを採用した次世代音声認識エンジンの搭載により、従来のハイブリット型エンジンを上回る高い音声認識精度を実現。日本語・中国語・多言語(日・英・中を単一エンジンで認識)の3つの汎用向け音声認識エンジンに対応し、それぞれリアルタイム認識・バッチ認識(音声ファイル認識)でご利用いただけます。

End to Endを採用した次世代音声認識エンジンに対応のエンジン一覧
[表1: https://prtimes.jp/data/corp/20223/table/610_1_1ce698c2c1e610860baac98ac86251d5.jpg ]

2.多言語対応エンジンにより、複数言語の話者がいる会議にも対応
言語ごとの音声認識エンジンの切り替えが不要で、日本語・英語・中国語の3つの言語を単一エンジンで認識し、それぞれ適切な言語でテキスト化することが可能です。国際会議や多言語環境での利用に最適です。

音声認識API「AmiVoice API」

「AmiVoice API」は、国内シェアNo.1(※)のAI音声認識AmiVoiceを展開するアドバンスト・メディアが、「AmiVoice Cloud Platform(音声関連技術を提供する開発者向けボイステックプラットフォーム)」で提供しているAI音声認識APIサービスです。API連携したシステムに、発話のテキスト化といった音声認識機能が実装できます。高い認識率を活かしたリアルタイムでの書き起こしや、単語登録による固有名詞・社内用語の認識、「えっと」「そのー」「あのー」などの言い淀み(フィラー)の自動削除など多数の機能を備えています。
[画像2: https://prcdn.freetls.fastly.net/release_image/20223/610/20223-610-dfe7a6d2fbeb68c7b10fe8b223fe8634-960x340.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]


AmiVoice Cloud Platform
[表2: https://prtimes.jp/data/corp/20223/table/610_2_820eba6722cdb32df739ec4f8ae061d9.jpg ]


※ 出典:合同会社ecarlate「音声認識市場動向2024」音声認識ソフトウェア/クラウドサービス市場


【本件のお問い合わせ】
株式会社アドバンスト・メディア
PF D&O部
MAIL:info@advanced-media.co.jp
https://www.advanced-media.co.jp/

最近の企業リリース

トピックス

  1. 「通知バッジ」に偽装した広告

    「通知バッジ」に偽装、巧妙化するサポート詐欺の新手口とは?

    何気なく広告をクリックすると、大音量とともに突然現れるエラー画面。これは詐欺広告を入り口にした「サポ…
  2. パスワード何だっけ!?iPhoneに入力したWi-Fiパスワードを再確認する方法

    パスワード何だっけ!?iPhoneに入力したWi-Fiパスワードを再確認する方法

    いつぞや入力したWi-Fiのパスワードも、1回入力したら覚えておくことはあまりないですよね。ただ、別…
  3. ネコ型配膳ロボットのおもちゃをデコトラ風に改造 「演歌流れてそう」の声

    ネコ型配膳ロボットのおもちゃをデコトラ風に改造 「演歌流れてそう」の声

    ネコ型配膳ロボットといえば、愛嬌たっぷりな見た目が特徴的。これをなんとデコトラ風に改造してみせたのは…

編集部おすすめ

  1. ジュラシックなフタ押さえ!モササウルスが割り箸をくわえてカップ麺をガード
    約7000万年前に海の食物連鎖の頂点に君臨したとされる肉食の爬虫類、モササウルス。巨大な口を持ち、獲…
  2. 「リズム天国」「トモコレ」完全新作発表にザワつくSNS「ありがとうしかない」
    3月27日に配信された「ニンテンドーダイレクト」にて、シリーズ完全新作となる「リズム天国 ミラクルス…
  3. NTTドコモ「Coltテクノロジーサービス株式会社に対する過払い接続料の返還請求訴訟の提起について」(2025年3月24日発表)
    NTTドコモは3月24日、音声相互接続事業者のColtテクノロジーサービス(コルト)に対し、過払いと…
  4. 南港ストリートピアノのXアカウント
    大阪市住之江区の大型商業施設「ATCシーサイドテラス」に設置されている「南港ストリートピアノ」をめぐ…
  5. マルハニチロ、社名を「Umios」に変更
    マルハニチロ株式会社は、2026年3月1日付けで社名を「Umios(ウミオス)株式会社」へ変更するこ…

【特集】STOP!ネット詐欺!

  1. さまざまなネット詐欺に潜入調査!

    さまざまなネット詐欺に潜入調査!

     インターネット上にまん延する、さまざまな詐欺サイトに「わざと」引っかかる潜入調査記事をまとめました。
ネット詐欺へ潜入調査!記事特集

提携メディア

ページ上部へ戻る