ここから本文

ニュースリリース

テキスト版

掲載のデータは発表当時のものです。価格・仕様について変更する場合もございます。

2019年2月13日
開発No.1919

世界で初めて、不特定多数のユーザーが何語を話すか分からない状況での音声認識に対応

「シームレス音声認識技術」を開発

印刷用ページへ

 三菱電機株式会社は、当社AI技術「Maisart®(マイサート)※1」を用いて、世界で初めて※2不特定多数のユーザーが何語を話すか分からない状況でも高精度な音声認識を実現する「シームレス音声認識技術」を開発しました。多言語の音声認識を1つのシステムで構築することで、事前の言語設定なしに、5言語で90%以上※3、10言語でも80%以上※3の高い音声認識率を達成しました。

  • ※1Mitsubishi Electric's AI creates the State-of-the-ART in technologyの略。Maisart
    全ての機器をより賢くすることを目指した当社のAI技術ブランド
  • ※22019年2月13日現在、当社調べ
  • ※3ノイズが少ない録音環境におけるシミュレーション値
AI技術による「シームレス音声認識技術」のイメージ

AI技術による「シームレス音声認識技術」のイメージ

開発の特長

  • 独自のEnd-to-End深層学習方式により、多言語対応の高精度な音声認識を実現
  • 入出力のサンプルだけで学習できるEnd-to-End深層学習方式※4の採用により、言語特有の専門知識(音素記号や発音辞書)がなくても、発話の言語と内容の同時認識に成功
  • End-to-End深層学習方式に、独自の「ハイブリッド CTC/アテンション法」※5と多言語同時学習を採用することで、音声認識精度を向上
  • 事前に言語設定することなく、シームレスに多言語の音声認識を実現
  • 複数の話者が同時に話し、音声が重なる状況にも対応

  • ※4入力から出力まで様々な処理を行う複数のモジュールを一つの大きなニューラルネットワークに置き換えて学習を行うもの
  • ※52つの代表的な従来方式である、音声区間と文字列の時間的な対応関係を正確に推定するCTC
    Connectionist Temporal Classification)法と、文字列の音や文章のつながりを考慮するアテンション法の双方の利点を活かし、欠点を補うように組み合わせた独自の方法

開発の概要

音声認識率結果
  5言語(日英仏独伊)の場合 10言語の場合
今回(事前言語設定なし) 90%以上 80%以上
従来(事前言語設定あり)※6 87% 72%
  • ※6言語ごとに音声認識システムを構築・学習し、話される言語が予め分かっている場合

今後の展開

 今後、自動車内の会話や、施設案内などのさまざまな状況において、話す言語を意識することなく自由に話せる利便性の高い音声インターフェースの実現を目指して、さらに開発を進めます。

開発担当研究所

Mitsubishi Electric Research Laboratories
201 Broadway, 8th Floor, Cambridge, MA 02139-1955 U. S. A
FAX +1-617-621-7550
http://www.merl.com/

三菱電機株式会社 情報技術総合研究所
〒247-8501 神奈川県鎌倉市大船五丁目1番1号
FAX 0467-41-2142
http://www.MitsubishiElectric.co.jp/corporate/randd/inquiry/index_it.html

PDF形式のデータをご覧いただくには、アドビシステムズ社のAcrobat Reader(無料配布)が必要です。導入されていない方は左のアイコンをクリックして、Adobe Systemsのホームページからダウンロードしてください。なお、ダウンロード及びインストールに関するお問い合わせは、アドビシステムズまでお願いいたします。