音声認識

それは・・

人間が話した“音声”をテキストに変換する技術

1 音声がデータ化される?

人が話す音声をコンピュータが理解することができたら、人の叶えたいことや想いをコンピュータに叶えてもらうことが可能になるかもしれません。しかし人はどんなに大切な内容や会話でも、一字一句記憶しておくことはできず、人の言語とコンピュータ言語は違うため、音声をテキストに変換する必要がありました。そこで、音声認識の技術が生み出されたのです。

音声認識は、音声が発する空気の振動を読み取って波形データに変換します。
例えば、「いまなんじ?」という音声があったとしたら、波形データは1つひとつの音として認識され、「い・ま・な・ん・じ」という文字データに変換します。
その後、それぞれの音の並びを分析し単語に変換され「今何時?」という1つの文としてコンピュータに認識されるのです。

日本語は文字構造が複雑なため、コンピューターが認識する難易度が高かったのですが、近年「深層学習(ディープラーニング)」を用いることで、音声認識技術の精度が飛躍的に向上しました。
その結果、スマートスピーカーにより今日の天気を検索したり、連携しているエアコンのスイッチを入れることを可能にしたり、スマートフォンの音声アシスト、議事録の自動作成、コールセンターの問い合わせ業務の一部自動化など多様なシーンで使われるようになり、日常生活や、業務の効率化につながるようになりました。

2 音声認識は感情も
読み取れるようになる?

音声認識技術には、課題もあります。
音声認識モデルの多くが標準語で作られているため、方言やスラングなどを使用すると本来の意味と聞き分けてテキスト化することが難しく認識精度が下がってしまうのです。
また人間が日常会話で行うような意訳的な文章を理解することができないという課題があります。

例えば、料理をしている最中に「火に気をつけてね」というと「火傷しないように気をつけてね」という意味が含まれていると人間は理解できますが、コンピュータはそのニュアンスを汲み取ることができません。現在このようなケースで正確な回答を得るためには、人間側が説明して内容を補ってあげる必要があります。

しかし今後は、「深層学習(ディープラーニング)」により人間の会話のデータを今まで以上に蓄積しコンピュータの処理能力をあげていくことで、人間が細かく補完せずとも言葉のニュアンスを汲み取ることができ、人間が言おうとしている内容を「先読み」できるようになるかもしれません。
また声で感情を判別する技術が発達することで、ひとつの音声から感情を組み込んだ情報を汲み取ることができる可能性もあります。

「深層学習」と「声で感情を判別する技術」が発達し、音声認識の技術と組み合わさることにより、コンピュータとより深い会話ができ、状況に応じた最適な提案を受けることができるような未来も来るかもしれませんね。

POINT!

AIが人間のように
「先読みするちから」を
身につける日が
近いのかもしれないね。