広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用 工学部2号館10階 hirose@gavo.t.u-tokyo.ac.jp http://www.gavo.t.u-tokyo.ac.jp/ 広瀬啓吉 研究室 広瀬研究室では、音声による機械と人間の対話に焦点を当てて、音声情報処理に関する研究を峯松研究室と共同で進めています。特に、音声言語の顕著な特徴である韻律に着目した研究を数多く行なっています。 4.音声認識における適応手法の開発 音声認識は統計的な音響モデルと言語モデルを用いることによって飛躍的な進歩を遂げ、研究室内などの整った条件下では高い認識率が達成されています。しかしながら、これを実際に利用しようとすると、周囲雑音、発生条件の違い、未知語彙などによって認識率の大きな低下が問題となります。ここでは、このような問題に対処する適応手法を、音響モデル、言語モデルの双方について開発しています。 1.劣条件下での複数音源分離 複数音源を、音源数に満たないマイクロフォンで受け、それを分離する技術は、音声認識をはじめ、音楽情景分析など種々の分野で重要となっています。事前に音源の特徴が分からない場合は、特に困難な課題となっていますが、その有用性は大きいものがあります。ここでは、研究室で開発している周波数と時間軸での連続性に着目した手法を発展させています。音声認識への利用も視野に入れて研究を進めています。 5.音声認識のための韻律的特徴の利用 音声認識の問題点として、音声の韻律が充分に利用されていないことが挙げられます。音声言語という観点から、発話の構造を表現する韻律の利用について考察しています。具体的には、文節やアクセント句の境界を考慮した新しいモデル化を行ない、音声認識に適用します。この他、韻律を音声認識に利用する方策を研究しています。例えば、自発発話におけるフィラーや言い直しの検出、等が考えられます。なお、興味があれば、中国語声調の認識の研究も可能です。 えーと、 あのー 考え中なんだな この人・・・ 2.高品質音声の合成 表層文章から高品質音声を合成する手法を開発しています。音声の特徴は、個々の音の特徴と全体の抑揚とに大別されますが、個々の音が聞きやすく、自然な韻律を有する高品質音声を合成するためには、両者の品質向上が必要です。前者については、HMM合成方式等を中心に研究を行ない、後者については、構文や焦点との関係に着目した研究を行なっています。朗読調のみならず対話調など種々の音声の合成についても研究しています。なお、興味があれば、中国語音声合成についての研究も可能です。 6.音声対話システムの高度化 ユーザにとって聞きやすく理解しやすい応答音声を生成することの可能な音声対話システムを開発しています。このために、言いたい内容を文書化して音声化するいわゆる概念音声合成を実現しています。すでに、道案内システムをはじめ幾つかのシステムを開発していて、それを参考に研究を進めています。また、ユーザの状況・状態を音声から自動的に検出する技術の開発を進めています。この成果をもとに、ユーザに対応した対話システムの構築を検討します。 Speech Output Language Processing 音声認識 Speech Synthesizer TEXT Prosody Prediction 音声合成 Speech Library Lexicon/Rule Text Analysis Speech Synthesis 7.音声分析・認識を利用した外国語習得 システム 3.音声における意図・感情の合成・認識 現在の外国語の習得は、教師の発生をまねることによって行なうことが一般的であり、自分の会話能力がどの程度であり、発音等をどのように矯正すればよいかを、特に独力で知ることは困難でした。そこで、音声分析・認識により学習者の発音が教師のそれとどのように異なるかを検出して矯正の必要性を判定し、適切な矯正指針を与えることを自動的に行なう技術を開発しています。特に、アクセント、イントネーションの発音教育について研究を進めています。認識・合成とも関係してきます。 話者の意図・感情は音声の主として韻律的特長に表れます。意図・感情の伝達は将来のインタフェースシステムで重要な課題となってきます。ここでは、意図・感情をつけて発声した音声の分析からその特徴を定量的に捉え、音声合成、音声認識に組み入れる方策を検討しています。 “平静” “怒り” “喜び” 感情音声の分析・合成 “悲しみ”