早稲田大学 知覚情報システム・メディアインテリジェンス研究室

会話用音声合成

会話用音声合成

人と対話するロボットのための音声合成技術の開発に取り組んでいます。従来の音声合成技術のように文を「正確に読む」だけでは、対話の音声としては十分ではありません。話し手の表情がありありと浮かんでくるような、表現力豊かな合成音声の実現を目指しています。

 

対話状況に応じた音声を使い分けることができる音声合成システム

人どうしの対話では、発話の内容だけでなく、話し手と聞き手との関係、その場の雰囲気といった状況の違いに応じて、様々な表現が用いられています。ロボットがいつも同じ声のトーンや話し方(抑揚や話速)で話していては、何とも味気ない対話になってしまいます。そこで、私たちのロボットが高齢者施設で活動することも考慮に入れて、「対話の場を盛り上げようとするときの発話」、「具合の悪そうな人を気遣うときの発話」など、そこで発せられる声のトーンも話し方も異なると考えられる4種類の対話場面を想定。これらに「平静」を加えた、5種類の異なる対話場面ごとの音声を収録して、音声合成システムを構築しました。対話の流れに応じて5種類の声を使い分けることにより、活き活きとした対話にすることができるようになりました。

Related Publications

  • Kazuhiko Iwata and Tetsunori Kobayashi, “Conversational Speech Synthesis System with Communication Situation Dependent HMMs”, International Workshop Series on Spoken Dialogue Systems Technology 2011 (IWSDS 2011), pp109-119, Sep. 2011

話し手の意図を確実に伝えられる表現力を持つ音声合成システム

人どうしの対話では、言葉だけではなく、音調(イントネーション)による表現も使って意思の疎通が図られています。同じ言葉でも、音調を変えることによって異なる意図を伝えることができるわけです。日本語では、話し手の意図や態度が、文末詞(文末に現れる終助詞や助動詞)によって表現されます。そこで、これら言葉による表現と、それを音声として発する際の音調との関係に着目しました。

人が発話した対話調の音声の文末に現れる音調の形状を、クラスタリング手法を用いて分類しました。この結果、文末では単純な上昇調や下降調だけでなく、実に様々な形状の音調が用いられていることがわかりました(図1)。

speech_synthesis

図1.文末音調のクラスタリング結果

次に、様々な文末詞と上記で得られた文末音調から選んだ6種類の形状とを組み合わせた合成音声を用いて、話し手の意図を聞き手に伝える実験を行いました。その結果、意図を確実に伝えるためには文末詞と音調との適切な組み合わせを用いる必要があること、肯定文・否定文の違いも聞き手への意図の伝わり方に影響を及ぼすこと、などの知見を得ることができました。

今後は、主たる意図に付加される微妙なニュアンスの違いを伝える文末音調表現についても詳しく調べ、さらなる表現力の向上を目指します。

Related Publications

  • Kazuhiko Iwata and Tetsunori Kobayashi, “Expression of Speaker’s Intentions through Sentence-Final Particle/Intonation Combinations in Japanese Conversational Speech Syntyesis”, 8th ISCA Speech Synthesis Workshop (SSW8), pp.235-240, Aug. 2013

 

© 2015 Perceptual Computing Group, Waseda University. All Rights Reserved

page-projects