早稲田大学 知覚情報システム・メディアインテリジェンス研究室
音声認識技術は、カーナビゲーションシステム、情報家電、携帯端末、音声対話システムなどの入力インタフェースなど適用範囲が広いことから活発に研究が進められおり、比較的静かな環境で丁寧に発話された音声であれば実用に耐えうる認識性能が得られるようになってきました。しかしながら、騒音環境下での発話や、普段の会話でやりとりされるような自然な発話に対しては、依然として十分な性能が得られておらず、基本的な認識性能の向上が必要不可欠です。小林研究室では、環境や発話スタイルの変動に頑健な音声認識システムを実現するために、音声認識に用いる確率モデルや探索アルゴリズムについて検討を行っています。
確率モデルの非対称性に基づくリスコアリング
長い時間構造を有する確率モデルが与えるスコアを特徴量とした階層的なパターン認識を行うことで、認識誤りを大幅に削減することに成功しています。
相補的な識別器の生成とその統合手法
少ない弱識別器で高い性能を与えることが可能な、効率的なブースティング法を検討しています。
PHMM:状態と出力に相互依存関係を有する高精度な確率モデル
音声認識やジェスチャ認識などの時系列パターン認識において従来用いられている確率モデル(HMM)において表現するのが難しい動的な変化情報を、精密にモデル化可能な確率モデルを提案しています。
Manifold HLDA: 環境の変動に頑健な特徴抽出
入力データからパターン認識の性能を劣化させる情報(例えば、雑音や発話者の情報)を削除する特徴抽出手法を開発しています。
シミュレーションに基づく音声認識性能評価の妥当性の検証
雑音環境下で発話した際に生じるロンバード効果など、環境に応じて変化する発話スタイルが認識性能に与える影響について調査しています。
© 2015 Perceptual Computing Group, Waseda University. All Rights Reserved