早稲田大学 知覚情報システム・メディアインテリジェンス研究室
音源分離は、複数の音源から発せられた音が混じりあった信号から元の音を復元する技術で、音声対話システムや遠隔会議システムなどを開発する上では重要な役割を果たします。小林研究室では、小型マイクロホンアレイでリアルタイム処理が可能な音源分離技術を開発しました。近年では、歪が少なく高精度に元の音を復元可能な音源分離技術の検討を進めています。
複数の音声が与えられた際に、
インターネット上に存在する多種多様な映像に対し、自動解析を行い、動画のシーンに対して自動で意味索引付けを行う技術の高性能化に取り組んでいます。小林研究室で開発した技術は、2015年のTRECVIDベンチマークの意味索引付けタスクにおいて、参加した全29チーム中、2位の成績を収めることができました。
人が持つメタ認知機能(知っているか否かを知る、どの程度知っているかを知る機能)を模倣することで、システムが想定していない未知の入力に対して頑健に高い性能を与えるパターン認識システムを、データの収集だけに頼らずに実現する方法について研究しています。複数の相補的な認識システムを入力データの性質に応じて(メタ認知機能に相当する認識システムの性能予測技術を用いて)適切に選択しながら認識を行うマルチストリーム型パターン認識によりこれを実現し、未知データの影響で著しく低い性能しか与えない高雑音・残響下音声認識や動画像の意味インデキシングを実用のレベルまで押し上げることを目指しています。
顔画像を利用した年齢推定システムは、マーケティングやヒューマンコンピュータインタラクションへの応用の観点から重要な技術とされています。小林研究室では、NECソフト株式会社と共同で、子供から高齢者まで幅広い年齢層を対象とした、顔画像に基づく性別・年齢の自動推定システムを開発しました。
人と対話するロボットのための音声合成技術の開発に取り組んでいます。従来の音声合成技術のように文を「正確に読む」だけでは、対話の音声としては十分ではありません。話し手の表情がありありと浮かんでくるような、表現力豊かな合成音声の実現を目指しています。
© 2015 Perceptual Computing Group, Waseda University. All Rights Reserved