早稲田大学 知覚情報システム・メディアインテリジェンス研究室

パターン認識・機械学習

パターン認識・機械学習

音源分離

音源分離は、複数の音源から発せられた音が混じりあった信号から元の音を復元する技術で、音声対話システムや遠隔会議システムなどを開発する上では重要な役割を果たします。小林研究室では、小型マイクロホンアレイでリアルタイム処理が可能な音源分離技術を開発しました。近年では、歪が少なく高精度に元の音を復元可能な音源分離技術の検討を進めています。

話者クラスタリング

複数の音声が与えられた際に、どの音声が同じ話者によるものかを推定する技術を話者クラスタリングと呼びます。この技術を用いることで、会議音声のような複数の話者の発話を含む音声データから「いつ、誰が発言したか」を推定する事ができます。小林研究室では、発話間の相対的な距離を考慮することで収録環境の違いや背景雑音等に頑健な話者クラスタリング手法を提案しました。

意味インデキシング(TRECVID)

インターネット上に存在する多種多様な映像に対し、自動解析を行い、動画のシーンに対して自動で意味索引付けを行う技術の高性能化に取り組んでいます。小林研究室で開発した技術は、2015年のTRECVIDベンチマークの意味索引付けタスクにおいて、参加した全29チーム中、2位の成績を収めることができました。

メタ認知機能を有するパターン認識

人が持つメタ認知機能(知っているか否かを知る、どの程度知っているかを知る機能)を模倣することで、システムが想定していない未知の入力に対して頑健に高い性能を与えるパターン認識システムを、データの収集だけに頼らずに実現する方法について研究しています。複数の相補的な認識システムを入力データの性質に応じて(メタ認知機能に相当する認識システムの性能予測技術を用いて)適切に選択しながら認識を行うマルチストリーム型パターン認識によりこれを実現し、未知データの影響で著しく低い性能しか与えない高雑音・残響下音声認識や動画像の意味インデキシングを実用のレベルまで押し上げることを目指しています。

顔画像を利用した性別・年齢の自動推定システムの開発

顔画像を利用した年齢推定システムは、マーケティングやヒューマンコンピュータインタラクションへの応用の観点から重要な技術とされています。小林研究室では、NECソフト株式会社と共同で、子供から高齢者まで幅広い年齢層を対象とした、顔画像に基づく性別・年齢の自動推定システムを開発しました。

会話用音声合成

人と対話するロボットのための音声合成技術の開発に取り組んでいます。従来の音声合成技術のように文を「正確に読む」だけでは、対話の音声としては十分ではありません。話し手の表情がありありと浮かんでくるような、表現力豊かな合成音声の実現を目指しています。

© 2015 Perceptual Computing Group, Waseda University. All Rights Reserved

page-projects