早稲田大学 知覚情報システム・メディアインテリジェンス研究室
(Johns Hopkins University, Hynek Hermansky教授との共同研究)
パターン認識を用いたアプリケーションを実環境で動作させるためには、システム構築時に用いるデータとシステム稼働時の入力データのミスマッチ(システムにとっての想定外)を減らすことが重要です。このような想定外の入力(未知入力)に対するシステムの頑健性を強化するためには、様々な性質のデータを大量に用いてシステムを構築(マルチスタイル学習)するのが一般的ですが、こうして得たシステムは未知データには頑健である一方、システムの学習に用いたデータと類似した性質のデータに対する性能を劣化させてしまうことがあります。そもそも、たとえデータを集め続けたとしてもシステムにとって未知のデータがゼロになることはありません。これはパターン認識が抱える本質的な課題と言えます。このように、実環境、特に未知のデータに対して頑健に動作するパターン認識アプリケーションを実現するためには、データの収集に頼り切るアプローチでは限界があるので、人が持つ知覚機能を模倣するアプローチを併用することでこの問題を解決することを試みています。
人は、「自分がどの程度理解しているかを理解できる」メタ認知機能を有しています。この機能によりそれまでに経験したことのない状況下においても、最適な知覚機能を使い分けて状況判断を行うことができます。例えば、騒音下では聴覚よりも視覚を優位に用い、暗がりではその逆に聴覚を研ぎ澄ます、という経験があると思います。また、人間の聴覚器官の一つである耳介では、騒音下で音を聞く際、騒音の種類に応じて重要視する周波数帯域を適応的に変えています。このアナロジーとして、性質の異なる複数のシステムを構築しておき、システム稼働時には入力データに対する各システムの性能を予測しながら(メタ認知機能)、状況に応じて最適なシステムを選択的に用いて認識を行うマルチストリーム型パターン認識というアプローチでパターン認識システムを構築し、雑音環境下での音声認識において有効性を調査しています。
システムが出力する認識結果の尤もらしさを測定する認識性能予測器により、メタ認知機能を工学的に実現することを試みています。この性能予測器としては、深層の自己符号化器(auto-encoder)を有望視しています。自己符号化器の入出力誤差は、自身を学習するために用いたデータと類似の性質を持つデータに対して小さくなるため、認識システムの性能予測に利用しています。
図1:マルチストリーム型パターン認識システム.性能予測がメタ認知機能に相当する.
Related Publications
© 2015 Perceptual Computing Group, Waseda University. All Rights Reserved