研究の目標・ねらい
人間中心の情報環境とは、あらゆる人間が情報発信源となり、また自然に情報を享受できる環境である。音声が人間にとって最も基本的なコミュニケーションメディアであるということから、高度なネットワーク情報通信機器があらゆる場所に偏在する中で、人々が音声によって自然かつ自在に情報を発信し、またやりとりする環境が広く社会に実現されることは、ひとつの理想である。音声認識、音声合成、音声対話の要素技術に関しては、実用化のための能力的要件を満たす水準に達しつつあるが、その個々の技術水準に比して、そのような情報環境が実社会で普及する兆しがないのが現状である。個別の要因として、音声認識精度の向上を始めとした既知の課題を列挙することができ、これらを解決するため申請者らも相応の努力をしてきたが、このような技術的な積み重ねだけでは解決できない要因があると考えるべきであろう。それは、音声対話システムのユーザにとってのある種の「魅力」である。音声特有の生き生きとしたインタラクティブ感のあるやりとりは、テキスト的な処理だけでは実現することのできない音声インタフェースの主要な「魅力」のひとつである。それを実現するためには、表情やしぐさ・声質や間合いなど、人間的かつ高度な音声信号処理が必要とされる領域まで踏み込む必要があるが、現状の音声対話システムは、後述する様々な制約のために、固定的かつ画一的で柔軟性がなく無味乾燥なものにならざるを得ない。本研究では、音声対話システム全体をユーザに提供するコンテンツとそれを駆動するシステムに分けて考えることにより、音声技術を真に社会に普及するための「魅力的なコンテンツ」、「魅力的なシステム」がそれぞれどのような要件を具備すべきかを解明することを目的とする(図1)。しかしながら、「魅力」は機械的に容易に評価できるものではなく、人間が持つ感性や知見の積み重ねによって創られていくものである。そこで、ユーザが音声対話コンテンツを容易に作成する仕組みを確立し、ユーザが大量の音声対話コンテンツを生成・評価する中から、帰納的にその本質を解き明かそうとするものである。
従って本研究は実証的である。まず、システムがユーザにとって魅力的たり得るためには、考え得るすべての最高の音声技術を投入しなければならない。申請者らは、これまでの研究開発により十分な技術基盤を持つ。一方、ユーザ自らが積極的に音声対話コンテンツを発信するような環境を構築するための仕組みに関しては、過去に研究事例が無く、ほとんど未解明である。基本的な戦略は、図1に示すような「コンテンツ生成の循環系」を創出し、そのループゲインを1以上にするための諸要因を実証的に解明することで、そのような状態を容易に実現するための仕組みの構築技術を確立するものである。図1の循環系は、正に、ユーザが自ら情報を発信する情報環境の実現そのものとなっている。また、大量の音声対話コンテンツが生成されるようになれば、データに基づいた音声インタラクションの研究が可能となり、次世代の音声技術開発の礎とすることができる。