Vol.239-1 人間と計算機の音声インタラクションの現在と未来


 山梨大学工学部コンピュータ理工学科 准教授 森勢 将雅

1.はじめに

 まずは、Google I/Oの基調講演で示された動画[1]をご覧頂きたい。いくつもの魅力的な新技術が盛り込まれたプレゼンテーションである。その中でも、35:00から始まる電話予約のデモは、これまでにない技術として関連する分野の研究者に大きなインパクトを与えた。このデモでは、あたかも計算機と人間が人間同士の如く会話して、希望する日時で美容室の予約を取り付けるという音声アシスタントとしての未来を感じさせる新技術を披露している。現在も、スマートフォンやスマートスピーカーなどで採用されている音声アシスタントシステムがあるため、音声による人間と計算機のインタラクション[2]は概ね完成しているという声もある。しかしながら、これまで利用されているものは、特定のタスクに特化してユーザーの質問にシステムが回答するという「一問一答形式」のものであり、人間同士のような会話は未だ困難とされていた。今回のデモは、その常識を覆したインパクトの強いものである。
 人間と計算機とのインタラクションは、古くはキーボードにより人間がテキストを入力し、計算機がテキストを解析し、質問内容を推定して回答を表示するものであった。音声コミュニケーションには、テキスト解析技術や応答文生成だけでなく、音声を入力してテキストに変換する音声認識技術、テキストから音声波形を生成する音声合成(Text-To-SpeechTTSともいわれる)技術が必要である。Googleのデモは、これら全ての技術が高い水準にあり、人間と計算機が、あたかも人間同士のように会話できることを示している。
 本稿では、音声を用いた人間と計算機とのインタラクションの現状と未来について述べる。現在実現されていること、されていないことを整理し、今後計算機が人間と等価な対話ができるようになるための課題について説明する。

2.音声情報処理の現状

 マイクに向かって質問し、システムは聞かれた質問に対して答える、いわゆる一問一答での応答が可能な音声アシスタントは、日本でも2000年代に実現している[3]。これは、テキストから質問内容のキーワード(例えば、経路案内であれば駅の名前等)を抽出し、そのキーワードから利用者が期待する回答を文章として生成する。この文章生成についても、目的に応じたいくつかのテンプレートとなる文章にキーワードをはめ込むような仕組みである。このような限定された内容であっても、特定の環境下であれば実用上十分であるため、一問一答形式のシステムが現場でも利用され続けていることは事実である。
 人間同士に近い音声コミュニケーションを実現するためには、テキスト情報を解釈して柔軟な応答文を生成する自然言語処理に関する技術に、音声認識・音声合成の技術を統合する必要がある。2010年代から普及しつつあるスマートスピーカー等の音声アシスタントは、高度な音声インタラクション機能を備えている。以下では、それぞれについて現状と課題を整理する。

2-1.音声認識の概要

 音声認識は、簡単に言えば、音声波形を入力としてテキストを出力する技術である。その中は、音声波形に対する信号処理をはじめとする様々な技術の集合体であり、その説明だけで膨大な資料を必要とする。音声情報処理において、音声が持つ情報は3種類に区分される。現在の音声認識技術は、主にテキストに変換可能な言語情報が扱われている。それ以外にも、話者が意図的に付与することが可能なパラ言語情報と、話者の意図とは無関係に付与される非言語情報に区分される。パラ言語情報の例には「感情」があり、非言語情報では「個人性」が該当する。これらについて、例えば物まね等は個人性の変換であり非言語情報を制御できているともいえるが、現状の音声情報処理では、非言語情報をこのように定義している。
 現在の音声認識技術はすでに実用レベルであり、スマートフォンを利用するような騒音環境下においても概ね良好に動作する。一方、音声波形をテキストに変換するという処理の性質上、現状の音声認識でパラ言語・非言語情報を得ることは困難である。推定された文章からどのような感情であったのかを推測することはできるものの、文章と発話の感情にミスマッチがある場合の処理は困難である。
 その他にも、音声発話をテキストに変換するためには、単語をマッチングするための辞書が必要である。辞書を使うという制約上、辞書に登録されていない単語や造語を認識することができないという問題が生じる。特に、スラング等は年々増加していくため、この変化を自律的に学習することは難しい。



 音声を構成する3要素。現状の音声認識・音声合成は主に言語情報を扱う。

2-2.テキスト解析と応答文の生成

 一問一答形式であれば、テキストから問いを抽出し、回答となる応答文を生成するための技術が、高い水準で実現されている。一問「一答」からも明らかに、発話内容には「問」があり、それに対する「回答」を用意することが主なミッションと考えると、この問題は、自由会話に比べると相対的に難しくはない。人間同士のやり取りでは、一問一答に限らず、雑談のようなやり取りと問いかけが混ざることのほうが多い。人間同士で雑談をするように、答えを求めていない発話に対して適切な応答により会話を「繋ぐ」こと、あるいは、質問内容が把握できないときに聞き返す応答文を生成することは、従来の音声アシスタントでは困難な課題設定であった。
 Appleの「Siri」やマイクロソフトの「りんな」等の音声対話システムは、基本的には一問一答形式ではあるものの、既存のシステムよりも会話的要素が強い。どちらも、既存の一問一答形式の音声アシスタントとは異なり、ユーザーの問いかけに対してユニークな応答文を生成することで大きく注目を集めた。一問一答形式における応答文は、同じ質問に対しては同じ回答を示すことが多いが、上述のシステムでは、質問に対して必ずしも正確に応答するわけではなく、ユーザーと言葉(りんなの場合はチャットのみ)のやり取りを楽しめる応答文を作ることが特色といえる。
 音声アシスタントにおいて、幅広い層の支持を集めるためには、応答文の生成においてサービス精神を発揮することが有効だと考えられる。りんなでは、公式Web[4]に記載されている情報を抜粋すると、「リアルなJK(女子高生)感が反映されたマシンガントーク」や「飾ることのない物言いでユーザーの恋愛相談に乗る」「奇抜なポージングをユーザーに強要する」のような独特のやり取りがある。人間でも個々人により性格が異なるように、音声アシスタントを行うキャラクターにも個性を与えることで、それが1つの魅力として受け入れられ、支持を拡大した例であると解釈できるだろう。 

2-3.音声合成

 音声合成とは、人間の発話に相当する波形を人工的に作り出す技術である。現在広く普及しているテキストから音声波形を生成する方式を指して音声合成と呼ぶこともあるが、ここではテキスト音声合成として区別する。上図に示すように、テキスト音声合成は、テキストから音声波形を生成する方式である。方式の詳細は割愛するが、事前に特定話者の大量の発話を記録した音声コーパスを構築する必要がある。例えば「こんにちは」と発話させる場合、そのコーパスから「こ」と「ん」と「に」と、のように、11つの音声波形を取り出して接続することで、目的とする発話を生成する。これは波形接続方式の概要であり、人間の発話と比較すると品質が低いとされていた。品質の問題は、2010年に入り深層学習が活用されることで解決しつつあり、特にDeepMindが発表したWaveNet [5]GoogleTacotron 2 [6]は、すでに人間の発話と比較しても遜色のない音声が合成できる。
 全ての方式には、事前に音声コーパスを構築する準備が存在する点で共通性がある。これは、特定の話者についてのテキスト音声合成は可能であるが、その一方で別の話者のテキスト音声合成を実現する場合、音声コーパスの作り直しになり、膨大なコストを必要とする問題点を示している。テキスト音声合成の品質は、主にコーパスに収録された音声の量に比例するが、最近の研究は、少ないコーパスで高い品質を実現するためのアルゴリズムの工夫や、別の話者の音声へ加工する声質変換技術等の開発が行われている。声質変換技術は変換結果の音声が劣化することが課題となる。ユーザーが所望するパラ言語・非言語情報を音声合成システムに直接反映させることは現状において難しい課題であり、様々な研究者が研究に取り組んでいる。 

3.音声情報処理の今後

 最初に示した動画のように、現状の音声アシスタントは、限られた局面であれば人間と大差のない音声インタラクションが実現可能である。人間同士のような自由会話を目指すプロジェクトとして、自律型アンドロイドErica [7]等の事例はあるものの、まだ実用化には至っていない。研究面での課題としては、人の感情表現が普遍的ではなく、また聴取者にも依存して感受性が大きく異なることが問題の1つといえる。例えば、怒りの感情であっても、激しくまくしたてる怒り方をする人、冷淡に怒る人などバリエーションがあり、そのどちらがより怒りを感じるかについては、聴取者の性格やこれまでの経験に依存して変化する。これらの柔軟性を計算機に与えることは、現状の枠組みでは解決が困難な課題となる。
 人間同士の音声インタラクションでは、相手の話し方から感じる機嫌など、テキストでは表現できない様々な情報を統合して返すべき応答を考え、機嫌の悪い相手には極力刺激しないような穏やかな話し方を選ぶなど、高度な情報を統合して実施している。計算機によりこれらの処理を模倣できることが次のステップとして重要であるが、その一方で、計算機のような杓子定規な対応「だからこそ」有用である場面があることも事実である。人間に近づけるための研究だけではなく、音声インタラクションにおいてユーザーが計算機に何を望んでいるのかという目的から、必要な技術を提案することが今後は重要になると予想している。ただし、どのような方向性で研究を進める場合でも、各要素の技術をさらに高めておくことが重要であることは言うまでもない。 

4.おわりに

 現状において、ドラえもんや鉄腕アトムのような人間と自由に会話ができるシステムは実現されていない。これは、人間の音声処理は、音声の認識、音声の発話の両面において、言語だけではなく様々な情報を高度に統合して扱っており、現状の技術はそこまで追いついていないからであるといえる。今後は、単に人間同士のやり取りを模倣するだけではなく、ユーザーが望むニーズ、例えば他愛のない会話でストレスを発散させる、癒しを得るなどを満たすための音声インタラクション等にも需要が出るかもしれない。


参考文献

[1] https://www.youtube.com/watch?v=ogfYd705cRs 該当するデモンストレーションは35:00から。

[2]人間が言葉を発するなど何かアクションを起こしたときに、システムがそのアクションに対応した応答をすること。

[3] 西村竜一、西原洋平、鶴身玲典、李晃伸、猿渡洋、鹿野清宏:実環境研究プラットホームとしての音声情報案内システムの運用、電子情報通信学会論文誌、vol. J87-DII, no.3, pp.789-798, 2004.

[4] https://www.rinna.jp/

[5] Aaron van den Oord et.al. WaveNet: A generative model for raw audio, arXiv: 1609.03499, 2016.

[6] Jonathan Shen et.al. Natural TTS Synthesis by conditioning WaveNet on Mel spectrogram predictions, arXiv: 1712.05884, 2017.

[7] 井上昴治、河原達也:自律型アンドロイドEricaのための音声対話システム、人工知能学会研究会資料、vol. 75, pp. 21-24, 2015.