会話AIメディアの時代 – AI時代のデザイナーに必要なセンスとは?

2018年初頭現在,チャットボットは巷に溢れ,ロボット端末が市場に多く出回り,大きな期待や落胆とともに,多くの会話AIサービスが流通されはじめている.これは過渡的なものだろうか?コンピュータ登場以来,自然言語を介して会話できるエージェントは夢想され多くのシステムが実際に開発されて来た.現在,ディープラーニングが自然言語処理,対話処理の研究領域一般に与えたインパクトは絶大なものがあり,また開発フレームワークやデバイス等,産業的なエコシステムは準備され,本格的な会話AIメディア,サービスの登場の土壌は整いつつあるようにも見える.2020年に向かって,多くのサービスやデータは,そのようなAIメディアによって再整理されていくだろうとも予測される.同時に,市場の開拓とともに,新たなユーザエクスペリエンス(UX)デザインの領域も広がり始めている.現在Webデザイナーのような職能が存在するように,会話型に代表されるAIメディアのためのデザイナーが産業の鍵となりえるとするならば,そのような領域を目指す人が考えるべきこととは何だろうか?

早稲田大学在学中から米国カーネギーメロン大学に所属する現在まで,私は多くの会話AIプロジェクトに参画してきた.とりわけプロジェクトリーダーして主導した2017年の世界経済フォーラム(ダボス会議)公式バーチャル・アシスタントSARA(Socially Aware Robot Assistant)の開発の過程で, 第4次産業革命の只中にある社会の基幹技術たるAIシステムやサービスのデザインのプロセスについて深く考えさせられた.AI時代のデザイナーや研究者は今後しばらくどのようなことに気を使い,どのようなスキルを身に着けていけばいいのだろうか?ここでデザイナーとは,システムやサービス全体のコンセプトを戦略的に構想し設計できる人のことである.以下の点は,もともと会話AIメディアのデザイナーの持つべき素養に関して考察したものだったが,おそらく(とりわけ特化型の)AI産業・研究分野全般に言えることと思う.

ダボス会議と第4次産業革命

スイス・ダボス.スキーの名所でもあるこの小さな町は,年に一度だけ厳重な警備のもとで独特の賑わいを見せる.私たちの研究チームはこれまで2回,世界経済フォーラムに参加し(2016年中国天津市でのサマーダボス会議,2017年スイスでのダボス会議),我々のバーチャル・アシスタント・システムをグローバル・リーダー達に紹介してきた.各国の首脳陣やトップ企業のCEO,NGOのリーダーや著名な研究者が一つの会議場で往来する様は,まさに世界の経済と技術のうねりを感じさせるものだった.

現在,ダボス会議でグローバル・リーダー達が共有する時代の文脈は「第4次産業革命」である.その革命の過程で人間と機械は様々な形でより融合してゆくに違いない.昨今のAI技術の爆発的なブームによって凶暴的に進行していくようにも見える新しい産業革命に対する期待と不安が,今広く社会が抱いている感情だろう.SARAは,その第4次産業革命の文脈の中で「人とAIがコラボレーションできる未来」のビジョンを示すべく発表された.AIの進化の過程で多くの職業が実際に代替され人間のアイデンティティの再規定が求められることが不可避だとしても,AIは本来,人と協同し人類全体の創造性や生産性を向上させるために存在するコラボレーターでなければならないはずである.そのとき,AIにはコラボレーション相手である人間とうまくコミュニケーションがとれる社会的知能が必須だろう.我々はそのような「Social AI」,とりわけ人間と自然言語を介してコミュニケートする会話AIの研究を続けてきた.

さて,話の発端は,世界経済フォーラムから未来の会話エージェントのビジョンを展示してほしいと,私の所属するカーネギーメロン大学に依頼があったことである.ダボス会議は,各界のリーダー達集うセッションが会場の至る所で行われるのと同時に,最先端技術のショーケースとしての側面があり,カーネギーメロン大学がダボス会議の常連であったこともあり今回我々のチームに白羽の矢が立ったのだった.会議の参加者は,そのような先端技術にインスピレーションを受けながら,世界の未来について議論を交わすわけである.

我々は,その時点で持っていた一連の技術のデモををスイスからやってきた世界経済フォーラムのプログラムコーディネーター陣に見せ,続いて幾つかの案をその場で議論した.彼らの披露したエピソードの中で印象的だったのは,「ダボス会議にも明確に身分のヒエラルキーが存在する」ということだった.ダボス会議の主目的の一つはグローバル・リーダーたちのプライベートなミーティングなのだが,例えば初参加の(比較的無名の)若手の人がいきなり「ビル・ゲイツと面談したい」と思っても限られた会期中の時間ではそれを実現させるのは簡単ではないだろうだろう.まして名も知らぬ人から突然誘いが来ても,わざわざ優先度を変えてまでその人に会おうというのは抵抗があるに違いない.そのようなとき,例えばヴァーチャル・アシスタントが参加者同士のマッチメイキングをして「この方が〇〇の点であなたと共通点を持っていて,あなたに会いたがっているようです.今のスケジュール的には,この日にミーティングの予定がなんとか取れそうですが,どうしましょうか?」というような提案が相手方に伝わったならどうだろうか?エージェントシステムの新規性に加えて,もし社会的な気遣いをもったエージェントに対する信頼感や愛着が確立していたならば,彼らは実際に直接会ってくれるのではないだろうか?政治・経済のキーマンばかりが集うダボス会議で,もしAIが参加者同士をマッチメイキングし彼らのネットワークに影響を与え,かつ彼らがそのAIの仕事を信頼してくれるのならば,それはまさに直接的に世界を変えることになると言えるのではないか?

プログラムコーディネーター達はそのアイディアに夢中だった.その場で彼らから,ダボスの本会議の前に第一弾のプロトタイプとして中国天津市で行われるサマーダボスに出展してくれないかと依頼があった.この時点で,そのサマーダボスのおよそ4ヶ月前である.「マジかよ」というのが本音.新たに開発チームを編成するにしても,ほとんどスクラッチからフル稼働するシステムを組み上げるには時間が無さすぎる.ちょっとしたデモならまだしも,いきなりダボス会議に持っていくのは無謀でしょうが.「金と人員は提供する.欲しいものは言ってくれ.」大学の首脳陣も乗り気の様子.短くも険しいプロジェクトの始まりだった.

SARA – ダボス会議公式バーチャルアシスタント

我々の設計プロセスはおよそ決まっている.タスクを選んだ次にすることは,人間同士の会話データを集めることである.ここでいきなりシステム開発に入らないことが重要なのである.ともすると既存の技術の寄せ集めでボトムアップにシステムのデモを作ってしまいがちだが,とにかく示すべきビジョンを表現できる会話インタラクションとはどのようなものか,そのシナリオを考えなければならない.

SARAプロジェクトの主たるコンセプトは,来場者と親密な関係を築き(「ラポール」と呼ばれる現象),それによって醸成される社会的な信頼の基盤をもとに,会議における各種のサポートを行うことである.具体的には,先述のとおりゲストのダボス会議で達成したいゴール(典型的なものは,第4次産業革命に関する先端技術について深く知りたい,投資家を探したい,ネットワークを広げたい等)をサポートすべく,人を紹介したり,トークセッションや公式・非公式のパーティの推薦,あるいは会場の場所案内やダボス近隣でのレジャーなどの案内などができる.

SARAの典型的なシナリオはこのようなものである.ー ゲストがバッヂをスワイプすると,SARAは現れ,会話が始まる(世界経済フォーラムのデータベースからプロファイルがロードされる).会話の中でSARAは,相手の発話に適切に反応しながら自分のことを説明するような自己開示的な発話をしたり,ゲストの自己開示を促すような戦略を用いて自然に彼らのゴールを特定したり,再訪してくれた人には前回の共通体験を指摘してみたり,十分な親密さが築かれたと認識したときにはSARAはあえて失礼なことも言い出したりする.そのように,会話の段階や親密さ,相手の反応に合わせてSARAの発話スタイルや内容は変化していく [SARAシステム紹介論文].

開発にあたって,私たちはまず過去にダボスに参加したことのある参加者にSkypeをかけ,エージェント役のチームメンバーと実際に会話をしてもらうことでデータを収集することにした.本来であれば,すでに社会に存在する特定の職業の人を呼んできてデータを取るべきであるが,あいにくダボス会議でそのようなマッチメイキングの仕事をしている人はいない.つまり具体的なロールモデルがおらず,自分たちで職能を定義するところから始めざるを得なかった.かくして収集したデータの分析結果と,それから一般的な「パーソナルアシスタント」のトレーニングマニュアル等から,開発すべきエージェントのゴールや戦略,そして典型的なシナリオなどを定義していった.

同時に,新たな開発チームの編成も行った.すでに先行していた,カーネギーメロン大学と米国Yahoo!バーチャルアシスタント研究開発プロジェクト「InMind」の開発メンバーの協力を取り付け,またキャラクターのデザインと開発のために大学内のエンターテイメント技術研究所(Entertainment Technologies Center),およびピッツバーグ市内の3Dゲーム会社に協力を依頼した.いくつかの某有名IT企業の研究部門にも部分的に言語処理の技術や学習データの提供などに関する協力も依頼している.その他,言語処理や機械学習,アート専攻の学生もリクルートして,小さいながら機能的なチームが出来上がっていった.音声認識のための言語モデルの学習(特定のタスクにおける音声認識率を上げるためには,当該ドメインにおける発話データを用いてモデルを学習させる必要がある),カーネギーメロン大学謹製の顔表情認識モジュールとの統合,発話意図理解や対話制御モジュール群の開発とモデル学習,発話コンテンツの作成,世界経済フォーラムのバックエンドシステム(個人認証システム,レコメンドエンジン,メッセンジャーシステム)との統合,キャラクターとそのアニメーションの作成.さらに,現場の展示ブースの設計も行わなければならななかった(音声や画像認識を使う都合上,ブース内の環境は慎重に設計される必要があった).会話システムは,まさにAI技術の総力戦である.

会期の前日,世界経済フォーラム創設者のクラウス・シュワブ氏の視察が行われた.ここでも一騒動.会場ではネットワークが不安定になることも稀でなく,氏の訪問する直前にシステムはストップ,急いでプログラムを修正し,ブースに入ってくる直前にプログラムの修正が終わり,SARAはいつもどおりゲストを迎えた.「Hi, I’m SARA. Whom do I have the pleasure of meeting?」

「面白いですね,是非,ダボスにも来てください.」

クラウス・シュワブ氏とSARA

2017年1月,我々はダボスにいた.世界経済フォーラムの計らいで,SARAのブースは約2000人の参加者が往来するメイン会場の目抜き通りに位置した.世界経済フォーラムのスタッフ内でもSARAおよびSARA開発チームはすでに知られた存在だった.今回はSARAとゲストがセルフィーを取れる機能も付いた.案の定,それは大受けだった.SARAのブースの前には常に順番待ちの列ができた.「妻にSARAを体験することを勧められて,今日来てみたよ」そんな声にたくさん出くわした.会期が進むに連れて,次第に特製のSARAバッヂをつけた来場者たちが目についた [ダボス会議報告論文].

カーネギーメロン大学 前学長Subra Suresh氏とSARA

メディアとしての会話

ところで私は少年時代,映画監督になりたいと夢見ていた.映画は19世紀の終わりごろに発明され,20世紀にその表現手法が高度に洗練されていたメディアである.そこでは「モンタージュ」と呼ばれるカット編集で時間と空間を編集してストーリーを表現される.人類は,世紀を経てそのような映像の文法に慣れ,映像メディアのリテラシーを獲得することによって自然に鑑賞され,また産業も大きく発展してきた.

一方,人同士,あるいは人とAIの会話もまたメディアとして捉えることができるだろう.クロード・シャノンの「情報伝送路モデル」では,情報は送信者の意図が特定のコードに変換され(エンコード),ノイズのある伝送路を経て,受信者に解釈(デコード)される.これはまさに会話である.会話では物理的な音声信号はもちろんのこと,顔の表情やジェスチャーも含めて極めて多くの社会的な信号が同時に送受信され,会話の参加者同士でそれらの意味が解釈される.それが可能なのは,その情報を授受する参加者同士が「通信規約(プロトコル)」を有しているからだ.会話における意味の解釈については,社会言語学などでも長く研究されてきたが,このプロトコルは文化によっても大きく違う.例えば長い沈黙や頷きの行為の解釈は,日本人とアメリカ人では全く違う.このように会話という行為の中では,人間の生得的な認知機構と特定の文化の中で獲得してきた意味の解釈の機構が複雑に絡み合う.ゆえに,従来のメディアよりも遥かに複雑な機構が会話メディアには求められる.

他のメディアと比較したときに,会話AIメディアには少なくとも3つの重要な特性がある.

  1. インクリメンタルなメディアである:情報は漸次的に送受信される
  2. 複数の時間の重なり合ったメディアである:複数のタイムスケールで意味が処理される
  3. 相互理解的なメディアである:相互の理解に基いて進行されなければならない

また,会話では特有のコンテンツデザインの考え方が必要になる.映画ではすべてのカットが同一のタイムラインに並べられてストーリーが語られるが(鑑賞者の理解にかかわらず映画は進行する),会話は漸次的かつ相互協力的に進行するメディアなので,語られるべきストーリーはいわば相互の協力によって成立する.例えば一つの発話も,相手の反応を見ながらその場でデザインして生成(articulate)される.会話の話題の選び方もその場の流れで決まるでだろう.これは極めて複雑な現象である.

会話AIメディアは,このような会話の特性に則ってデザインされなければならない.さもなければ,非常にちぐはぐな回答ばかり返すつまらないチャットボットになってしまうだろう.間が悪かったり,ユーザの置かれているコンテキストをよく理解できていなかったり,そもそも基本的な言語理解ができていなかったり.SARAも含めて,現在のほとんどすべての会話AIはこうして失敗していると言えるだろう.

 

ボイジャーのゴールデンレコード.伝達される情報が相手に確かに伝わっているかどうかは,常に不確かである.

 

会話AIメディアデザイナーに必要な素養

では未来の会話AIデザイナーは,どのようなことに気を使い,またスキルを身に着けていけばいいのだろうか?ここでデザイナーとは,サービスやシステム全体のコンセプトを設計できる人のことである.これは会話AIメディアに限らずAI全般に言えることだが,新しいタイプのデザイナーは以下のことを深く考えなければならないだろうと思う.以下の点は,もともと会話AIメディアのデザイナーの持つべき素養に関して考察したものだったが,おそらく(とりわけ特化型の)AI産業・研究分野全般に言えることと思う.

  1. ドメインの発見 – まずよいドメインを探さなくてはならない.革新的なコンセプトを表現できる最善のタスクシナリオは何か? 設計の上流の段階で現実世界の問題を解決しうるAIのタスクを明確に設定することが研究やビジネスの成否の大部分を占めると言えるだろう.
  2. 価値を与える – DeepMindのAlphaGo成功は,そもそも彼らが囲碁という,価値が明確なドメインを選んだことにある.例えば,会話という現象ならどうだろうか? いったい会話AIは何を最適化すればいいのだろうか? ここがデザイナーの腕の見せどころである(価値を自動学習すること自体も活発な研究分野であるけれども).
  3. 暗黙知のリバースエンジニアリング – 今現在のAI要素技術の条件下で,特定の技能をもったAIをデザインするためには,実際に存在する職能を参考にするのが一番効率がいいだろう.ロールモデルとなる特定の職能のできるだけ詳細なブレイクダウンを行った上で,仕事のプロセスのどこを自動化できるかを考えていくことが必要である.このとき必ずしも完全自律システムとはなり得なくとも,部分的な自律化でも十分に社会の役に立つものができ得るだろう.
  4. 説明可能なモデルの構築 – ブラックボックスになりがちな機械学習(特にディープラーニング)に対して,説明可能なモデルをつくることが様々な場面で求められる.なぜAIがそのような意思決定をしたのか,そのモデルからどのような知見を得るべきなのか,そのモデルが答えを出すプロセス自体に価値があることが多い.トップダウンな理論的仮説とボトムアップなデータドリブン手法をどのように融合するべきか,デザイナーは知恵を絞らなければならない(これもまた活発な研究分野である).
  5. データ収集戦略 – AIや機械学習で一番難しいのは,結局のところ質のいいデータを大量にどう集めるかである.大抵の場合,取り組むべき問題が明確に定義されれば,最初に検討すべき機械学習アルゴリズムはだいだい決まるものだ.当然そこからアルゴリズムの発明や改善が行われていくわけだが,そもそもデータがないことには学習できない.現象は見ようとしなければ決して見えないように,データは集めようと思わなければ使えるデータは集まらない.アルゴリズムだけは研究としてもビジネスとしても生き残れない時代である.AIデザイナーは,特定の目的に沿ったデータをうまく集められるエコシステム自体をも考案しなければならない.

どうして人は会話をするのか?

ところで,どうして人は会話をするのだろう? 私の答えの一つは,会話という行為が人間の認知機能にとってキラーアプリケーションであるから,である.

私は,かつて高齢者支援のためのロボットシステム開発プロジェクト(NEDO:独立行政法人新エネルギー・産業技術総合開発機構による大規模な高齢者支援ロボットプロジェクト 2006〜2008年)に関わっていた [高齢者支援ロボット論文].プロジェクトの初期段階,高齢者支援の現場でのニーズを知るために我々チームはデイケアの現場でボランティアをして一日の様子を観察した.普段コンピュータやロボットに向かっている私たち研究者たちが不器用に高齢者の方々に配膳をしたり,お歌を歌ったりゲームをしたりしながら,ロボットがお手伝いできることは何かを考え続けた.すると気づいたことは,高齢者は医療サービスなどを受けにデイケアに来るのではなく,他の高齢者やケアスタッフ,あるいは子どもたちと交わるために来ているのだということだった.

「人は生まれてから死ぬまで,永続的に他者あるいは自己と会話し続けることを望んでいる.」

あまりに当然のことではあるが,これは私にとっては大きな発見だった.人は会話しながらアイデンティティを確立したり,記憶を残したり,また会話自体を自己目的的に楽しむこともあるだろう.人は人と会話をし続ける.AIやロボットはそういう人同士の会話が円滑に楽しく行われるように支援するためにも存在するべきだろう.

AIが社会的知能を有することは,人間とAI,そして人間同士が円滑かつ創造的にコミュニケーションを行う上で必須のことであるはずだ.よりよい会話AIメディアのデザインのためには,要素技術を知っているだけでは足りない.何度でも,人間同士の社会的現象に向き合い,そしてそこから新しいメディアやサービスの発明に向かっていくべきだろう.人文科学も計算科学と同様の重みで必要な時代になった.

我々の日常の,何気なくて切実な会話 – そこに科学と技術,そしてビジネスの最先端はある.

 

関連論文

  •  [SARAシステム紹介論文] Yoichi Matsuyama, Arjun Bhardwaj, Ran Zhao, Oscar Romeo, Sushma Akoju and Justine Cassell, Association for Computational Linguistics, Proceedings of the SIGDIAL 2016 Conference, September 2016. | PDF
  • [ダボス会議報告論文] Florian Pecune, Jingya Chen, Yoichi Matsuyama and Justine Cassell, Field Study Analysis of a Socially Aware Robot Assistant, Proceedings of the special track Socially Interactive Agents (SIA) at the 17th International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2018). | PDF
  • [高齢者支援ロボット論文] 藤江真也, 松山洋一, 谷山輝, 小林哲則, 人同士のコミュニケーションに参加し活性化する会話ロボット, 電子情報通信学会論文誌. A, 基礎・境界, Vol.J95-A No.1, pp37-45, 2012. | DOI

 


松山 洋一(Yoichi Matsuyama)
カーネギーメロン大学 Language Technologies Institute および Human-Computer Interaction Institute 研究員.2015年早稲田大学 基幹理工学研究科 情報理工学専攻 博士(工学).映画監督に憧れる少年時代.社会的知能ロボット開発への道に啓示を受け,早稲田理工学部の知覚情報システム研究室の門を叩いて,会話ロボットの研究の道へ.カーネギーメロン大学に移った後も,多くの会話エージェントプロジェクトに参画・主導して現在に至る.高齢者支援ロボットから多人数会話ファシリテーションロボット SCHEMA (シェーマ),スマートフォン向けパーソナルアシスタント InMind,ダボス会議公式バーチャルアシスタント SARA (Socially Aware Robot Assistant) まで,一連の会話AIメディア開発稼業.深層学習,自然言語処理,ロボット制御,ありとあらゆる洗練された理論と技術は研究され投入される必要はあるが,命をかけるべきはユーザ体験.メディアの発明において科学と芸術の融合はデフォルト.認知科学,言語学,人工知能,ロボット工学,インタフェースデザイン,コンテンツデザイン等の融合するメディアとしての会話エージェントの研究を行っている.

 

Leave a Comment

Your email address will not be published. Required fields are marked *