Blog

Blog, Research

Conversation as Media

My long-term research mission is “Designing Socially Expressive Conversational AI Media to Assist and Entertain Human Lives.” As an independent researcher, I scientifically investigate the nature of human conversations by designing the conversational AI media that has actual impacts on the societies of this century. This post describes the theoretical framework of the design process. Theoretical Framework of the Research Program Conversation requires various ways of information process than other […]

Blog

Conversations with Evolving Robotic Species – Interview with Hiroshi Ishiguro

It was an honor to host Professor Hiroshi Ishiguro (Osaka University) and Professor Tatsuya Kawahara (Kyoto University) and their masterpiece Geminoid HI-5 as our research group’s guest speakers. Below is a special interview with Hiroshi Ishiguro, a principal investigator of the ISHIGURO Symbiotic Human-Robot Interaction Project, funded by ERATO. [日本語の記事はこちら]  Possibility of Making Android Movies Matsuyama: You said you had a plan to make a movie? Ishiguro: Well, if […]

Blog

Cosmic Proportions of Japanese Family Crest Design – Interview with Shoryu and Yoji Hatoba

Algorithm of Japanese Family Crest Patterns   Monsho Uwaeshi (紋章上繪師), the Japanese family crest artisans’ traditional and innovative works. Unique design ideology, process, and expanding possibilities for the future. Their “Mon-Mandala (紋曼陀羅)” – cosmic proportions of kamons – drawn only by combining the various size of circles is an elegantly sophisticated and beautifully simple design process.    Detailed article : Kamon the Avant-garde: The Patterns of Innovative Japanese Tradition […]

Blog

Era of Conversational AI Media (JP)

会話AIメディアの時代 – AI時代のデザイナーに必要なセンスとは? 2018年初頭現在,チャットボットは巷に溢れ,ロボット端末が市場に多く出回り,大きな期待や落胆とともに,多くの会話AIサービスが流通されはじめている.これは過渡的なものだろうか?コンピュータ登場以来,自然言語を介して会話できるエージェントは夢想され多くのシステムが実際に開発されて来た.現在,ディープラーニングが自然言語処理,対話処理の研究領域一般に与えたインパクトは絶大なものがあり,また開発フレームワークやデバイス等,産業的なエコシステムは準備され,本格的な会話AIメディア,サービスの登場の土壌は整いつつあるようにも見える.2020年に向かって,多くのサービスやデータは,そのようなAIメディアによって再整理されていくだろうとも予測される.同時に,市場の開拓とともに,新たなユーザエクスペリエンス(UX)デザインの領域も広がり始めている.現在Webデザイナーのような職能が存在するように,会話型に代表されるAIメディアのためのデザイナーが産業の鍵となりえるとするならば,そのような領域を目指す人が考えるべきこととは何だろうか? 早稲田大学在学中から米国カーネギーメロン大学に所属する現在まで,私は多くの会話AIプロジェクトに参画してきた.とりわけプロジェクトリーダーして主導した2017年の世界経済フォーラム(ダボス会議)公式バーチャル・アシスタントSARA(Socially Aware Robot Assistant)の開発の過程で, 第4次産業革命の只中にある社会の基幹技術たるAIシステムやサービスのデザインのプロセスについて深く考えさせられた.AI時代のデザイナーや研究者は今後しばらくどのようなことに気を使い,どのようなスキルを身に着けていけばいいのだろうか?ここでデザイナーとは,システムやサービス全体のコンセプトを戦略的に構想し設計できる人のことである.以下の点は,もともと会話AIメディアのデザイナーの持つべき素養に関して考察したものだったが,おそらく(とりわけ特化型の)AI産業・研究分野全般に言えることと思う. ダボス会議と第4次産業革命 SARA,ダボス会議公式バーチャルアシスタント メディアとしての会話 会話AIメディアデザイナーに必要な素養 どうして人は会話をするのか? ダボス会議と第4次産業革命 スイス・ダボス.スキーの名所でもあるこの小さな町は,年に一度だけ厳重な警備のもとで独特の賑わいを見せる.私たちの研究チームはこれまで2回,世界経済フォーラムに参加し(2016年中国天津市でのサマーダボス会議,2017年スイスでのダボス会議),我々のバーチャル・アシスタント・システムをグローバル・リーダー達に紹介してきた.各国の首脳陣やトップ企業のCEO,NGOのリーダーや著名な研究者が一つの会議場で往来する様は,まさに世界の経済と技術のうねりを感じさせるものだった. 現在,ダボス会議でグローバル・リーダー達が共有する時代の文脈は「第4次産業革命」である.その革命の過程で人間と機械は様々な形でより融合してゆくに違いない.昨今のAI技術の爆発的なブームによって凶暴的に進行していくようにも見える新しい産業革命に対する期待と不安が,今広く社会が抱いている感情だろう.SARAは,その第4次産業革命の文脈の中で「人とAIがコラボレーションできる未来」のビジョンを示すべく発表された.AIの進化の過程で多くの職業が実際に代替され人間のアイデンティティの再規定が求められることが不可避だとしても,AIは本来,人と協同し人類全体の創造性や生産性を向上させるために存在するコラボレーターでなければならないはずである.そのとき,AIにはコラボレーション相手である人間とうまくコミュニケーションがとれる社会的知能が必須だろう.我々はそのような「Social AI」,とりわけ人間と自然言語を介してコミュニケートする会話AIの研究を続けてきた. さて,話の発端は,世界経済フォーラムから未来の会話エージェントのビジョンを展示してほしいと,私の所属するカーネギーメロン大学に依頼があったことである.ダボス会議は,各界のリーダー達集うセッションが会場の至る所で行われるのと同時に,最先端技術のショーケースとしての側面があり,カーネギーメロン大学がダボス会議の常連であったこともあり今回我々のチームに白羽の矢が立ったのだった.会議の参加者は,そのような先端技術にインスピレーションを受けながら,世界の未来について議論を交わすわけである. 我々は,その時点で持っていた一連の技術のデモををスイスからやってきた世界経済フォーラムのプログラムコーディネーター陣に見せ,続いて幾つかの案をその場で議論した.彼らの披露したエピソードの中で印象的だったのは,「ダボス会議にも明確に身分のヒエラルキーが存在する」ということだった.ダボス会議の主目的の一つはグローバル・リーダーたちのプライベートなミーティングなのだが,例えば初参加の(比較的無名の)若手の人がいきなり「ビル・ゲイツと面談したい」と思っても限られた会期中の時間ではそれを実現させるのは簡単ではないだろうだろう.まして名も知らぬ人から突然誘いが来ても,わざわざ優先度を変えてまでその人に会おうというのは抵抗があるに違いない.そのようなとき,例えばヴァーチャル・アシスタントが参加者同士のマッチメイキングをして「この方が〇〇の点であなたと共通点を持っていて,あなたに会いたがっているようです.今のスケジュール的には,この日にミーティングの予定がなんとか取れそうですが,どうしましょうか?」というような提案が相手方に伝わったならどうだろうか?エージェントシステムの新規性に加えて,もし社会的な気遣いをもったエージェントに対する信頼感や愛着が確立していたならば,彼らは実際に直接会ってくれるのではないだろうか?政治・経済のキーマンばかりが集うダボス会議で,もしAIが参加者同士をマッチメイキングし彼らのネットワークに影響を与え,かつ彼らがそのAIの仕事を信頼してくれるのならば,それはまさに直接的に世界を変えることになると言えるのではないか? プログラムコーディネーター達はそのアイディアに夢中だった.その場で彼らから,ダボスの本会議の前に第一弾のプロトタイプとして中国天津市で行われるサマーダボスに出展してくれないかと依頼があった.この時点で,そのサマーダボスのおよそ4ヶ月前である.「マジかよ」というのが本音.新たに開発チームを編成するにしても,ほとんどスクラッチからフル稼働するシステムを組み上げるには時間が無さすぎる.ちょっとしたデモならまだしも,いきなりダボス会議に持っていくのは無謀でしょうが.「金と人員は提供する.欲しいものは言ってくれ.」大学の首脳陣も乗り気の様子.短くも険しいプロジェクトの始まりだった. SARA – ダボス会議公式バーチャルアシスタント 我々の設計プロセスはおよそ決まっている.タスクを選んだ次にすることは,人間同士の会話データを集めることである.ここでいきなりシステム開発に入らないことが重要なのである.ともすると既存の技術の寄せ集めでボトムアップにシステムのデモを作ってしまいがちだが,とにかく示すべきビジョンを表現できる会話インタラクションとはどのようなものか,そのシナリオを考えなければならない. SARAプロジェクトの主たるコンセプトは,来場者と親密な関係を築き(「ラポール」と呼ばれる現象),それによって醸成される社会的な信頼の基盤をもとに,会議における各種のサポートを行うことである.具体的には,先述のとおりゲストのダボス会議で達成したいゴール(典型的なものは,第4次産業革命に関する先端技術について深く知りたい,投資家を探したい,ネットワークを広げたい等)をサポートすべく,人を紹介したり,トークセッションや公式・非公式のパーティの推薦,あるいは会場の場所案内やダボス近隣でのレジャーなどの案内などができる. SARAの典型的なシナリオはこのようなものである.ー ゲストがバッヂをスワイプすると,SARAは現れ,会話が始まる(世界経済フォーラムのデータベースからプロファイルがロードされる).会話の中でSARAは,相手の発話に適切に反応しながら自分のことを説明するような自己開示的な発話をしたり,ゲストの自己開示を促すような戦略を用いて自然に彼らのゴールを特定したり,再訪してくれた人には前回の共通体験を指摘してみたり,十分な親密さが築かれたと認識したときにはSARAはあえて失礼なことも言い出したりする.そのように,会話の段階や親密さ,相手の反応に合わせてSARAの発話スタイルや内容は変化していく [SARAシステム紹介論文]. 開発にあたって,私たちはまず過去にダボスに参加したことのある参加者にSkypeをかけ,エージェント役のチームメンバーと実際に会話をしてもらうことでデータを収集することにした.本来であれば,すでに社会に存在する特定の職業の人を呼んできてデータを取るべきであるが,あいにくダボス会議でそのようなマッチメイキングの仕事をしている人はいない.つまり具体的なロールモデルがおらず,自分たちで職能を定義するところから始めざるを得なかった.かくして収集したデータの分析結果と,それから一般的な「パーソナルアシスタント」のトレーニングマニュアル等から,開発すべきエージェントのゴールや戦略,そして典型的なシナリオなどを定義していった. 同時に,新たな開発チームの編成も行った.すでに先行していた,カーネギーメロン大学と米国Yahoo!バーチャルアシスタント研究開発プロジェクト「InMind」の開発メンバーの協力を取り付け,またキャラクターのデザインと開発のために大学内のエンターテイメント技術研究所(Entertainment Technologies Center),およびピッツバーグ市内の3Dゲーム会社に協力を依頼した.いくつかの某有名IT企業の研究部門にも部分的に言語処理の技術や学習データの提供などに関する協力も依頼している.その他,言語処理や機械学習,アート専攻の学生もリクルートして,小さいながら機能的なチームが出来上がっていった.音声認識のための言語モデルの学習(特定のタスクにおける音声認識率を上げるためには,当該ドメインにおける発話データを用いてモデルを学習させる必要がある),カーネギーメロン大学謹製の顔表情認識モジュールとの統合,発話意図理解や対話制御モジュール群の開発とモデル学習,発話コンテンツの作成,世界経済フォーラムのバックエンドシステム(個人認証システム,レコメンドエンジン,メッセンジャーシステム)との統合,キャラクターとそのアニメーションの作成.さらに,現場の展示ブースの設計も行わなければならななかった(音声や画像認識を使う都合上,ブース内の環境は慎重に設計される必要があった).会話システムは,まさにAI技術の総力戦である. 会期の前日,世界経済フォーラム創設者のクラウス・シュワブ氏の視察が行われた.ここでも一騒動.会場ではネットワークが不安定になることも稀でなく,氏の訪問する直前にシステムはストップ,急いでプログラムを修正し,ブースに入ってくる直前にプログラムの修正が終わり,SARAはいつもどおりゲストを迎えた.「Hi, I’m SARA. Whom do I have the pleasure of meeting?」 「面白いですね,是非,ダボスにも来てください.」 2017年1月,我々はダボスにいた.世界経済フォーラムの計らいで,SARAのブースは約2000人の参加者が往来するメイン会場の目抜き通りに位置した.世界経済フォーラムのスタッフ内でもSARAおよびSARA開発チームはすでに知られた存在だった.今回はSARAとゲストがセルフィーを取れる機能も付いた.案の定,それは大受けだった.SARAのブースの前には常に順番待ちの列ができた.「妻にSARAを体験することを勧められて,今日来てみたよ」そんな声にたくさん出くわした.会期が進むに連れて,次第に特製のSARAバッヂをつけた来場者たちが目についた [ダボス会議報告論文]. メディアとしての会話 ところで私は少年時代,映画監督になりたいと夢見ていた.映画は19世紀の終わりごろに発明され,20世紀にその表現手法が高度に洗練されていたメディアである.そこでは「モンタージュ」と呼ばれるカット編集で時間と空間を編集してストーリーを表現される.人類は,世紀を経てそのような映像の文法に慣れ,映像メディアのリテラシーを獲得することによって自然に鑑賞され,また産業も大きく発展してきた. 一方,人同士,あるいは人とAIの会話もまたメディアとして捉えることができるだろう.クロード・シャノンの「情報伝送路モデル」では,情報は送信者の意図が特定のコードに変換され(エンコード),ノイズのある伝送路を経て,受信者に解釈(デコード)される.これはまさに会話である.会話では物理的な音声信号はもちろんのこと,顔の表情やジェスチャーも含めて極めて多くの社会的な信号が同時に送受信され,会話の参加者同士でそれらの意味が解釈される.それが可能なのは,その情報を授受する参加者同士が「通信規約(プロトコル)」を有しているからだ.会話における意味の解釈については,社会言語学などでも長く研究されてきたが,このプロトコルは文化によっても大きく違う.例えば長い沈黙や頷きの行為の解釈は,日本人とアメリカ人では全く違う.このように会話という行為の中では,人間の生得的な認知機構と特定の文化の中で獲得してきた意味の解釈の機構が複雑に絡み合う.ゆえに,従来のメディアよりも遥かに複雑な機構が会話メディアには求められる. 他のメディアと比較したときに,会話AIメディアには少なくとも3つの重要な特性がある. インクリメンタルなメディアである:情報は漸次的に送受信される 複数の時間の重なり合ったメディアである:複数のタイムスケールで意味が処理される 相互理解的なメディアである:相互の理解に基いて進行されなければならない また,会話では特有のコンテンツデザインの考え方が必要になる.映画ではすべてのカットが同一のタイムラインに並べられてストーリーが語られるが(鑑賞者の理解にかかわらず映画は進行する),会話は漸次的かつ相互協力的に進行するメディアなので,語られるべきストーリーはいわば相互の協力によって成立する.例えば一つの発話も,相手の反応を見ながらその場でデザインして生成(articulate)される.会話の話題の選び方もその場の流れで決まるでだろう.これは極めて複雑な現象である. 会話AIメディアは,このような会話の特性に則ってデザインされなければならない.さもなければ,非常にちぐはぐな回答ばかり返すつまらないチャットボットになってしまうだろう.間が悪かったり,ユーザの置かれているコンテキストをよく理解できていなかったり,そもそも基本的な言語理解ができていなかったり.SARAも含めて,現在のほとんどすべての会話AIはこうして失敗していると言えるだろう.     会話AIメディアデザイナーに必要な素養 では未来の会話AIデザイナーは,どのようなことに気を使い,またスキルを身に着けていけばいいのだろうか?ここでデザイナーとは,サービスやシステム全体のコンセプトを設計できる人のことである.これは会話AIメディアに限らずAI全般に言えることだが,新しいタイプのデザイナーは以下のことを深く考えなければならないだろうと思う.以下の点は,もともと会話AIメディアのデザイナーの持つべき素養に関して考察したものだったが,おそらく(とりわけ特化型の)AI産業・研究分野全般に言えることと思う. ドメインの発見 – まずよいドメインを探さなくてはならない.革新的なコンセプトを表現できる最善のタスクシナリオは何か? 設計の上流の段階で現実世界の問題を解決しうるAIのタスクを明確に設定することが研究やビジネスの成否の大部分を占めると言えるだろう. 価値を与える – DeepMindのAlphaGo成功は,そもそも彼らが囲碁という,価値が明確なドメインを選んだことにある.例えば,会話という現象ならどうだろうか? いったい会話AIは何を最適化すればいいのだろうか? ここがデザイナーの腕の見せどころである(価値を自動学習すること自体も活発な研究分野であるけれども). 暗黙知のリバースエンジニアリング […]

Blog, Photography

InMind Player Portraits

In 2014, Yahoo! and Carnegie Mellon University (CMU) have announced a five-year, $10 million partnership, called the InMind project. The goal of the InMind is to invent, implement, experiment, and iterate with an intelligent assistant for mobile devices. Major companies are already exploring intelligent assistants such as Siri, and Google Now, M, and Cortana, and we expect they will continue to develop these. To make an impact as a university, our […]