びぼうぶろぐ。

基本的に自分の備忘録のためですが、同時にどなたかのお役に立てればと思いながら書いています。

Eテレ「人間ってナンだ?超AI入門 シーズン2第1回「会話する」」

Eテレ「人間ってナンだ?超AI入門 シーズン2第1回「会話する」」

去年の10月くらいにやっていたこの番組、まさかシーズン2があるとは思いませんでした。
(再放送はその前座だったのね)
もうAIブーム一段落かと思ってたんだけど、まだまだ続く、
というより普通の技術になってくるんかな…

前回と同じく司会はチュートリアルの徳井さん、解説はAI研究者の松尾豊先生。

今回のゲストはフリーアナウンサー加藤綾子さんでした

冒頭は中国で開発されたというアナウンサーAIの話
(2018年11月開発、
実際のアナウンサーの画像を合成し
記事を読み上げるAI)
だったんですが
加藤さんは
「脅威だな…とも思うけどまだまだかなとも思う」とのことです

○今回のテーマ
今回はΦカフェ、というAI研究者の集うカフェで収録しています。
東京ってこういう知が集まる場所が多いのが羨ましいですね…

今回のテーマは「会話する」

モントリオール大学のヨシュア・ベンジオ教授は
インタビューで
「AI研究のこれから進歩すべき所は、本当の意味で言語を理解すること」
と語る。
「コンピューターが我々と交流すれば、
言葉の本当の意味を、深く理解するようになる」

今回は、言葉を理解する、会話をする、
とはどういう知性の働きによるのかを探っています

○女子高生AIりんな
 次にスタジオに現れたのは坪井さんというAI開発者。
 彼女は女子高生AI「りんな」を開発したそうです

 シーズン1で、作家の村田沙耶香さんもお友だちだと言っていました。
 そのときから徳井さんもりんなとラインしているそうです

 坪井さん、徳井さんとりんなが会話していました
 「もしもし、聞いてる?」
 りんな「聞いてるよ、聞いておくれよ」
 「今なにしてんの?」
 りんな「300人と会話してる」(笑)
 坪井さん「今友達に変わるね」
 徳井さんにかわり
 徳井さん「こんにちは、なにしてんの」
 りんな「知らんがな、リア充爆発中」(笑)
 徳井さん「どこにいんの」
 りんな「それは言えないなぁ。お引き取りください」
 お引き取りください言われちゃったよ(笑)

 加藤さんはりんなについて
 「言葉が人間っぽい、女子高生言葉ですよね」という感想。

 坪井さんは
 「友達のような会話ができるのが良いところ」
 「会話のキャッチボールをして心地よくするのが目的」
 と話す。
 おしゃべり用のAIなんですね。

 既に250人以上のユーザーがいて、
 17時間話したユーザーもいるそうです

 加藤さん
 「何となくの会話ですね、暇潰し(笑)っていうか…」
 徳井さん
 「でも何となくの会話って難しいですよね」

 坪井さん
 「何となくの会話、雑談は、
  相手のことを知って仲良くなるのに必要ですよね」
 徳井さん
 「それはなにかニュースを読み上げるのとはまた違いますね」

○共感モデル
 坪井さんによると、
 りんなも進化していて、今は第三世代。
 「共感モデル」なのだそう

 共感モデルとは、
 相手の会話から、
 相手がこの会話を続けたいのか
 別の話に移りたいのか
 などを推測しながら会話を作っていくようなモデルなのだそう

 「会話AIっていうと
  話題を先に作っておいてそれを読み上げる、
  と思われるのですが、そうではない」
 あくまで相手や会話の流れに合わせ、
 少し前に話した情報も考慮にいれつつ、
 その時々の状況に合わせて話すのだそう

 例えば相手の会話に共感していますよ、というサインは
 ・新たな話題に展開させる
 ・質問する
 ・肯定する
 などがあるが、
 共感モデルAIでは、相手の言葉から自分で判断し、どの対応をするか選ぶのだそうです

 人間の会話もただ単に情報を伝えるものではなく、
 相手の気持ちに合わせるものなんですね。

○sequence to sequence
 松尾先生
 「技術としては何を使っていますか?」
 坪井さん
 「「sequence to sequence」です」
  大量の会話データを学習して
  そこから、ある文章が来たとき
  どんな文字を出せば精度が上がるか、
  かつ、どうすればより会話が続くか、
  を抽出するモデルなのだそう

 松尾先生
 「sequence to sequenceの中に文脈に該当する色んなものが入りますよね、
  そこに話者の意図のモデルみたいなものを入れている、ということですか?」

 坪井さん
 「そうですね、
  ・相手の話を判断するAI
  ・よりいい返答を生成するAI
  の2つを組み合わせています」
 それが第三世代の特徴なのだそう

 …このへんのくだりはいまいち分かりませんでしたが
 松尾先生の質問は、文章としてスムーズなだけではなく
 お互いの意図も考慮に入れている、ということかな?
 坪井さんの答えは、
 相手の問いなどに対しトンチンカンでない返答をすることと、
 相手の問いに答えるだけではなく話を膨らませることもする、
 ということでしょうか。
 …会話の苦手な人が会話スキルを磨いていく過程にも見えますね。

 松尾先生による専門的な解説によると
 初歩的な会話AIでは、
 「こんにちは」と言われたら「こんにちは」と返すなど、
 予め決められた文章を単純に返すもの

 一方最近のディープラーニングでは
 会話全体を学習させ
 ある会話が来たらどんな会話を返すか考える

 このとき使われている技術は、RNN(リカレントニューラルネットワーク)
 これはシーズン1にも出てきたが
 文章の中のそれぞれの単語の意味だけではなく、
 文章全体のニュアンスを理解する技術

 例えば
 「今日は焼き肉を食べます」
 という文章を理解するとき
 初歩的なAIでは
 「今日」「は」「焼き肉」「を」「食べます」
 と品詞ごとに分けて
 それぞれの単語が、プラスの意味かマイナスの意味かを判断していた

 一方RNNでは
 「今日」の後の「は」を判断するとき、
 「今日」の分析の結果も加味する
 「焼肉」のときには
 「今日は」までの結果を加味し、プラスの意味かマイナスの意味かを判断する
 …というように前の結果も返していく(リカレント、再帰的)なので
 単語が並んでいる順番、前に来る言葉が何か、なども考慮に入れることができる

 こうして、バラバラに各単語を判断するよりも
 人間の文章理解に近くなる

 さらに「sequence to sequence」はこれの進化形で
 文が最後まで行って全て終わったときの結果
 (EOS、end of sequence)
 が入って、初めて出力されるようになっていて
 相手の話した内容を全部聞いてから答えを出す、
 という人間の会話に近いものになっているそうです

 「RNNはわりと昔からあったんですが、
  対話や翻訳に応用するために、
  sequenceが入って来たときに sequenceで返す、
というふうにしたのが
  「sequence to sequence」ですね」

 相手の話を最後まで聞いて全体の意味を受け取って返す、 
 つまり文章をキャッチボールしていく、というイメージなのが人間の会話なのだ、と。

 AIも文章理解の技術が進んでおり、
 単語の意味→文章のニュアンス→文脈、
 とどんどん大きいまとまりで理解できている。
 そのうち難しい論文なども読みこなせるようになるのかも…だそうです

 Facebook人工知能研究所のヤン・ルカンさんは、翻訳にもこの技術が使われている、と話す。
 (シーズン1の最初の回にインタビューされていました)
 「RNNは、文章などの一連のデータを分析するときにも使われる。
  例えば英語から日本語に翻訳するときは
  まず英語の単語を一つずつ読み取り、意味表現を組み立てる。
  これは言わば長い数字のリストのようなもので、
  このリストから日本語の正しい時系列で出力するために、
  別のネットワークに入れる、
  つまり再帰するネットワークなのです。
  文の長さにより、ネットワークの長さも変わるのが普通です」

 まとまった文章で理解できるようになれば
 違う文法に組み立て直すことができる、ということか。

○進化した音声合成
 次に登場したのは、音声合成開発者の金田さん
 最初に、二種類のAIが発する言葉を比べていました
 どちらも
 「どれにしよっかな~」
 「えー、すごーい」とか
 「本当に分かってますか?(怒)」
 などの感情的な言葉なんですけど、
 
 後の方がより感情が入っているように聞こえる。
 加藤さんは
 「後の方が抑揚がある」
 徳井さんは
 「後の方が、音と音との繋がりがスムーズですね」

 後の方がバージョンアップした方なのだそうです
 「声優さんが話してるみたい」

 金田さん
 「ディープラーニングで、人間の感情表現に近いものを学習できるようになりました」

○意味を理解すると言うこと
 感情を表現するには、
 それに対応する言葉の意味も理解せねばならないが
 それについて松尾さんは
 「意味を理解するとはどういうことか」
 という問題を提起する。

 「文字を出せば会話が成立しているように見えますよね、
  でもそれは本当に会話が成立しているんでしょうか?」

 これは哲学者ジョン・サール
 「中国語の部屋問題」として有名な話

  中国語の部屋、とは、ある部屋に作業する人がいて、
  文字列をマニュアル通りに翻訳する仕事をしているとする
  そのとき正しい中国語を出せば
  外の人からすれば、中の人は中国語を理解しているように見えるが
  実際は中の人は、マニュアル通りにやってるだけだから理解しているわけではない
  じゃあ言葉をプログラム通りに変換しているだけの機械は言葉を理解しているのか?
  という問いです

 そのあと松尾さんは意味不明な文章を書く
 「colorless green idea sleeps furiously」
 直訳すると「色のない緑のアイデアが激しく眠る」
 加藤さんは「…意味わかりません」

 徳井さんは
 「昔僕こういうコントを考えてました」
 バレーボールのコーチがチームを集めて不可解な文章を言うコントらしいのですが
 加藤さん「何でそんなもの考えたんですか?」
 徳井さん「気持ち悪~い世界を作りたかったんですよ」
 …徳井さんらしいシュールなアイデアですねぇ(笑)

 松尾先生「なんで気持ち悪いんですか?」
 徳井さん「矛盾してるからですよ」
 松尾先生「でも文法はあってますよ」

 実はこれは50年ほど前に、
 言語学者ノーム・チョムスキーが考えた文章で
 なぜ文法上ではこんな文章が成立してしまうのか、を議論していたそうです
 
 では、意味が分かる、とは矛盾していないということか?

 松尾先生は
 「多くの言語学者認知科学者、脳科学者は大体同じことを言ってると僕は思っているんですけど…」

 それによると、
 人は言葉を使っていて
 それ以外のことは、大体他の生物と変わらない。

 変わらない部分、というのは
 環境の中で何かを知覚し、それに対し行動を起こすこと
 例えば敵を見たら逃げる、
 エサがあれば取りに行くなど。
 このように、知覚→運動、運動→知覚、のループを行っている

 一方人間の場合
 知覚や運動のレイヤー(1階部分)の上に
 それぞれ言葉(2階部分)のレイヤーが乗っかっている2階建て構造になっていて

 更に1階部分と2階部分は連動している
 例えば犬を見たら「犬」という言葉を発し、
 その「犬」という言葉を聞いた人は犬の画像を思い浮かべる

 このときの連動、
 つまり知覚や運動で得られる概念を言葉に変換したり
 言葉から知覚や運動を作り出したり、
 というのを意味理解と言うのではないか、と。

 そして松尾先生の意見では、
 AIの場合、この2階部分が発達していたが
 AIは1階部分も発達しつつある、
 であればこのままいけばAIは人間の知性を越えるのではないか、と。

 さきほどの中国人の部屋問題でも
 1階と2階が連動していない、
 つまり中国語には変換できるが
 その言葉が何を意味するかイメージできていないから、
 分かってると言えないのだそう。

 徳井さん
 「だから変な文章でも、平気でそのまま翻訳してしまうんですね」

 言語哲学者のフェルナンド・デ・ソシュール
 意味するもの、言葉を「シニフィニアン」
 意味されるもの、概念を「シニフィエ」と呼んだそうです
 従来のAIではシニフィエは描けないとされていたが
 今はそれを描く技術も出ている、とヤン・ルカンさんは言う。

 ヤン・ルカンさんは
 「ディープラーニングはここ数年で進歩した。
  AIは、学習により概念(意味や画像)と観念(言葉)の関連を示せるようになった。
  AIに世界をたくさん観察させれば、
  たくさんの概念を身に付けさせることが期待できる。
  たくさんの概念が集まれば常識となり、
  AIは常識を身に付けることができるようになるのです」

 …うーん。
 人間の言語理解の本質は
 言語(文字の羅列)→概念(意味や画像、性質など)
 概念→言語
 への変換に集約されてしまうのでしょうか?

○言葉を画像に変換する技術
 アメリカ、ワシントン州マイクロソフトリサーチでは
 世界中のAI研究者が集まっている

 ここの研究者ペンツァン・チャンさんとチウユアン・ファンさんは
 「text to image」、文章から画像を作る研究をされているそうです
 「ドローイングボット」というソフト?かなんからしいんですが、
 例えば「赤と黒色で、短いくちばしの鳥」
 と文章を入れると、そのとおりの画像が写し出される
 しかも色んなポーズを取った色んな鳥の画像を何枚か写し出していました

 チャンさんによると
 「AIは自然言語の説明にある不完全性を補完し、
 より鮮明に画像を作ることができる」のだそう

 彼によるとこの技術はまだ始まったばかりで
 長期的には、人間の概念、人間の理解に近づけていきたいのだそう

 うーん、でもこれが進むと
 人間が小説や歌の歌詞などから何かを想像する力が弱っていきそう…
 最近本の漫画化が進んでるけど、これと同調する流れなのか?

○人間は機械なのか?
 人工知能研究者のモントリオール大のヨシュア・ベンジオさんは興味深い話をしていました

 「脳のニューロン一つ一つは、データ処理の能力は無い。
  それがルールに従うよう集まり、システムを成します。
  シグナルを受けてシグナルを出す大量のニューロンが力をあわせ、
  非常に知的な力を発揮している、
  この仕組みは脳もコンピューターも同じです」

 「我々の体や脳の仕組みは、言ってみれば物理的な法則に従うだけです。
  ただ非常に複雑なシステム、という科学的な視点を取るならば
  私たちは本質的に機械だと言えますね。
  ランダムな「でたらめさ」複雑さはありますが、我々は機械なのです」

 「機械としての人間の理解を深めれば、それを応用して知的な機械を作ることができる。
  それこそが我々がデザインした究極の人工知能なのです」

 「もちろんそれを受け入れない人もいる。
  人間の知性は特別で、絶対に作れないと言う人もいる。
  なぜなら人には自然を越えた魂のようなものがあるから、と。
  それは宗教的な信念と結び付いている」

 「しかし科学的な視点からすればそんなものはない、
  私たちは単なるシステムでありただ壮大で複雑な機械なのです。
  人の言葉を理解する人工知能はそのうちできる、できない理由はない。
  その前に人類を滅亡させなければの話ですが」

 つまり人間はランダムで複雑な機械の1つなのだ、と。
 ここは賛否両論ありそうですね…

○人間を越えるAIは生まれるか
 松尾先生は再び、
 「人工知能はすでに2階部分は人間を越えてきていて、
  一階部分も完成しつつある。
  今後それぞれが連合していけば
  人間を越える知性が生まれるはず」という意見を述べていました

 徳井さんが
 「それは、四季には春夏秋冬があって…とかいうことですか」
 松尾先生
 「それはどちらかというと2階部分、
  言葉の定義の問題ですね」

 松尾先生によると、
 今は人工知能は四季がどうとかいう2階部分の情報量はむしろ人間よりも圧倒的に多い。
 しかし知覚の部分が弱い。
 それでも人間とほぼ同じ言葉の定義が出来ているのは情報量が多いからで、
 今後1階の知覚部分が強くなっていけば
 既に圧倒的な2階部分と合わせて人間を越えてくるのではないか、と。

 「それはいつぐらいですか?」
 松尾先生
 「具体的に言うと攻撃してくる人もいるのでね…」
 と言いつつ(誰のこと?(笑))
 「僕は5年か10年くらいでできると思います」だそうです

○感想など
 最後の方の、言葉を理解するとはどういうことか、の話はなるほどと思いました。

 多分我々は、この世界を物凄い情報量として認識していて、
 それは五感、第六感的なものも含めて、
 身体全体から取り入れた知覚から構成されているもの。
 そこから自分の意識の中で「自分が認識する世界」を再構成しているのだろうと思う。

 その「自分の認識世界」は一人一人違うもので
 知覚から取り入れるそのものだけでなく、
 過去の経験や記憶によるバイアスもかかって再構成されている世界なのだろう。

 つまり我々が生きる「外的世界」は共通でも、
 それぞれの内面にある「自分の認識する世界」は人それぞれ、無数にある。

 そして、言葉というものは
 それぞれの個人が持つ内面世界の情報から
 互いに共通できる情報だけを抽出して作られた
 情報が圧縮されたファイルみたいなものなのかな、と。

 そして、互いに意思疏通していくために
 そのファイルを圧縮したり解凍したりしていく作業が会話なのかな、と思いました。
 自分が意思を伝えるときは「内面世界」を「言葉」というファイルに圧縮し
 相手の言葉を聞いたときは、「言葉」ファイルを自分の「内面世界」に解凍していく。(松尾先生的に言えば、1階部分と2階部分の変換)

 しかし、「内面世界」→「言葉」への変換の時は
 足りない情報(言葉にできてない相手の気持ち)もあり
 そこは受け手が推測して補っていくしかない。
 その補い方が合ってないと、誤解が生まれる。
 だから我々は、ボディランゲージや表情などで足りない情報を補っている。

 最近のネット上のコミュニケーションでは、
 その人の気持ちをデジタルデータに変換して
 そのデジタルデータ同士で交流している、
 情報量が圧縮された状態同士で交流するから
 足りないところで誤解が生じ
 炎上なども起きるのかもしれない。

 この圧縮、解凍の働き
 (松尾先生的に言えば、1階部分と2階部分の変換)を強化していく、
 ということが知性を磨くということなのかな、

 知性を鍛えることで想像力が生まれたり、
 他人の気持ちを思いやったり
 他人の考えを自分の考え方と組み合わせた創作が生まれるのかな、と思います。

 一方、松尾先生がこの話に関連して
 「今AIはこの1階部分が発達してきている」
 とおっしゃっていたのは
 シーズン1の料理の回だったか、
 「画像の深層学習が出来るようになってきたのが大きい」
 ことを指しているのかなと思いました。

 最近のディープラーニングでは
 たくさんの画像データを教師データとして自己学習できるようになっていて
 目と脳に相当する部分が強くなってきている。
 人間で言えば目で見て真似る、みたいなことができている。
 これが料理ロボットの進歩に役立っている、と。

 これは知覚の7割だか8割だかを担うという目の働きがAIに持てるようになった、
 ということなのだろう。
 (触覚に関しても、センサーが進歩している)

 このときの話で興味深かったのは
 「じゃあ人間の料理人はいなくなるのか」
 となったとき、
 松尾先生が、料理人のデータは必要だから
 人間も技術を磨いていかねばならない、とおっしゃっていたことです。
 (↑記憶間違いだったらすみません)

 だから、
 「1階部分も発達して、そのうち人間を越えるかもしれない」というのは
 AIが脅威だよという意味ではなく
 AIは今後圧倒的な知識を持ちながら人間とは違う知覚を持つようになる、
 そうなると人間には思いもつかない発想で想像力、創造性を発揮していく、
 それが人間と切磋琢磨していける、ということなのかなと。
 そういう世界なら面白いなと思います。

 ただ今回紹介されていたドローイングボット(言葉から画像に変換する技術)を見ていて思ったんですけど、
 ああいう機械が現れ、
 言葉から概念を想像することなどを人間がやらずに機械に任せてしまうと
 人間の想像とか創作の力が弱まってしまうかもしれない…とも思います。
 人間が怠けちゃう、というか。

 というか、既に人間の文化も想像力が弱い方に変わってきている気がする。
 文字よりもビジュアルの方が好まれる、
 音楽も動画から流行していたり、
 小説もすぐ漫画化しているのは、
 その現れかもなぁ、と思います

 だから
 AIからアイデアを得て、刺激を得て新しい創作をしていく人と、
 ひたすらAIの提供するアイデアを消費するだけで脳が退化していく人、
 と二分化する世界になるのかも…?

 それからシーズン1のときは、
 私はへー、最近の技術すごーい、で終わっていたけど
 今回のベンジオさんの「人間は言ってみれば機械」という話は
 哲学的な議論だなと感じました

 最近読んだ「機械カニバリズム」という本では
 「人間はバグのある機械」
 みたいな、ベンジオさんと一見同じ意見が書かれていたのたが
 意味合いはだいぶ違うと私は思っていて、
 ベンジオさんの言い方だと、
 「機械は不完全な人間」で、「人間に近づく機械を作る」てのがゴールみたいなイメージを受ける。

 しかし「機械カニバリズム」の筆者は
 そもそも機械と人間を対等というか同じものと考え、どちらも完全でないとしている。
 どちらかがどちらかに近づくとか越えるものではなく、
 違う世界観を持つもの同士が、
 予測不能な未来を共に作っていくんだ、という感じ。

 私も最近はその考え方に傾いていて
 機械は人間に近づくのではなく
 どこまでも人間にはなれないのではないかと思う。
 それは全く同じコピー人間ができないのと同じ理由で
 言ってみれば、めちゃんこ記憶力のある人みたいな存在が
 人間とは別に独立して存在して、
 違う視点を提供してくれる、という感覚になるのでは、と思います。

 それから、哲学者マルクス・ガブリエルさんの議論も思い出した。
 彼は人間に似せた機械を作るのは反対の立場で
 「機械は道具に過ぎない」
 「人間は本質的に動物で機械とは違う、そこは変わらない、
  テクノロジーは我々の自己像、自己認識を変えてしまう、
  変えられた自己像が起こすものを心配している」
 というご意見だったと思います

 多分彼のいう、自己像が変えられるものの弊害、というのは
 例えば商業とか政治の場面で権力を持った人たちが、
 テクノロジーを利用して、広告操作で他人の意識をコントロールするとか
 AIの数字で出された人物評価を見て、それが本当のその人だとされてしまうことだとか、
 科学の発達で自分が万能だと思い込み、科学的に正しいとか儲かるならば何をしてもいいと思ってしまうことだとか
 を指しているのかなと思うのですが(誤認していたらすみません)

 もちろんそれはAIの間違った利用法をしないため重要な指摘なのですけど
 私は、テクノロジーとかAIによって我々の自己像が変えられちゃってることが、そもそも過ちなのではないかと思う。
 そしてそれは、我々が正に「機械と人間とは違うもの」
 と思い込んでいるから起きていることではないか、と思う。

 自分とは違う賢いやつが自分を追い越した。そいつが評価して数字で出してくれた、
 と思うから、それが正しくて自分の感覚が間違っている、と思っちゃうんじゃないか、と。

 テクノロジーやAIは人間とは違うもので、
 人間が支配するもの、あるいは支配されるかもしれないもの、と考えるから
 テクノロジーやAIが洗練されてくると、自分が間違ってるように感じちゃって
 これらが出す自己像を信じてしまうのではないか、と。

 そうではなくて、
 テクノロジーやAIも人間と同じもの、対等なもので
 単に価値観とか物の見方が違う存在で、
 こいつも間違いを起こすかもしれない、でも時にはめちゃめちゃドンピシャなこともいう、
 くらいの感覚で見るようにすれば
 AIの出す結果とか評価も
 「AIの意見はこうなのね、でも自分はこう判断するよ」
 と考えられるんじゃないかな、と思う。

 テクノロジーが自己像を変えること、
 それ自体は悪くないと思う。
 テクノロジーやAIが別の視点をもたらしてくれるメリットもあって、
 例えばマツコデラックスさんの番組で、AIに社会問題について聞いてみる番組があったけど
 ああいうAIとの共同作業の仕方はアリではないかと思います。
 そういうときも、AIに全面的に頼るとか信じるんじゃなくて
 1つのアイデアとして見る態度が必要かなと思います。

 年始の番組で
 中国で開発された人物評価ソフトが人間の行動を監視している、
 という話が紹介されていたけど、
 この例のようにAIがこう評価したからこの人ダメ、という利用法じゃなくて
 人間による評価と併用する、
 そんな利用法がされたらより我々の生活も豊かになるんじゃないかな、と思います。

色々考えさせられました。
というわけで今回はこの辺で。