「データ活用のための2つの頭の使い方」Takram 櫻井稔×データビークル 西内啓
デザイン・イノベーション・ファームTakramのメンバーがデザイン・テクノロジー・ビジネス・文学などの話題を幅広く展開するポッドキャスト「Takram Cast」。Takramのディレクター櫻井稔さんとデータビークルの西内啓が「データとデザイン」について3回にわたり語りあったセッションの書きおこしです。第2回目は、データ活用のための2つの頭の使い方について、データを可視化したその先を語ります。(まとめ・文責/編集部)
シティズンデータサイエンスラボは「データサイエンスを全ての人に」を掲げる株式会社データビークル(https://www.dtvcl.com/)が運営する公式noteです。
「ボトムアップの認知とトップダウンの認知」
櫻井 今回は「データ活用のための2つの頭の使い方」というテーマでお話をしていきたいと思います。まず「2つの頭」とはいったい何かということから話していきましょう。
西内 前回は、どんなデータでも見えるようになった反面、どこを見ていいのか分からなくなったという話がありました。私は大学時代生物系の勉強をしていたので、顕微鏡で細胞を観察した経験があるのですが、櫻井くんはリボソームとかリソソームってわかりますか?
櫻井 分かりません。
西内 細胞の中にあるつぶつぶなんですが、細胞を色で染めて観察するときに、リボソームのことをまったく予習せずにとりかかると、そのつぶつぶがリボソームなのか、ガラスに付着したゴミなのかよく分からないんですね。
別の例を挙げてみましょう。皆さん小学生の時に朝顔の観察をした経験があるのではないかと思いますが、私は朝顔の種をまいてから7回ぐらいの観察レポートに先生から全部バツをつけられたんです。自分ではちゃんと観察して書いているつもりなのですが、先生から朝顔はこんな形をしていないと言われてしまったんですね。
結論から言うと、私は植木鉢から生えてきた雑草をひたすら細かく書き続けていたんです。朝顔は双子葉類ですので、双葉といわれる2枚の葉が出てくるのですが、私が観察していた雑草は葉が1枚だけ出てくる単子葉類だったのですね。先生は朝顔が双子葉類と知っているので、私の絵を見て観察が足りないと言うのですが、当時の私にはそんな知識がなかったのです。見るべきポイントを知らされずに認識が誤っていた例なのですが、そうしたことは、美術教育の中でもありませんか?
櫻井 美術の教育でも、基本的には「とにかく描け!」と言われますね。その結果描いたものがなぜおかしいのかということは感覚的にしか指摘されないことがあります。これは朝顔の例と同じことといえるかもしれません。
西内 そういった違和感について、大学時代、心理学の授業を受けた際に明確に言語化してくれた先生がいました。ある時、その先生から紙コップを渡されて、紙パックに入ったグレープフルーツジュースを注がれたのです。「ちょっと飲んでみてください。においはどうですか?味はどうですか?」と問われたので感想を答えたあとに、先生から「この紙コップは病院で検尿に使われるものです。もう一度飲んでください」と言われたんです。そう言われると、グレープフルーツジュースと分かっていても飲みたくなくなりますよね。
これらの現象を、「ボトムアップの認知とトップダウンの認知」と言うのだそうです。ボトムアップの認知は、細胞の観察や朝顔の例のように、知覚したものを脳が判断する認知です。
一方で、先ほどの検尿コップのような例をトップダウンの認知といいます。だまし絵を見るとき、あらかじめ「絵の中におばあちゃんがいます」と言われると脳がおばあちゃんを探しはじめますよね。このように、判断が加わることによって知覚が影響を受けるのです。
これは前回のTakram Castでお話した、データが見えるようになったけれども、何を見たらいいかわからないという問題と同じです。朝顔や細胞の観察にしても、検尿カップの例にしても、見るべきポイントが分かっていればデータの形を見て「こういうことなのだ」と意味が分かります。
ビジュアライズの世界には、ボトムアップの認知・トップダウンの認知をうまく両方使うという考え方が意外と足りていないのではないかというのが自分の仮説なんですね。
櫻井 なるほどね。今の話を聞いていて、僕らが一緒にプロジェクトを進めるなかで、可視化をするときに強く意識しているあることを思い出しました。いろいろな手法を駆使してデータのビジュアライズをするのですが、それを見た人に「いかにトップダウンの脳みそになってもらうか」ということです。
話が少し広がっちゃうんですけど、僕らはすごいトップダウンを大事にしてると思うんです。よく西内くんと僕とは、西内くんが「左脳くん」で、僕は「右脳くん」と言われることがあるんですけど、デザイナーが作ってあげるのは右脳側での把握です。理解の前にまずパッと把握できるように、全体像を提示してあげるというのが大切なことだと考えています。
コミュニケーションの中において、人は一生懸命「言葉」で伝えようとするのですが、百聞は一見しかずなんです。特にデータに関して僕たちは、全体を俯瞰して見えるようにして、いったいその人たちが何を見ているのかを最初に分かるようにするよう、デザイン側で意識しています。
トップダウンのアプローチでたどり着いた特許密度と企業の収益の相関関係
西内 櫻井さんと一緒にプロジェクトに携った地域経済分析システムRESAS(リーサス)(※)についてのお話をしましょうか。RESASで、地域ごとのお金の流れを可視化する時に、どんなデータでも汎用的な見える化をすることはできたと思うんです。データを入力し、ある操作をして出力されたものが取引の関係を示していますよという、いわばボトムアップの方法です。しかしながらRESASでは「お金の流れを見えるようにするべきである」というトップダウンの思想のもと、あのような汎用的ではない形に落ち着いたと思うのですが、それにはどのような経緯があったのでしょうか。
※RESAS:Regional Economy (and) Society Analyzing Systemの略である。日本・内閣府のまち・ひと・しごと創生本部が運用している、産業構造や人口動態、人の流れなどに関する官民のいわゆるビッグデータを集約し、可視化を試みるシステム。https://resas.go.jp
櫻井 まず前提として、RESASには2通りあります。現在ネットで「RESAS」と検索して出てくるのが一般公開用のRESASで、Takramが携わったのはそれのプロトタイプです。一般公開用のRESASをリリースする前に、私たちがRESASで一体何ができるのか探るためにプロトタイプを作りました。
このプロジェクトのスタートは、帝国データバンクさんと経済産業省の方の、データはある、しかし何をやっていいのか分からないという課題でした。その頃はまだ、可視化というキーワードは出ておらず、目で見えないものを見えるようにしないと、何ができるかすら分からないという状態だったんですね。そこで、経済情報が光の線として地図上を飛び交うという表現に行き着いたのです。
実際にホームページでご覧いただけるものは、プロトタイプというだけあって、私たちがつくったもののうちの一割にも満たないぐらいの量なのですが、ものすごい量をつくっては壊し、つくっては壊したんですよね。その結果、空から俯瞰的にデータを眺められるようにしようということになりました。
日本地図の上でお金のマークが飛び交えば、何の説明もなくお金がどう動いているか、ノンバーバルコミュニケーションが成立するということで、あのような形になったのです。
西内 そのあとで私もプロトタイピングのプロジェクトにジョインしたんですよね。その時点で地図上にマッピングするという部分はずいぶんでき上がっていました。ですから自分の役割は、知覚のボトムアップの素材はすべてそろっているから、トップダウン側をやらなきゃならないということだったんです。
それで、まず鬼のように先行研究を読みこみました。RESASのプロジェクトのゴールは地方創生で、それはつまり地域経済の成長ですので、経済学者の理論や実証研究など、日本語と英語のありとあらゆる経済成長についての資料に目を通しましたね。
それでたどり着いたのが、「教育の質と量」と、「研究開発」でした。この2つは誰がどんな分析をしても登場してくるような定番の変数です。そうした中で、特許庁がデータを出してくださるというお話があったこともあって、教育よりは知財側(研究開発)からアプローチしてみようということになりました。それで、試しに地域ごとの特許密度(人口当たりの特許数)と企業の収益の相関を調べてみたら、まあきれいに関係しているということががわかったんですね。
データを次のアクションへつなげるために
櫻井 今でもその時のことをよく覚えてます。前提の話を整理すると、RESASでは大きく2回のプロジェクトが走っていて、1回目のプロジェクトではまず可視化に取り組みました。先ほどの地図上にデータを見えるようにしたというお話はその第1回目のプロジェクトです。翌年は2回目のプロジェクトがはじまって、西内さんが入ったのはそこからでしたね。
私たちはあの頃、相当限界を感じていたんです。可視化で今まで見えないものが見えるようになったんだって盛り上がったけれども、一方で可視化だけで行けるトップダウンにも限界があるなと同時に感じていて。
なぜかというと、データが見えたところで次に何をやればいいのか分からない。PDCAの「チェック」が終わっても、次のアクションに行くだけのパワーが当時のRESASにはないのだということを強く感じていたんです。
西内くんが参加して、特許密度とそこに対して得られるインセンティブを表すグラフがとてもきれいに出てきて、結局(経済成長というゴールのためには)特許をたくさん出すか、それをきちんと運用すればいいんだっていうのがわかった。
それで、初めて可視化の価値が上がったなと思います。ある地域をクリックすると、特許はたくさんあるけれども運用できていないという実態がビジュアルで把握できて、かつそれがどこの会社・研究機関が出している特許かというのが一覧で表示されるというようなプロトタイプでした。
西内 地域としては、地域に貢献してお金を落としてくれるところに当然投資をする一方で、スピルオーバー効果(※)という表現もあるように、特許のように知恵を集積した結果、周辺地域にもいいことがあるということが言われていたりもするので、どうせだったらそういう(特許を出すことができるような)ところに公的なお金が投入されることで、たぶん世の中が良くなるんだろうな、という感じに、最後は落ちましたね。
※スピルオーバー効果:公共サービスの便益が、給付を行なった公共体の行政区域を超えて拡散し、費用負担をしていない周辺の公共体もその便益を享受する現象。
櫻井 そのプレゼンテーションを石破大臣に45分間やった時のあの石破大臣の顔ね(笑)。
西内 最後、「おもしろい!」って。机バーン!って。
櫻井 特許庁長官にプレゼンさせていただいたときも、「僕らは自信を持って特許を出願するように言えばよかったんだ」と、とても感動していました。
データを可視化するだけでなく、次のアクションを起こせるように、ある程度トップダウンで「こう見ればいいんだよ」という指標……物差しをつくることが大事であるということが、学びとして大きかったかなと思います。
西内 1回目のプロジェクトでは「つくっては壊し」と言いながら、2回目のプロジェクトで自分が関わっている時は、あまり壊さなかったよね。最後はクオリティをひたすら磨き続けることに時間を使うことができた。
櫻井 第2フェーズをスムーズに進めるだけの土台が第1フェーズでできていたというのが非常に大きかったのだと思います。見えなかったデータが見えるようになったことと、データビジュアライゼーションの一歩先に何を見るかという目的ができたんですね。
西内 現状、BIツールも「とりあえずデータは見える」というこのRESASの第1フェーズ未満程度のものが売られていると思うんですよ。ガートナーというITのリサーチ会社が「洞察の自動化」という表現を使っているのですが、要するにBIツールを虚心坦懐にぐるぐる回すことで洞察が見えるようになるだろう、というのではなくて、データ上から「この辺りが面白いよ」という洞察を自動的に提示してくれるのがここからのトレンドだみたいな話があってですね。なので、BIツールの次っていうのが恐らくその辺りになるのではないのかと。
櫻井 (dataDiverを開発していた)当時から今後どうなるんだろうみたいな議論を続けてきたけども、ついにガートナーから定義されました。
次元数が多すぎるグラフはカラビ・ヤウ多様体状態!?
櫻井 このポッドキャストも、自分たちが何者か分かってきたからこそ再定義しようというのが1つの目的なのですが、2期に分かれていたRESASの第1期が「可視化」だとすると、第2期は「分かる化」したフェーズです。
西内 「見える化」から「言える化」とも言えそうですね。「可視化」と「言語化」。
櫻井 言える化。いいですね。そうした新しいワードが可視化の次に出てくるといいかも知れないですね。
西内 それを人に伝えるときに、自分は「カラビ・ヤウ多様体」の絵を見せるんです。
櫻井 え、全くついていけない俺。リスナーさんの5%ぐらいしかわからないんじゃない?
西内 カラビ・ヤウ多様体(※)は超ひも理論にも出てくるのですが、要するに高次元の概念を二次元的な絵に落としたものを見せるわけです。データというものは100項目あると、統計学的に100次元空間と表現します。それを見える化する時に、100次元中3つを選ぶ組み合わせというのはいくらでもあって、絶対迷子になるんですね。
※カラビ・ヤウ多様体:
西内 BIツールは機能として次元をたくさん表現できるように進歩してる側面があります。エクセルのように横軸・縦軸だけでなく、色分けをしたり、バブルの大きさを使ったり、アニメーションができるようにしたり。このように、5次元をフルで使うといくら見える化はできていても何も分からなくなるんですよ。カラビ・ヤウ多様体状態なんですよ。
櫻井 複数の次元を表現するには色や大きさ、3Dを使うなどの方法がありますが、結局人間が認知できる次元数には限界があるというのはRESASの開発のときにもぶち当たりました。なおかつ増やせば増やすほどわからなくなる。
そこにはデザイン側の知見が使えると思っていて、人間が最初に敏感に反応するのは何かということを、デザイナーは普段から考えながら生きているんですよ。100色を使ったら隣の色がまったく分からないよねとか。使う色の限界は最大でも7色ぐらいじゃないかとか。言える化をするための可視化のところには、そうした知見をたくさん使いました。
(データを)見ている人をトップダウンの段階に引き上げてあげるためにどうすればいいのか。やはり目で見るということは、人間のなかで大きいわけで。目で見ることによるコミュニケーションのバンド幅の限界値に挑戦する、というようなことが、僕らが西内君とやっていることなんだと思います。
というわけで、第2回は「データ活用のための二つの頭の使い方」、トップダウンとボトムアップ というお話でした。
(続きます)