エビデンスの「根拠の強さ」には5つの段階がある【Tokyo Data Science Lab 2018 基調講演書き起こし vol.2】

シティズンデータサイエンスラボ

2019年2月14日 09:35

シティズンデータサイエンスラボは「データサイエンスを全ての人に」を掲げる株式会社データビークル(https://www.dtvcl.com/)が運営する公式noteです。

エビデンスの根拠の強さには段階がある

ここまでエビデンスという話をしましたが、みなさんがエビデンスという言葉を使う場合は「後でもめないように『エビデンス』を残しておいて下さい」というような使い方をするのではないでしょうか。これは契約書や覚書という意味の「エビデンス」ですね。

専門家にとって「エビデンス」というと、契約書などではなく、上のイラストのようなピラミッド状のものがイメージされます。

一番下に「権威の意見や理論」という話がありますが、これが一番の基本で、根拠としては弱いエビデンスです。

それよりも、1名でもいいから実際そういうことがあったという事実に基づいたもののほうが、より強いエビデンスになり「事例報告」と言われます。

それよりも強いのが「調査データの分析」で、人や企業を集めてきて、データを分析し、このデータから結論を導き出します。

もっと強いのが「ランダム化比較実験」です。ビジネスの世界では「A/Bテスト」と呼ばれています。

最初にお見せした不整脈の薬のお話は、「ランダム化比較実験」といいまして、「A/Bテスト」と同じような考え方をしています。

このような「ランダム化比較実験」や、過去の調査結果・分析結果を集め、世界中から公表された分析結果を分析をすること「メタアナリシス」と言います。

ボーナスを出した方が生産性は上がるのか？

エビデンスの根拠はこのピラミッドの順番に強くなって行きます。

まず、一番下にある「権威の意見や理論」。どこかの大学の教授のような人が「わたしの経験上こういうのはダメだ、心理学の裏付けもある」と言った場合です。

たとえば「金銭的なボーナスはその人の生産性を上げるのかどうか」という議論を例に挙げてみましょう。

先ほどの教授による、その経験に基づいた意見よりも、実際にボーナスをもらっている人の中から生産性を上げた人を1人でも連れてくる「事例報告」の方がいいエビデンスとされています。

ただ「事例報告」にも問題があります。ボーナスを出して生産性が上がった人を、1人ではなくて複数名連れてくることができれば、事例を3人分集めましたと言えますが、一方で「ボーナスをもらってやる気がなくなり生産性が落ちた人」も同時に2，3人ぐらい見つかってしまうかもしれません。生産性が上がった人、生産性が落ちた人それぞれ3人ずつ集まってきてしまうと、結局「ボーナスによって生産性が上がるかどうかは人それぞれ」という結論になってしまいます。

他にも、「ボーナスはもらっていないけど生産性が高い人」や「ボーナスがなくて生産性が低い人」など、いろいろなパターンが考えられますね。これではエビデンスに基づいた意志決定ができません。

つまり、「そういう人たちがいるかいないか」を考えるのではなく、「全体の中で何％ぐらいいるのか」という数字に落としこまなければならないということです。何十人、何百人の人を集めてきたうち、ボーナスを出されている人で生産性の高い人は何％ぐらいいるのか、ボーナスがない人の中で生産性が高い人はどれぐらいいるのかということを比較しなければなりません。

「ボーナスがある人のうち25％が高生産性、ボーナスがない人のうちでも20％は高生産性」という結果が出たとしましょう。そうすると、ボーナスを出せば5%ぐらいの人は生産性があがると考えられるかもしれません。しかし、実はこの考え方にも問題があります。

このグラフを見てください。統計学を分かっている方はこの調査結果に２つつっこみたいことがあるのではないでしょうか。

ある結果が「たまたま」かどうかをはかる「p値」

1つ目は、「その差はたまたまの誤差ではないか？」という点で、もう1つは「他に影響しているものがあるのではないか？」という話です。

「たまたまの誤差」とはどういうことでしょうか。ボーナスをもらっている4人のうち1人が高生産性であれば、ボーナスをもらっている人の25％が高生産性ということになります。反対に、ボーナスなしの5人中1人が高生産性だったら、ボーナスをもらっていなくても20％が高生産性ということになります。ですが、ボーナスなしのグループのなかに、たまたまボーナスなしで高生産性の人をもう1人増やすと、6人のうち2人の33％がボーナスをもらっていなくても高生産性ということになって、結果が逆転してしまいます。

このように、たった1人や2人データを追加したぐらいで逆転するような分析結果というのは、「たまたまの結果」ということになります。しかし、同じ25%と20%でも、10万人のうち2万5,000人、10万人のうち2万人…というような話になると、1人や2人分のデータを増やしたところで結果は0.1％も変わらず、確かに「たまたま」ではないということになります。

ここまでデータを集めれば正しい意志決定ができますが、みなさんが判断しなければいけない状況はもっとグレーゾーンなのではないでしょうか？調査対象が何十人、何百人というレベルで、「たまたま」かどうかを判断するのは難しいのですが、そういった状況でも統計学にはいくらでも計算する方法があります。

たとえば「p値」というものがあります。本来全く差はないはずなのに、「たまたま」これほどの結果が出る確率のことです。これをきちんと計算すると、この結果が偶然なのか、あるいは偶然とは考えにくいのかを示すことができます。

本来、ボーナスがある人もない人も、その生産性はまったく均等だったとしても、たまたま4、5人ずつ集めてきたときに、これくらいの差が出てくる確率は85.8％です。85.8％の確率で出てくるデータということは、もしかしたらまったく差がないかもしれないという可能性も捨てきれません。（※要確認）たまたま4、5人ずつ集めてきたときに、これくらいの差が出てくる確率は85.8％です。85.8％の確率で出てくるデータということは、もしかしたらまったく差がないかもしれないという可能性も捨てきれません。

一方で、調査対象を各グループ10万人ずつ集めてきたときのp値は0.1%未満です。

それは確かに「たまたま」出てくるような差ではないよね、ということで、きちんと議論を進めることができるわけです。統計学の手法は、ただ集計するだけではなくて、そういった「たまたまかどうか」を判断するとても便利な道具でもあります。

最終手段「A/Bテスト」

もう1つ気になるのが、「ほかに影響しているものがあるのではないか」という点です。

たとえば、大企業には生産性が高い人たちが多く入社し、かつ大企業はボーナスを出す傾向があるというだけの話かもしれません。だからいくら中小企業がボーナスを出したからといっても、生産性が上がるわけではないのではないかということです。

また、大企業ははじめから生産性が高い人がたくさんいるので、新たにボーナスのシステムを設計しても生産性が劇的に上がるわけでもないということがわかると、ではボーナスを出しましょうというお話にはならないわけです。

ではどうすればいいのでしょうか？

大企業と中小企業に分けてデータを分析してみればいいかもしれません。大企業に勤務している人のボーナスの有無と生産性を比較してみたところ、確かにボーナスを出した人の方が生産性が高いという結果が出ました。そして中小企業側を見てみると、こちらでも確かにボーナスを出したほうがいいという結果が出たとします。

このように、その差が両方の状況で確認できるのであれば、企業規模というものが関係性に影響を与えているわけではないと判断することができます。

……と、教科書的にはこのように言うことができるのですが、現実的にはこのような分析をするのは不可能です。今は企業規模という要素を取り上げましたが、それ以外にも影響を与えそうな要素はいくらでもあります。ある特定の教育を受けている人はパフォーマンスが高いとか、ある教育を受けた人たちのほうがボーナスのある仕事に就きやすいとか、そのような偏りがあるかも知れませんし、心理特性などの条件もあります。

そうすると、全部の条件をそろえて分析するのはほぼ不可能と言えます。仮にデータが全部そろった状況でも、全部を組み合わせるというだけでも大変です。そして、せっかく何万人ものデータを、ここまで細かいグループに分類したとしても、それぞれの1つ1つのグループに該当するのは数人しかいないということで、これでは差があるのかないのか、たまたまなのかが判断できません。

統計学には多変量解析という手法があります。今そろっている条件をまとめて整理し、たとえばボーナスを出したほうがいいのか、出さないほうがいいのかということを公平に判断しようとするものです。ただこれでもほかに影響しているものがないかを判断するのはとても難しいんです。

そこで最終手段として登場するのが「A/Bテスト」です。A/Bテストは先ほどお伝えしたように、全体をランダムに半々に分け、数がほぼ均等になっている状態で、片方のグループだけに新しい取り組みを適用してみましょうという調査方法です。

実際に、ボーナスを一部の従業員だけに提供したり、一部の事業所だけに提供します。それでどれくらい差がつくのかということを検証することで、因果関係を確認します。

ただ、最後に問題として残ってくるのが、今回やってみたA/Bテストの結果がほかの会社でも適用できるのかということです。今回実験をした環境では因果関係が確認できても、全然違う環境で、違う人を対象に調査しても、同じような結果が出るかどうかは保証されていません。

そこで、もっと強いエビデンスである「メタアナリシス」が登場します。

これはアナリシスに対するアナリシスです。アカデミアの世界では2000年頃からインターネットが普及していましたので、文献データベースを検索すれば分野ごとに研究成果を収集することができるようになって、メタアナリシスもずいぶん楽になりました。

ボーナスやインセンティブといったキーワードを、経営学系のデータベースであったり、応用心理学系のデータベースで入力すると、それに関して研究してきた人たちの成果を調べることができます。そこで「ランダム化比較実験　ボーナス」と検索すると、ボーナスについてランダム化比較実験を実施した研究がたくさん見つかります。そういったものを集めて分析していくと、それが最も強いエビデンスになります。

続きはこちら