見出し画像

第14回 何をデータで予測させるべきか(1)

シティズンデータサイエンスラボは「データサイエンスを全ての人に」を掲げる株式会社データビークル(https://www.dtvcl.com/)が運営する公式noteです。

何の予測モデルを作るべきか

予測モデルとAIの使い分けが理解できたら、それぞれについて「何を予測させるべきか」を考えてみましょう。予測モデルの価値とは(人間以上に)予測精度の改善できることそれ自体だと述べました。とするならば、何を予測させるかを決めることというのが予測モデルについてのリサーチデザインに該当することになります。

つまり、失敗した予測モデルの多くは「予測できてもしょうがないこと」を正確に予測しようとしていると表現することもできるでしょう。その中には「正確な予測に基づく有効な対処が存在しないこと」も含まれます。

顧客の初回購買の情報から「その後、顧客が優良顧客となり得るかどうか」を正確に予測できるようになったとします。しかし、これが「へ~この人、優良顧客になりそうなんだ」とか「へ~この人もう来ない可能性高いんだ」と一喜一憂するだけなら意味はありません。あるいはこうした人たちにクーポンを送りつける、というのも意味があるかはわかりません。機械学習における予測値は「このままの状態が続くとして」という仮定のもとで得られたものです。何もしなくても優良顧客として大量に購買してくれた人に対してムダに10%オフの割引をオファーすることになるのか、それともクーポンをきっかけにして、さらに値引き分以上にたくさん購買して利益をもたらしてくれるのか、予測モデルは何も答えてくれないわけです。

このような状況で、「クーポンを送るというアクションありき」であれば、予測すべきはむしろ「クーポンを送った場合と送らなかった場合でどの程度その後もたらしてくれる粗利に差がつくか」ということです。クーポンの送付にかかるコスト以上に大きな粗利が見込める顧客を、正確に見分けることができれば大きな利益につながるでしょう。しかしこれはディープラーニングを含め、一般的な機械学習手法では予測できない値です。本書の最後で詳しく述べますが、こうした因果関係を正確に知るためにはA/Bテストや、統計的因果推論といった手法が必要になってきます。

少し話がそれましたが、人はしばしばこうした「有効な対処が存在しないこと」に関する予測モデルを作ってしまいます。このような状況を避けるためにどう考えればよいのでしょうか?重要なポイントは2つあります。

①予測精度が感覚的に今の1.05倍になればいくら儲かるか
②「今の状態が続くとして」という仮定はどの程度成り立つか

予測精度の不完全さ

「予測精度の改善価値」という考え方に立ち返ってみましょう。当然予測精度には限界があり、100%その後に得られる値と一致する、という以上の予測は存在しません。為替なり、株価なり、1時間後の指標を100%当てることができれば、その人はあっという間に大富豪になることでしょう。

神ならぬ私たちは、さすがに完璧な予測はできません。それは高度な統計解析や機械学習を使った状態でも例外ではなく、アルゴリズムがどうこうというより「予測するのに十分なデータが存在していない」という点にあります。ある液晶テレビがどれぐらい売れるかどうか、という予測について考えてみましょう。

基本的に会社が作る製品には「規格」や「仕様」という概念があり、色や機能、使われる部品や接続できる端子といったさまざまなデータが存在しています。これらのスペックがまったく同じ製品を出したとしても、ちょっとしたデザインのディティールが違うというだけでその売上は大きく変わるかもしれません。また、ほとんど同じデザインで同じスペックの商品を販売しても、それを売っている企業のブランドイメージや用いる広告によっても売り上げは異なることでしょう。さらには、たまたまシェアの大きい小売店のバイヤーと仲のよい営業スタッフがいるとか、たまたま影響力のあるインフルエンサーが手にする機会があって、「これいいよ」とSNSで発言しただけでも売り上げは大きく変わります。

このような状況で製品スペックのデータだけを使っていくら高度なアルゴリズムを駆使しても、売上を正確に予測することはできません。アルゴリズムを改善するよりも「商品や販売する企業のブランドイメージ」「デザインや広告に対するイメージ」「小売店のバイヤーからの商品評価や取り扱いの意向」といったさまざまなデータを入手した方が正確な予測につながるはずです。ただ、そこまでやってもなお、マスメディアやSNS上、さらにいえばローカルなコミュニティの中でインフルエンサーとなるような人が「たまたま手に取るか」というデータは収集することもコントロールすることもそうそうできるものではありません。

「完全な予測」ができないからといって予測を行うことがムダ、ということはありません。具体的に何台ということはわからなくても、液晶テレビならインチのものとインチのもので、それぞれ何台ぐらい売れそうか、くらいは多くの家電メーカーが過去の実績を把握しているはずです。その感覚に基づいて需要を予測し、生産計画を立て、うまく経営が回っていることでしょう。

この状況で、データに基づく予測モデルを緻密に作る必要があるのでしょうか?その判断の基準として「予測精度があと1.05倍になったときに」というシミュレーションを私たちはお勧めしています。


みんなにも読んでほしいですか?

オススメした記事はフォロワーのタイムラインに表示されます!