第15回何をデータで予測させるべきか（2）

2019年10月31日 17:24

シティズンデータサイエンスラボは「データサイエンスを全ての人に」を掲げる株式会社データビークル(https://www.dtvcl.com/)が運営する公式noteです。

1.05倍の予測精度の向上価値

なぜ「感覚的に1.05倍」か、という点について説明しておきましょう。おおむね現在行っている経験や勘による意思決定から、短期間でデータを活用して改善できる予測の精度についての私たちの経験的な改善余地ですが、ただの経験則というだけではありません。MITスローン経営大学院のBrynjolfssonらの論文によれば、「データに基づいて意思決定する企業は５～６%生産性が高い」という結果が示されています。私たちの経験則と、経営学者の分析結果が一致するのであれば、一つの目安としては十分に参考になるでしょう。人間の直感の倍もの精度で未来を予測しようとするとたいへん難しいですが、1.05倍程度ならけっこう何とかなるものです。

この「1.05倍の精度」とはどういう状況でしょうか？予測しなければいけない値が、商品の出荷数のように数字で表わされるものだったとき、経験的な判断により１万個の製品を生産したが、実際には８千個しか売れず、２千個の商品が余ってしまったので、それらを売り切るために余計な販促費をかけ、最悪捨てることになる、というのが現状だったとしましょう。このような場合、短期的な成果として、データをうまく使えばこの余ってしまう商品を５%ほど削減して、1900個ほどにすることはそう難しくありません。

その結果、この会社はいくら儲かるでしょうか？予測の失敗がすなわち商品の破棄につながるなら、その差である100個分の製造原価が短期的に得られる予測精度の価値になります。１つの商品に10万円ほどの製造原価がかかるなら、この「1.05倍の精度」の予測モデルは1000万円ほどの利益に貢献したことになります。あるいは販促費などを使うにしても「捨てるよりは多少お金が残る」というのならばもう少しこの金額は控えめなものになるかもしれません。

あるいは定性的に「該当するか否か」という状態を予測する状況についても考えてみましょう。製品の製造に必要な機械が「そろそろ故障しそう」という状況について、年間100回故障するうちの回については経験と勘で予め対策が取れて問題になっていなかったとします。

この予測精度を1.05倍にできるということはすなわち、100回中の回についてこのような対策が取れるというイメージです。この年間４回分の対策により、工場が止まってしまう機会損失や人件費のロスがどの程度の金額になるのか、というのがこの予測モデルの価値になります。

このように考えた上で特に金銭的なメリットが感じられないのであれば、それは正確な予測モデルが求められていない状況なのでしょう。第２章で述べたように、すでに「100万個中数個程度の不具合」といったレベルになった品質に対して、データ分析がそれほど大きな貢献をできないのと同じような話です。勘と経験だけですでにある程度正確に予測できていることに対して予測モデルを使っても大きな価値は生まれません。また、それほどうまく予測できていない状況で、たいしたコストが生じていないような課題に対しても、やはり予測モデルはあまり価値を生みません。

データを使って予測モデルをきちんと作った方がよい課題とは、「現在の予測がいいかげんでムダの大きい領域」だということができるでしょう。生鮮食料品の廃棄や値引きする金額が年間百億円にものぼる、というスーパーマーケットチェーンであれば「1.05倍の精度」の価値は5億円ほどになります。自社あるいはクライアントの企業の中で、どこにこうした「予測がいい加減であるが故のムダ」があるかを考えることが、価値を生む予測モデルの開発につながるわけです。

「今の状態」はどの程度続くか

ただし、予測精度のいい加減さによるロスが大きいからといって、必ずしも予測モデルが機能するわけではありません。それが２つめのポイントである、「今の状態が続くとして」という仮定はどの程度成り立つのか、という考え方です。

基本的に機械学習とは「今データが得られた状態が続くとして」という仮定のもとで予測を行う方法です。生鮮食料品がいつ、どれくらい売れるか、ということを過去１年間のデータから正確に予測できるような予測モデルを作ったとして、この「過去１年間」の状況から、データに含まれていない変化が生じてしまえば予測は大きく外れることもあります。

スーパーマーケットの近くに大きなタワーマンションが立てば、それだけでたくさんの人が買い物に来て、生鮮食料品だろうがなんだろうが、たくさんのものが売れることになるでしょう。また、同じ人たちがずっと店舗の周辺に住み続けていたとしても、加齢と共に食べられる量が少なくなることもあります。「魚が体によい」とか「バターは体に悪い」といったような研究成果が広く知られるようになると、それ以降食品の売り上げが急に上がったり、下がったり、ということも当然考えられます。どこかの地域で大地震が起こったために「ミネラルウォーターをたくさん買い込んで置いておこう」と思う人だっています。これらが「今の状態」が続かなくなるという例です。

したがって、予測モデルとは一度作ればそれで終わり、というものではなく継続的なメンテナンスが必要なものです。また、時として「今の状態」が崩れたために大きく外すリスクもあります。これはもちろん人間が経験と勘で予測をしていたとしても避けられないリスクですので、データを使った場合に限った問題ではありません。しかし、「今の状態」がどれだけ安定的に続くのかを考えておくことで、今から作る予測モデルがどの程度の期間「予測精度の改善価値」を安定的に生み続けるのかと見積もることができます。

そう考えると、商品の需要予測というテーマでも、生鮮食料品よりアパレルやエンターテイメントという「流行りすたり」がある領域では、「今の状態」が維持されにくいかもしれません。あるいはテクノロジー面でのイノベーションのスピードが速い領域についても、突然ディスラプティブな製品が生み出されて、それまでよく機能していた予測モデルが突然役に立たなくなるかもしれません。現代の日本で楽曲の販売数についての予測モデルを作ろうとすれば、その予測値は「ジャニーズか」「秋元康プロデュースのアイドルか」といった条件によって大きく左右されるはずです。ほんの数年後にはそうした文化が「イケてない」と捉えられ、ほとんど売れなくなることもあり得ないとはいえません。また、iPhoneの発売前のデータを使って、携帯電話のスペックから販売台数を予測していれば、ワンセグかどうか、Felicaで決済ができるかという条件が重要とされていたのではないでしょうか。iPhoneの登場で日本国内の携帯電話市場は大きく変化し、それ以前に作った予測モデルはほとんど機能しなくなりました。

皆さんが何かの予測モデルを作ろうとするのであれば、以上のような２点について吟味してみることをおすすめします。

第15回 何をデータで予測させるべきか（2）

1.05倍の予測精度の向上価値

「今の状態」はどの程度続くか

第15回何をデータで予測させるべきか（2）