第5回継続的なデータ活用プロセスにおけるデータ整備の位置づけ

2019年3月20日 10:30

シティズンデータサイエンスラボは「データサイエンスを全ての人に」を掲げる株式会社データビークル(https://www.dtvcl.com/)が運営する公式noteです。

データ整備のサグラダファミリア

ここまで「業務のためのデータ」をどう「活用のためのデータ」に加工するかを詳しく説明してきました。複数の表を結合するためのキーを確認し、それぞれの表の中に含まれる対象のデータを確認し、最終的にどのような切り口で１行ずつにまとめるのかを決めて、それぞれの項目を数値化したり分類したり、必要に応じてさまざまな集計をしたものが活用のためのデータです。その過程では、抜け漏れや異常値、表記の揺れなど、適切に対処しなければいけないことがあります。

データ分析においても、AI開発においても、多くの場合、実はこうしたデータの加工やそのためのクリーニングなどの作業に８〜９割もの時間や工数が費やされます。つまり「高度な統計学や機械学習の知見」を持った専門家に、不完全な「業務のためのデータ」を丸投げしてしまったのでは、専門的知識を発揮させることなく、本章で述べた泥臭い作業にその労力のほとんどをかけさせるという大きなムダが生まれることになります。

一方で、データをキレイにできさえすればよいか、というとそうでもありません。私たちが今まで見てきた企業の中には、データ活用を進める前に、何年もの期間と何億円もの予算を投じて「データ自体を完璧にする」ことに心血を注がれていることがあります。多くの場合、そうした努力がもたらしてしまう残念な状況のことを、私たちは「データのサグラダファミリア」と呼んでいます。

キーとなるIDも含めたすべての項目について、抜け漏れもなく、異常値もなく、表記の揺れもない完全な状態というのはもちろん美しいものです。その一方で業務やITシステムというものは日々変化していくものです。ある時点で過去に存在するデータをすべて詳細に目視で確認し、表記の差異や含まれうる異常値、抜け漏れ、またIDの体系などを確認するためには、最低数ヶ月から１年ほどの時間と、それなりの人員を必要とし、そうした問題と無縁なシステムを設計し、導入するためにもやはり数ヶ月から１年以上の時間がかかるでしょう。この間にも、新製品を扱うようになったり、他社と合併したり、組織構造や社内外のルールが変わったり、社内に新たなシステムが導入されたりします。そうすると、「最初に確認した時点では存在しなかった整合性の問題」が新たに生まれてしまうかもしれません。

そうなるとまた、詳細に確認して、どのようにシステムを改修すべきかを整理して...という作業が必要になってきます。これが100年経っても、設計者が亡くなっても、なかなか完成しない「サグラダファミリア」のようだというわけです。

データをキレイにすることの価値とは

幸いにしてこの「サグラダファミリア」の完成にこぎつけた企業もあります。だからといってそのキレイなデータを上手く使って、利益につなげられたかというとそうとも言い切れません。せっかく何億円もかけてデータを整備し終わったというのに、そこから大した活用アイデアが生まれず、どうしたらよいだろうか?といった相談も、私たちのところにはしばしば舞い込みます。

このようなことになぜなるかと考えると、そのような企業にとっても、データ整備を依頼された企業にとっても、データ整備自体が自己目的化してしまったからでしょう。先ほど「統計学や機械学習の専門知識とは別の」と述べましたが、一定レベルのIT技術者であれば、データ活用のことを知らなくてもデータをキレイにすることはできるでしょう。

ただ、いざデータをキレイにした上でそれをどう使うか、どう活用すれば価値が生まれるか、といったことを必ずしもイメージできるわけではありません。

社内に存在するさまざまな項目について、データをキレイにすることの価値は等しいわけではありません。当該企業の事業内容や、その中でデータを活用しようとするユーザーが誰なのか、どのような分析、あるいはAI開発をしようとするのか、といった目的によって大きく異なります。そうした事情によって、何としてでもキレイにした方がいい項目もあれば、まったく使い道のない項目もあるわけです。これはデータ分析やAI開発の視点がある人間にとっては比較的容易に判断できることですが、一般的な技術者にはそうでもありません。

まずは重要な項目だけに集中して、さっさと活用のフェーズに進んだ方が効率的ですが、整備はできても活用のノウハウのない外部のIT企業にとっては「とにかく全部キレイにしましょう」と提案した方が大きな売上につながることになります。したがってIT予算が潤沢な企業ほど、つい「サグラダファミリア」に陥りやすいのかもしれません。

では、内部にデータ分析やAI開発のできる人材がいない企業はどうやってこのような判断を行なえばよいのでしょうか?その答えは「まずは試しにやってみる」というものです。システムを改修する前に、１サイクル分のデータ分析をしたり、AIのプロトタイプを作ってみたりしましょう。本章の知識があれば、その過程でデータにどのような問題があるか気づくことができます。また多少の手作業は必要になったとしても、「サグラダファミリア」の完成を待つより遥かに早く、一定の成果を見ることができるはずです。

ここまで来れば、分析やAIの活用のためにとても役に立った項目と、そうでもない項目がわかります。したがって、この時点で継続的に役に立つであろう重要な項目を重点的に、抜け漏れや異常値、表記の揺れなどが生じないようシステムや運用のルールに対策を講じれば、データ整備を効率的に進められます。

また、「サグラダファミリア」どころか、データをキレイに整備しようという機運がまったく感じられない組織においても、このような「試しに現状のデータでやってみる」というアプローチは有効です。

このような組織では多くの場合、誰かが「データを整備しましょう」と提案すると「整備することでどのような、いくら位のメリットが得られるのか」と質問されます。しかし、活用のイメージがない技術者は「どのようなメリットが得られるか」という問いには答えられません。データの形式を見れば、すぐに活用のイメージがいくらでも浮かぶ私たちでも「いくら位のメリットかあるか」と正確に約束することはできません。なぜなら、実際にデータ分析をしてみなければ、「どうすればどれくらい儲かりそう」という結果は得られないからです。同様に、「どれくらいの精度で動作するAIができるか」「それによってどれくらい経営上のムダが省けるか」といったことを予めわかる人はどこにもいません。「とにかく現状のデータでやってみる」ことで、こうした成果の目安が見え、データ整備のコストと見合うかどうかという根拠が提示できるようになるわけです。

データが窮屈になる瞬間

こちらの記事にも示したように、データ活用というのは継続的なプロセスです。最初の１周目は、現状のデータを何とか分析やAIのために役立つように加工して、とにかく早い段階で分析手法やアルゴリズムで処理ができるようにしましょう。

その成果をどう活かすか意志決定し、現場に届けて、どの程度の利益につながったか、ということをデータで評価できるようにしておきます。

このように、適切にサイクルを回していくと、やがて多くの人はデータに対して不満を覚えるようになります。

それは本章で説明した「データの汚れ」に対してもですが、「こんな項目も取っておけばいいのに」「こんな情報があればいいのに」という、元々のデータに「何が存在していないか」ということが気になってくるわけです。この状態を私たちは「データが窮屈になる」と表現しています。本章ではスーパーマーケットにおける顧客と販売履歴というデータについて考えてきました。これらを使って一通りの分析を終えると、「JANコードがあっても、その商品ジャンルをいちいち分けるのが手間」「商品ジャンルはわかってもその中にどのような成分が入っているのかわからない」「店舗の特徴や周辺地域の環境によって顧客の購買に違いが出るはず」といったデータに対する「欲」が出てきます。

昨今はIoTやAIを使い、データを収集する仕組みが商品化されていますが、こうした「仕組み」の導入は、このような「欲」が出てきてからでいいかもしれません。すでに存在する社内のデータさえ活用できていない状態で新しいデータを収集しても、たいてい宝の持ち腐れとなります。高度な仕組みを使い、大量のデータを収集しておきながら、「これをどう活かしていいかわからない」という相談を私たちはしばしば受けます。また、いざデータを活用しようとしたタイミングで、既存のデータと新しく収集されたデータを合わせる際に、データ整備の余計な手間が生じることもあります。

データが活用できるめどが明確について、その中の課題がわかっている状態であれば、欲しいデータを簡単に収集できる仕組みの価値は、正確に判断することができるでしょう。

さらに、自前でデータを収集するよりも、すでに外部に存在しているデータを買う方が効率的な場合もあります。世の中にはさまざまなデータを収集し、販売している事業者がたくさんあり、より速く正確に、活用しやすいデータを提供しています。

たとえばeBASEという会社は全国で流通する食品や日用雑貨についての成分情報やパッケージの材質などのデータを持っています。ゼンリンデータコムや昭文社という地図の会社は、全国のエリアを細かく(町丁字ごとや250mずつのメッシュなどに)区切ったエリアごとに、どのような施設があるか、といったデータを提供しています。ソフトバンク系列のAgoopや、ドコモインサイトマーケティングでは、携帯電話から収集したデータを用いて、メッシュごとにどれぐらいの人通りがあるのか、といったデータを販売しています。BBにおいても、取引先や見込み顧客の法人についてのデータが欲しければ、帝国データバンクや東京商工リサーチという会社に相談することができます。

自らの店舗や施設の周辺にカメラをつけて、人通りがどのくらいあるかをリアルタイムに計測するAI、というのは現代の技術力で可能になっています。そうしたシステムを販売している企業も１つや２つではありませんが、最終的な活用方法が「何曜日の何時ぐらいにタイムセールや呼び込みを行なえばいいか知りたい」ということなら、1秒ごとの正確な数字は不要で、継続的に測定する仕組みもいりません。ドコモインサイトマーケティングやAgoop、ゼンリンデータコムでも、このような活用に必要なデータは販売してくれます。自分たちの店舗以外の地域についてのデータも持っているため、今後の出店や進出にも役立つかもしれません。

ぜひ、以上のような知恵をもとに、活用可能なデータの幅を広げてみてください。

第5回 継続的なデータ活用プロセスにおけるデータ整備の位置づけ

データ整備のサグラダファミリア

データをキレイにすることの価値とは

データが窮屈になる瞬間

第5回継続的なデータ活用プロセスにおけるデータ整備の位置づけ