シティズンデータサイエンスラボ
データビークルの最高製品責任者であり統計家の西内啓がデータ活用で成果をあげている企業・組織のキーパーソンの方とデータサイエンスの現実について語り合う対談シリーズ。
データを活用してエビデンスに基づいた経営判断を行いたいと考えるすべての人に。「データでもっと儲ける方法 ~経営とマーケティングのためのアナリティクスデザイン~(著:西内啓/発行:翔泳社)」の全文を公開します。
シティズンデータサイエンスラボは「データサイエンスを全ての人に」を掲げる株式会社データビークル(https://www.dtvcl.com/)が運営する公式noteです。 数値化や再分類を阻む「データの汚れ」前節では日付やフリーワード、「あまりに細かすぎる区分をするID」などは、数値化や再分類といった加工をすれば「活用のためのデータ」に採用できることを学びました。この作業を困難にし、活用の際に意図しない誤りを生み出すのが、「データの汚れ」です。データが抜けていたり、異常値が
シティズンデータサイエンスラボは「データサイエンスを全ての人に」を掲げる株式会社データビークル(https://www.dtvcl.com/)が運営する公式noteです。 活用できるデータの項目前節では「顧客ごと」「レシート1行ごと」という粒度の異なる形式のデータを結合し、集計することで「活用のためのデータ」に加工する考え方を学びました。「活用のためのデータ」は顧客ごとあるいは商品ごとに一行ずつ、という形式にそろえた1枚の表となる必要があり、こうした作業が必要になります。