シティズンデータサイエンスラボ
「データサイエンスをみんなの手に。」を目標に掲げるデータビークルのオウンドメディア。「…
記事一覧
第4回 抜け漏れ・異常値・表記の揺れにどう対処するか
シティズンデータサイエンスラボは「データサイエンスを全ての人に」を掲げる株式会社データビークル(https://www.dtvcl.com/)が運営する公式noteです。 数値化や再分類を…
第3回 数値化と再分類でデータをもっとリッチに
シティズンデータサイエンスラボは「データサイエンスを全ての人に」を掲げる株式会社データビークル(https://www.dtvcl.com/)が運営する公式noteです。 活用できるデータ…
第4回 抜け漏れ・異常値・表記の揺れにどう対処するか
シティズンデータサイエンスラボは「データサイエンスを全ての人に」を掲げる株式会社データビークル(https://www.dtvcl.com/)が運営する公式noteです。
数値化や再分類を阻む「データの汚れ」前節では日付やフリーワード、「あまりに細かすぎる区分をするID」などは、数値化や再分類といった加工をすれば「活用のためのデータ」に採用できることを学びました。この作業を困難にし、活用の際に意
第3回 数値化と再分類でデータをもっとリッチに
シティズンデータサイエンスラボは「データサイエンスを全ての人に」を掲げる株式会社データビークル(https://www.dtvcl.com/)が運営する公式noteです。
活用できるデータの項目前節では「顧客ごと」「レシート1行ごと」という粒度の異なる形式のデータを結合し、集計することで「活用のためのデータ」に加工する考え方を学びました。「活用のためのデータ」は顧客ごとあるいは商品ごとに一行ずつ