シティズンデータサイエンスラボ

「データサイエンスをみんなの手に。」を目標に掲げるデータビークルのオウンドメディア。「シティズンデータサイエンス」とは、統計学の専門家ではない一般の人々がツールを用いて手軽にデータを活用すること。データ分析の世界をより身近にします。https://www.dtvcl.com/

シティズンデータサイエンスラボ

「データサイエンスをみんなの手に。」を目標に掲げるデータビークルのオウンドメディア。「シティズンデータサイエンス」とは、統計学の専門家ではない一般の人々がツールを用いて手軽にデータを活用すること。データ分析の世界をより身近にします。https://www.dtvcl.com/

マガジン

  • 市民データサイエンスの現場を訪ねて

    データビークルの最高製品責任者であり統計家の西内啓がデータ活用で成果をあげている企業・組織のキーパーソンの方とデータサイエンスの現実について語り合う対談シリーズ。

  • データサイエンス入門講座

    データを活用してエビデンスに基づいた経営判断を行いたいと考えるすべての人に。「データでもっと儲ける方法 ~経営とマーケティングのためのアナリティクスデザイン~(著:西内啓/発行:翔泳社)」の全文を公開します。

記事一覧

第4回 抜け漏れ・異常値・表記の揺れにどう対処するか

第3回 数値化と再分類でデータをもっとリッチに

第4回 抜け漏れ・異常値・表記の揺れにどう対処するか

シティズンデータサイエンスラボは「データサイエンスを全ての人に」を掲げる株式会社データビークル(https://www.dtvcl.com/)が運営する公式noteです。 数値化や再分類を阻む「データの汚れ」前節では日付やフリーワード、「あまりに細かすぎる区分をするID」などは、数値化や再分類といった加工をすれば「活用のためのデータ」に採用できることを学びました。この作業を困難にし、活用の際に意図しない誤りを生み出すのが、「データの汚れ」です。データが抜けていたり、異常値が

第3回 数値化と再分類でデータをもっとリッチに

シティズンデータサイエンスラボは「データサイエンスを全ての人に」を掲げる株式会社データビークル(https://www.dtvcl.com/)が運営する公式noteです。 活用できるデータの項目前節では「顧客ごと」「レシート1行ごと」という粒度の異なる形式のデータを結合し、集計することで「活用のためのデータ」に加工する考え方を学びました。「活用のためのデータ」は顧客ごとあるいは商品ごとに一行ずつ、という形式にそろえた1枚の表となる必要があり、こうした作業が必要になります。