0%

数据预处理方法论

记录数据预处理,特征向量化的一些常见方法

预处理流程

浏览数据

  • 了解业务流程:数据是如何产生;
  • 看元数据:数据字典整理分类;
  • 看数据内容:抽样浏览数据内容,初步了解数据,如对前100行数据内容进行统计;

缺失值处理

  • 确定缺失范围:根据缺失比例和缺失字段重要性2个维度分别制定处理策略。
    • 重要性高 & 缺失率高:其他渠道获取;其他字段计算获取;删除并备注;
    • 重要性高 & 缺失率低:其他字段计算获取;提供业务知识/经验估计;
    • 重要性低 & 缺失率高:删除字段;
    • 重要性低 & 缺失率低:不做处理;简单填充
  • 删除不需要的字段:注意数据备份
  • 填充缺失内容
    • 以业务知识或经验推测填充缺失值
    • 以同一指标的计算结果(均值、中位数、众数等)填充缺失值
    • 以不同指标的计算结果填充缺失值,如年龄字段缺失,但是有屏蔽后六位的身份证号可以计算得出年龄
    • 机器学习模型预测,如随机森林预测字段值
  • 重新获取数据

    异常值处理

  • 格式异常:时间、日期、数值、全半角等显示格式不一致
  • 语义异常:数据中的空格问题,数值问题,如年龄<0
  • 业务异常:系统bug导致的数据异常,或者人工输入数据导致的自相矛盾的数据,如订单状态不正确,年龄与身份证号不匹配

    重复值处理

  • 去重

PS 如果数据量没有大到不删字段就没办法处理的程度,那么能不删的字段尽量不删;
进行阶段性数据备份,并注意命名规则统一;

多源数据的关联验证

自相矛盾数据的确认

特征向量化

离散特征

分类编码后onehot编码

连续特征

归一化处理

  • Standard标准化
  • Min-Max归一化