记录数据预处理,特征向量化的一些常见方法
预处理流程
浏览数据
- 了解业务流程:数据是如何产生;
- 看元数据:数据字典整理分类;
- 看数据内容:抽样浏览数据内容,初步了解数据,如对前100行数据内容进行统计;
缺失值处理
- 确定缺失范围:根据缺失比例和缺失字段重要性2个维度分别制定处理策略。
- 重要性高 & 缺失率高:其他渠道获取;其他字段计算获取;删除并备注;
- 重要性高 & 缺失率低:其他字段计算获取;提供业务知识/经验估计;
- 重要性低 & 缺失率高:删除字段;
- 重要性低 & 缺失率低:不做处理;简单填充
- 删除不需要的字段:注意数据备份
- 填充缺失内容
- 以业务知识或经验推测填充缺失值
- 以同一指标的计算结果(均值、中位数、众数等)填充缺失值
- 以不同指标的计算结果填充缺失值,如年龄字段缺失,但是有屏蔽后六位的身份证号可以计算得出年龄
- 机器学习模型预测,如随机森林预测字段值
- 重新获取数据
异常值处理
- 格式异常:时间、日期、数值、全半角等显示格式不一致
- 语义异常:数据中的空格问题,数值问题,如年龄<0
- 业务异常:系统bug导致的数据异常,或者人工输入数据导致的自相矛盾的数据,如订单状态不正确,年龄与身份证号不匹配
重复值处理
- 去重
PS 如果数据量没有大到不删字段就没办法处理的程度,那么能不删的字段尽量不删;
进行阶段性数据备份,并注意命名规则统一;
多源数据的关联验证
自相矛盾数据的确认
特征向量化
离散特征
分类编码后onehot编码
连续特征
归一化处理
- Standard标准化
- Min-Max归一化