记录数据预处理，特征向量化的一些常见方法

预处理流程

浏览数据

确定缺失范围：根据缺失比例和缺失字段重要性2个维度分别制定处理策略。
- 重要性高 & 缺失率高：其他渠道获取；其他字段计算获取；删除并备注；
- 重要性高 & 缺失率低：其他字段计算获取；提供业务知识/经验估计；
- 重要性低 & 缺失率高：删除字段；
- 重要性低 & 缺失率低：不做处理；简单填充
删除不需要的字段：注意数据备份
填充缺失内容
- 以业务知识或经验推测填充缺失值
- 以同一指标的计算结果（均值、中位数、众数等）填充缺失值
- 以不同指标的计算结果填充缺失值，如年龄字段缺失，但是有屏蔽后六位的身份证号可以计算得出年龄
- 机器学习模型预测，如随机森林预测字段值
重新获取数据
异常值处理
格式异常：时间、日期、数值、全半角等显示格式不一致
语义异常：数据中的空格问题，数值问题，如年龄<0
业务异常：系统bug导致的数据异常，或者人工输入数据导致的自相矛盾的数据，如订单状态不正确，年龄与身份证号不匹配
重复值处理
去重

PS 如果数据量没有大到不删字段就没办法处理的程度，那么能不删的字段尽量不删；
进行阶段性数据备份，并注意命名规则统一；

自相矛盾数据的确认

分类编码后onehot编码

归一化处理