数据预处理
数据清理
数据清理是数据预处理中的核心步骤,目标是发现并处理数据中的错误、缺失、噪声、不一致和异常
脏数据包含:
-
数据缺失
(直接忽略缺失数据的元组,手工填写,使用全局常量填充,使用均值中位数等填充,使用同类别样本的均值填充,可以使用回归,决策树,贝叶斯推断缺失值)
-
噪声数据
(分箱:将排序后的数据划分到若干桶然后使用桶的数据均值代替原始数据;还可以使用箱边界平滑,即用箱内最近的边界值替代原数据;箱中位数平滑)
-
数据不一致
-
人为默认值