数据挖掘

你在哪哦,我看不到

May 13, 2026 - 1 minute read -
note

数据预处理

数据清理

数据清理是数据预处理中的核心步骤,目标是发现并处理数据中的错误、缺失、噪声、不一致和异常

脏数据包含:

  • 数据缺失

    ​ (直接忽略缺失数据的元组,手工填写,使用全局常量填充,使用均值中位数等填充,使用同类别样本的均值填充,可以使用回归,决策树,贝叶斯推断缺失值)

  • 噪声数据

    ​ (分箱:将排序后的数据划分到若干桶然后使用桶的数据均值代替原始数据;还可以使用箱边界平滑,即用箱内最近的边界值替代原数据;箱中位数平滑)

  • 数据不一致

  • 人为默认值

Loading...