数据预处理
本文最后更新于:2023年6月23日 晚上
离散程度度量
方差和标准差
正态分布函数曲线
极差
百分位数
四分位数
Q1 (25th percentile), Q3 (75th percentile)
中间四分位数极差
IQR = Q3 – Q1
孤立点
挑出落在至少高于第三个四分位数或低于第一个四分位数1.5×IQR 处的值
盒图
直方图
分位数图
散布图
局部回归曲线
缺失值处理
删除法
删除样本
删除特征
填补法
均值填补
连续性特征,采用平均值填补
离散型特征,使用众数填补
随机填补
贝叶斯Boostrap方法
假设数据集有 n 个样本,某特征 f 存在 k 个非缺失值和 (n−k) 个缺失值,使用贝叶斯Bootstrap方法进行缺失值填补共有两步:
第一步:从均匀分布 U(0, 1)中随机抽取 k−1个随机数,并进行升序排序记为{0, a_1,a_2, …,a_k−1, 1};
第二步:对 (n−k) 个缺失值,分别从非缺失值 {f_1, f_2,… , f_k} 中以概率 a_1,a_2−a_1, …,1−a_k−1采样一个值进行填补.
近似贝叶斯Boostrap方法
基于模型的填补
基于模型的方法将缺失特征 f 作为预测目标. 将数据集中其他特征或其子集作为输入特征,通过特征f的非缺失值构造训练集,训练分类或回归模型. 然后使用构建的模型来预测特征f的缺失值.
哑变量方法
对于离散型特征,如果存在缺失值,可以将缺失值作为一个单独的取值进行处理,这种方法称为哑变量方法.
例如学生信息数据集中,将”性别”特征的缺失值作为一个特殊的取值”unknown”,表示性别未知. 此时认为”性别”特征包含”F”、”M”和”unknown”三个不同取值.
数据转换与编码
数据的标准化
0-1标准化
适用范围:
0-1标准化适用于需要将数据简单地变换映射到某 一区间中,但其不足之处在于当有新数据加入时,可能会导致数据系列中的最大值或最小值发生变化,此时便需要重新定义最大值、最小值。
小数定标标准化
Z-score 标准化
Logistic标准化
各种标准化的优缺点
数据的编码
数字编码
One-hot编码
哑变量编码
数据的离散化
离散化概述
离散化示例
离散化步骤
离散化分类
等距离散化
等频离散化
聚类离散化
信息增益离散化
自顶向下的分裂策略
步骤:
卡方离散化
自底向上的合并策略
ChiMerge方法
类别属性依赖最大化(CAIM)离散化
离散化总结
降维
目的
特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征,从而达到减少特征个数,简化模型,提高模型精确度,减少运行时间的目的
两种情况
- 特征与特征之间互不相关
- 特征之间相互依赖
分类 - 特征选择
- 向前搜索
- 向后搜索
- 双向搜索
- 特征提取
- 线性:主成分分析,线性判别分析
- 非线性:多维尺度变换,局部线行嵌入
策略
- 过滤式
- 封装式
- 嵌入式
PCA算法
LDA算法
区别
数据脱敏
原则
- 单向性
- 无残留
- 易于实现