数据预处理

本文最后更新于:2023年6月23日 晚上

离散程度度量

方差和标准差

正态分布函数曲线

极差

百分位数

四分位数

Q1 (25th percentile), Q3 (75th percentile)

中间四分位数极差

IQR = Q3 – Q1

孤立点

挑出落在至少高于第三个四分位数或低于第一个四分位数1.5×IQR 处的值

盒图

直方图

分位数图

散布图

局部回归曲线

缺失值处理

删除法

删除样本

删除特征

填补法

均值填补

连续性特征,采用平均值填补
离散型特征,使用众数填补

随机填补

贝叶斯Boostrap方法

假设数据集有 n 个样本,某特征 f 存在 k 个非缺失值和  (n−k) 个缺失值,使用贝叶斯Bootstrap方法进行缺失值填补共有两步:
第一步:从均匀分布 U(0, 1)中随机抽取 k−1个随机数,并进行升序排序记为{0, a_1,a_2, …,a_k−1, 1};
第二步:对 (n−k) 个缺失值,分别从非缺失值 {f_1, f_2,… , f_k} 中以概率 a_1,a_2−a_1, …,1−a_k−1采样一个值进行填补.

近似贝叶斯Boostrap方法

基于模型的填补

基于模型的方法将缺失特征 f 作为预测目标. 将数据集中其他特征或其子集作为输入特征,通过特征f的非缺失值构造训练集,训练分类或回归模型. 然后使用构建的模型来预测特征f的缺失值.

哑变量方法

对于离散型特征,如果存在缺失值,可以将缺失值作为一个单独的取值进行处理,这种方法称为哑变量方法.
例如学生信息数据集中,将”性别”特征的缺失值作为一个特殊的取值”unknown”,表示性别未知. 此时认为”性别”特征包含”F”、”M”和”unknown”三个不同取值.

数据转换与编码

数据的标准化

0-1标准化

适用范围:
0-1标准化适用于需要将数据简单地变换映射到某 一区间中,但其不足之处在于当有新数据加入时,可能会导致数据系列中的最大值或最小值发生变化,此时便需要重新定义最大值、最小值。

小数定标标准化

Z-score 标准化

Logistic标准化

各种标准化的优缺点

数据的编码

数字编码

One-hot编码

哑变量编码

数据的离散化

离散化概述

离散化示例

离散化步骤

离散化分类

等距离散化

等频离散化

聚类离散化

信息增益离散化

自顶向下的分裂策略

步骤:

卡方离散化

自底向上的合并策略

ChiMerge方法

类别属性依赖最大化(CAIM)离散化

离散化总结

降维

目的
特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征,从而达到减少特征个数,简化模型,提高模型精确度,减少运行时间的目的
两种情况

  1. 特征与特征之间互不相关
  2. 特征之间相互依赖
    分类
  3. 特征选择
  • 向前搜索
  • 向后搜索
  • 双向搜索
  1. 特征提取
  • 线性:主成分分析,线性判别分析
  • 非线性:多维尺度变换,局部线行嵌入
    策略
  1. 过滤式
  2. 封装式
  3. 嵌入式

PCA算法

LDA算法

区别

数据脱敏

原则

  • 单向性
  • 无残留
  • 易于实现

数据规约

数据标注


数据预处理
https://furthur509.github.io/2023/06/18/数据预处理/
作者
Yang Mingxin
发布于
2023年6月18日
许可协议