分类与回归
本文最后更新于:2023年6月23日 晚上
分类是一种典型的有监督学习问题
分类一般分为以下两个阶段:
- 分类器训练:即通过训练样本的特征和标签来建立分类模型
- 分类预测:利用分类模型对没有分类标签的数据进行分类
数据集划分为训练集和测试集 - 训练集训练分类器
- 测试集用于评估分类性能
决策树分类算法
CLS
CLS算法问题:
测试属性集的组成以及测试属性的先后对决策树的学习具有举足轻重的影响。
ID3
**不纯度 (impurity)**:
表示落在当前节点的样本类别分布的均衡程度,节点分裂后,节点不纯度应该更低,选择特征及对应分割点,使得分裂前后的不纯度(impurity)下降最大。
节点不纯度的度量
信息熵
信息增益
Gini指数
误分率
ID3算法存在的问题:
倾向于分裂成很多的小节点(节点的样本数较小),容易造成过拟合
C4.5
信息增益率
决策树的剪枝
朴素贝叶斯算法
0概率处理:
加1平滑,使用加1的方法估计没有出现过现象的概率,以保证概率不会出现0
优缺点分析:
K近邻
回归
一元线性回归
多元线性回归
多项式回归
多项式回归的优点:可以通过增加 x 的高次项对实测点进行逼近,直至满意为止。
多项式回归可以处理相当一类非线性问题,它在回归分析中占有重要的地位,因为任一函数都可以分段用多项式来逼近。因此,在通常的实际问题中,不论依变量与其他自变量的关系如何,我们总可以用多项式回归来进行分析。
过拟合问题
减少特征数量
正则化
Lasso回归
岭回归
理解
SVM
最大化边界
线性不可分——升维
核函数
关联规则挖掘
支持度,置信度(条件概率
事务:每一条购物信息可以被定义为一个事务;
项:购物信息中的一项物品被定义为项;
项集:包含零个项或多个项的集合被称为项集,含有k个项的项集称为k项集;
关联规则就可以表示为形如“A=>B” 的蕴涵式,其中A,B均为非空项集,且A∩B= ∅。
支持度大于预定义的最小支持度阈值的项集称为频繁项集。
有了频繁项集的定义,可以把从数据集中挖掘强关联规则的过程分为两步:
第一步:需要找出满足最小支持度阈值的项集,即频繁项集;
第二步:根据最小置信度阈值,从频繁项集中生成强关联规则。
Apriori性质:
如果一个项集A是频繁项集,那么它的非空子集B也是频繁项集。
或者:如果一个项集不是频繁项集,那它的超集也不是频繁项集。
FP-Growth算法
集成
降低误差
- 假设单个分类器误差 𝑝,分类器之间独立,𝑇个分类器采用投票进行预测,得到集成模型 𝐻
- 集成分类器误差为:
𝑇=5, 𝑝=0.1 时, Error𝐻<0.01
- 多数投票方法 (majority vote)
- 平均 (averaging)
- 加权平均 (weighted averaging):如AdaBoost
Bagging算法
优势:
- 特别适合用来提高那些方差大但偏差小的基模型(决策树,神经网络等)的预测性能
- 单个模型不稳定:对训练数据轻微的改变就能够造成分类器性能很明显的变化
- 使用Bagging可以综合投票结果,从而提升稳定性以及准确率
- 便于并行化。多个抽样数据的获取及基模型的训练互相没有关联,可以方便地进行并行计算
随机森林
决策树的局限性
随机森林算法原理
性能评估
随机森林与特征选择
优缺点
优点:
- 能够处理很高维度的数据,并且不用做特征选择
- 对特征之间存在的多重共线性不敏感,并且能够在一定程度上处理缺失数据和不均衡数据
- 在训练完后能够给出哪些特征比较重要
- 容易做成并行化方法
缺点:
- 处理噪音较大的小样本和低维数据集的问题上会过度拟合
- 相对于决策树,预测速度较慢
- 相对于决策树,模型可解释性较差
其他功能
Boosting算法
串行方式训练获得强分类器
AdaBoost
AdaBoost (Adaptive Boosting)是最有代表性的Boosting算法;
AdaBoost的核心思想是利用同一训练样本的不同加权版本,训练一组弱分类器,然后把这些弱分类器以加权的形式集成起来,形成一个最终的强分类器: