决策树分类算法

CLS

CLS算法问题：
测试属性集的组成以及测试属性的先后对决策树的学习具有举足轻重的影响。

ID3

**不纯度 (impurity)**：
表示落在当前节点的样本类别分布的均衡程度，节点分裂后，节点不纯度应该更低，选择特征及对应分割点，使得分裂前后的不纯度(impurity)下降最大。
节点不纯度的度量

信息熵

信息增益

Gini指数

误分率

ID3算法存在的问题：
倾向于分裂成很多的小节点（节点的样本数较小），容易造成过拟合

C4.5

信息增益率

决策树的剪枝

朴素贝叶斯算法

0概率处理：
加1平滑，使用加1的方法估计没有出现过现象的概率，以保证概率不会出现0
优缺点分析：

K近邻

回归

一元线性回归

多元线性回归

多项式回归

多项式回归的优点：可以通过增加 x 的高次项对实测点进行逼近，直至满意为止。
多项式回归可以处理相当一类非线性问题，它在回归分析中占有重要的地位，因为任一函数都可以分段用多项式来逼近。因此，在通常的实际问题中，不论依变量与其他自变量的关系如何，我们总可以用多项式回归来进行分析。

过拟合问题

减少特征数量

正则化

Lasso回归

岭回归

理解

SVM

最大化边界
线性不可分——升维
核函数

关联规则挖掘

支持度，置信度（条件概率

事务：每一条购物信息可以被定义为一个事务；
项：购物信息中的一项物品被定义为项；
项集：包含零个项或多个项的集合被称为项集，含有k个项的项集称为k项集；
关联规则就可以表示为形如“A=>B” 的蕴涵式，其中A，B均为非空项集，且A∩B= ∅。
支持度大于预定义的最小支持度阈值的项集称为频繁项集。
有了频繁项集的定义，可以把从数据集中挖掘强关联规则的过程分为两步：
第一步：需要找出满足最小支持度阈值的项集，即频繁项集；
第二步：根据最小置信度阈值，从频繁项集中生成强关联规则。
Apriori性质：
如果一个项集A是频繁项集，那么它的非空子集B也是频繁项集。
或者：如果一个项集不是频繁项集，那它的超集也不是频繁项集。

FP-Growth算法

集成

降低误差
- 假设单个分类器误差 𝑝，分类器之间独立，𝑇个分类器采用投票进行预测，得到集成模型 𝐻
- 集成分类器误差为：
𝑇=5, 𝑝=0.1 时， Error𝐻<0.01

多数投票方法 (majority vote)
平均 (averaging)
加权平均 (weighted averaging)：如AdaBoost

Bagging算法

优势：
- 特别适合用来提高那些方差大但偏差小的基模型(决策树，神经网络等)的预测性能
- 单个模型不稳定：对训练数据轻微的改变就能够造成分类器性能很明显的变化
- 使用Bagging可以综合投票结果，从而提升稳定性以及准确率
- 便于并行化。多个抽样数据的获取及基模型的训练互相没有关联，可以方便地进行并行计算

随机森林

决策树的局限性

随机森林算法原理

性能评估

随机森林与特征选择

优缺点

优点：
- 能够处理很高维度的数据，并且不用做特征选择
- 对特征之间存在的多重共线性不敏感，并且能够在一定程度上处理缺失数据和不均衡数据
- 在训练完后能够给出哪些特征比较重要
- 容易做成并行化方法
缺点：
- 处理噪音较大的小样本和低维数据集的问题上会过度拟合
- 相对于决策树，预测速度较慢
- 相对于决策树，模型可解释性较差