0%

统计学习方法

Posted on 2021-04-03 Edited on 2021-04-04 In Machine Learning

统计学习方法复习回顾提纲，后续有时间会给每个算法写一篇博客…

监督学习

感知机（Perceptron）

感知机模型
感知机学习策略（函数间距）
感知机学习算法（误分类点条件，梯度下降）
对偶形式
感知机原始形式收敛性证明（线性可分数据集误分类次数上界）
感知机代码实现

K近邻

距离度量：欧氏距离、曼哈顿距离、p范数、切比雪夫距离（棋盘距离）
K近邻思想：物以类聚，没有显式的训练过程
k值的选择：太小（噪声），太大（相似性不高），取较小后交叉验证
分类决策规则：多数表决投票
kd树：
- 平衡kd树的构造算法
- kd树的最近邻搜索算法
- kd树更适用于训练集实例数远大于空间维度时，当空间维度接近训练实例数时，接近于线性扫描（Ball tree可解决这种问题）

朴素贝叶斯

三门问题（条件概率）
朴素贝叶斯分类器的推导（条件独立性假设，后验概率最大化）
参数估计
- 极大似然估计（所估计的概率值有可能为0）
- 贝叶斯估计（拉普拉斯平滑）
后验概率最大化的含义：期望风险最小化（由期望风险最小化推导后验概率最大化）
代码实现时，对条件概率取对数，防止下溢出；同时可对特征取值集合做分桶合并
先验概率与条件概率的计算：特征为连续变量时，需要高斯分布假设

决策树

决策树的核心思想：以树结构为基础，每个节点对特征进行判断，进入分支，直到达到根节点
信息熵：随机变量的不确定性度量；条件熵；概率由数据集极大似然估计得到时，称为经验熵和条件熵
信息增益算法；信息增益比
决策树生成算法
- ID3：信息增益（偏向于选择特征取值多的特征）
- C4.5：信息增益比
决策树的剪枝算法：从下向上，局部考虑剪枝前和剪枝后的Loss（Loss函数）
CART树：基尼系数，二叉树，回归树，分类树
- 最小二乘回归树的生成：每个划分单元的输出值如何确定？最佳划分特征于划分点如何确定？
- 分类树的生成算法
- CART树的剪枝算法：正则化系数区间–>最优子树；通过独立验证集选择最优子树序列中最优的子树

逻辑斯谛回归与最大熵模型

二元逻辑斯谛回归模型 P(Y|X)
参数估计：极大似然估计；以对数似然函数为目标函数的最优化问题（梯度下降/拟牛顿法优化的到最优参数）
多项逻辑斯谛回归模型
最大熵模型：用熵的最大化描述等可能性
- 最大熵模型的推导（有约束条件下最大化条件熵，拉格朗日乘子法，对偶问题）
- 对偶函数最大化等价于最大熵模型的极大似然估计
- 模型学习的最优化算法：改进的迭代尺度法（IIS）；拟牛顿法（BFGS）
- IIS的推导：L(w+σ) - L(w) ；由-loga>=1-a ,(a>0) 取下界；Jeason不等式提高下界；对下界取σi的偏导，求解得到σi，更新w的值