统计学习方法复习回顾提纲,后续有时间会给每个算法写一篇博客…
监督学习
感知机(Perceptron)
- 感知机模型
- 感知机学习策略 (函数间距)
- 感知机学习算法 (误分类点条件,梯度下降)
- 对偶形式
- 感知机原始形式收敛性证明 (线性可分数据集误分类次数上界)
- 感知机代码实现
K近邻
- 距离度量:欧氏距离、曼哈顿距离、p范数、切比雪夫距离(棋盘距离)
- K近邻思想:物以类聚,没有显式的训练过程
- k值的选择:太小(噪声),太大(相似性不高),取较小后交叉验证
- 分类决策规则:多数表决投票
- kd树:
- 平衡kd树的构造算法
- kd树的最近邻搜索算法
- kd树更适用于训练集实例数远大于空间维度时,当空间维度接近训练实例数时,接近于线性扫描(Ball tree可解决这种问题)
朴素贝叶斯
- 三门问题(条件概率)
- 朴素贝叶斯分类器的推导 (条件独立性假设,后验概率最大化)
- 参数估计
- 极大似然估计 (所估计的概率值有可能为0)
- 贝叶斯估计(拉普拉斯平滑)
- 后验概率最大化的含义:期望风险最小化(由期望风险最小化推导后验概率最大化)
- 代码实现时,对条件概率取对数,防止下溢出;同时可对特征取值集合做分桶合并
- 先验概率与条件概率的计算:特征为连续变量时,需要高斯分布假设
决策树
- 决策树的核心思想:以树结构为基础,每个节点对特征进行判断,进入分支,直到达到根节点
- 信息熵:随机变量的不确定性度量;条件熵;概率由数据集极大似然估计得到时,称为经验熵和条件熵
- 信息增益算法;信息增益比
- 决策树生成算法
- ID3:信息增益(偏向于选择特征取值多的特征)
- C4.5:信息增益比
- 决策树的剪枝算法:从下向上,局部考虑剪枝前和剪枝后的Loss(Loss函数)
- CART树:基尼系数,二叉树,回归树,分类树
- 最小二乘回归树的生成:每个划分单元的输出值如何确定?最佳划分特征于划分点如何确定?
- 分类树的生成算法
- CART树的剪枝算法:正则化系数区间–>最优子树;通过独立验证集选择最优子树序列中最优的子树
逻辑斯谛回归与最大熵模型
- 二元逻辑斯谛回归模型 P(Y|X)
- 参数估计:极大似然估计;以对数似然函数为目标函数的最优化问题(梯度下降/拟牛顿法优化的到最优参数)
- 多项逻辑斯谛回归模型
- 最大熵模型:用熵的最大化描述等可能性
- 最大熵模型的推导(有约束条件下最大化条件熵,拉格朗日乘子法,对偶问题)
- 对偶函数最大化等价于最大熵模型的极大似然估计
- 模型学习的最优化算法:改进的迭代尺度法(IIS);拟牛顿法(BFGS)
- IIS的推导:L(w+σ) - L(w) ;由-loga>=1-a ,(a>0) 取下界;Jeason不等式提高下界;对下界取σi的偏导,求解得到σi,更新w的值