2024年11月9日

统计学方法

1. 将每个样本分配给最近的中心点。

知识库机器学习

第一部分:基础知识

第1章:绪论

  • 统计学习的概念

  • 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。

  • 学习类型

  • 监督学习:已知输入和输出,学习输入到输出的映射。

  • 非监督学习:只有输入,没有对应的输出,学习数据的内在结构。

  • 半监督学习:既有带标签的数据,也有不带标签的数据。

  • 强化学习:通过与环境的交互,学习最优策略。

第2章:模型评估与选择

  • 训练误差与测试误差

  • 训练误差:模型在训练集上的误差。

  • 测试误差:模型在测试集上的误差。

  • 过拟合与欠拟合

  • 过拟合:模型在训练集上表现很好,但在测试集上表现差。

  • 欠拟合:模型在训练集和测试集上表现都差。

  • 交叉验证

  • K折交叉验证:将数据集分成 ( K ) 个子集,每次用 ( K-1 ) 个子集训练模型,剩下的1个子集作为验证集,重复 ( K ) 次。

  • 正则化方法

  • L1正则化[L1=λi=1nwi][ L_1 = \lambda \sum_{i=1}^{n} |w_i| ]

  • L2正则化[L2=λi=1nwi2][ L_2 = \lambda \sum_{i=1}^{n} w_i^2 ]

  • 解析:L1正则化倾向于产生稀疏解,即很多权重为零;L2正则化倾向于使权重较小,但不会为零。

第3章:概率论基础

  • 概率分布

  • 二项分布[P(X=k)=(nk)pk(1p)nk][ P(X = k) = \binom{n}{k} p^k (1-p)^{n-k} ]

  • 正态分布\[ f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} ]$

  • 贝叶斯公式

  • \[ P(A|B) = \frac{P(B|A) P(A)}{P(B)} ]$

  • 解析:贝叶斯公式用于在已知某些条件的情况下计算后验概率。

  • 最大似然估计

  • [θ^=argmaxθP(Xθ)][ \hat{\theta} = \arg\max_{\theta} P(X|\theta)]

  • 解析:最大似然估计是通过最大化数据在给定参数下的概率来估计参数。

  • 最大后验估计

  • \[ \hat{\theta} = \arg\max_{\theta} P(\theta|X) = \arg\max_{\theta} P(X|\theta) P(\theta) ]$

  • 解析:最大后验估计是在最大似然估计的基础上引入先验概率。

第二部分:监督学习

第4章:感知机

  • 感知机模型

  • [f(x)=sign(wx+b)][ f(x) = \text{sign}(w \cdot x + b) ]

  • 解析:感知机是一种线性分类器,通过调整权重 ( w ) 和偏置 ( b ) 来实现分类。

  • 损失函数

  • [L(w,b)=i=1Nyi(wxi+b)][ L(w, b) = -\sum_{i=1}^{N} y_i (w \cdot x_i + b) ]

  • 解析:感知机的损失函数是误分类点的总和。

  • 学习算法

  • 梯度下降[ww+ηyixi][ w \leftarrow w + \eta y_i x_i ][bb+ηyi][ b \leftarrow b + \eta y_i ]

  • 解析:梯度下降通过调整权重和偏置来最小化损失函数。

第5章:k近邻法

  • k近邻算法

  • 找出训练集中与待分类点最近的 ( k ) 个点,根据这 ( k ) 个点的类别投票决定待分类点的类别。

  • 距离度量

  • 欧氏距离[d(x1,x2)=i=1n(x1ix2i)2][ d(x_1, x_2) = \sqrt{\sum_{i=1}^{n} (x_{1i} - x_{2i})^2} ]

  • 解析:欧氏距离是两点之间直线距离的平方根。

  • 分类决策规则

  • 多数表决法

第6章:朴素贝叶斯法

  • 贝叶斯定理

  • [P(Ckx)=P(xCk)P(Ck)P(x)][ P(C_k|x) = \frac{P(x|C_k) P(C_k)}{P(x)} ]

  • 解析:贝叶斯定理用于计算给定特征条件下,属于某一类别的概率。

  • 朴素贝叶斯分类器

  • 假设特征之间相互独立:[P(xCk)=i=1nP(xiCk)][ P(x|C_k) = \prod_{i=1}^{n} P(x_i|C_k) ]

  • 解析:朴素贝叶斯分类器假设特征之间相互独立,简化了概率计算。

  • 文本分类应用

  • 词袋模型

第7章:决策树

  • 决策树的构造

    • ID3算法:使用信息增益

    • C4.5算法:使用信息增益比

    • CART算法:使用基尼指数

  • 信息增益

  • [IG(D,a)=H(D)vVDvDH(Dv)][ IG(D, a) = H(D) - \sum_{v \in V} \frac{|D_v|}{|D|} H(D_v) ]

  • 解析:信息增益衡量某个特征对数据集的纯度提升。

  • 信息增益比

  • [IGR(D,a)=IG(D,a)Ha(D)][ IGR(D, a) = \frac{IG(D, a)}{H_a(D)} ]

  • 解析:信息增益比考虑了特征的固有值分布。

  • 基尼指数

  • [G(D)=1k=1Kpk2][ G(D) = 1 - \sum_{k=1}^{K} p_k^2 ]

  • 解析:基尼指数衡量数据集的不纯度。

  • 剪枝

  • 预剪枝:提前停止树的生长。

  • 后剪枝:先生成一棵完整的树,再进行剪枝。

第三部分:无监督学习

第8章:聚类

  • K-means算法

  • 初始化:随机选择 ( k ) 个中心点。

  • 迭代步骤:

  1. 将每个样本分配给最近的中心点。

  2. 更新中心点为所分配样本的均值。

  • 目标函数:[J=i=1kxCixμi2][ J = \sum_{i=1}^{k} \sum_{x \in C_i} \| x - \mu_i \|^2 ]

  • 解析:K-means算法通过最小化簇内样本与中心点的距离平方和来实现聚类。

  • 层次聚类

  • 凝聚层次聚类:从每个样本作为一个簇开始,逐步合并最近的簇。

  • 分裂层次聚类:从所有样本作为一个簇开始,逐步分裂成更小的簇。

  • DBSCAN

  • 基于密度的聚类算法,能够发现任意形状的簇。

  • 关键参数:( \epsilon )(邻域半径),( MinPts )(最小点数)。

第9章:降维

  • 主成分分析(PCA)

  • 目标:找到数据的主成分,即方差最大的方向。

  • 计算步骤:

  1. 中心化数据:[X=XXˉ][ X' = X - \bar{X} ]

  2. 计算协方差矩阵:[Σ=1n1XTX][ \Sigma = \frac{1}{n-1} X'^T X' ]

  3. 求解特征值和特征向量。

  4. 选择前 ( k ) 个特征向量组成投影矩阵 ( W )。

  5. 投影数据:[Y=XW][ Y = X' W ]

  • 解析:PCA通过投影数据到方差最大的方向来实现降维。

  • 线性判别分析(LDA)

  • 目标:最大化类间距离,同时最小化类内距离。

  • 计算步骤:

  1. 计算类内散度矩阵 ( S_W ) 和类间散度矩阵 ( S_B )。

  2. 求解广义特征值问题:[SW1SBw=λw][ S_W^{-1} S_B w = \lambda w ]

  3. 选择前 ( k ) 个特征向量组成投影矩阵 ( W )。

  4. 投影数据:[Y=XW][ Y = X W ]

  • 解析:LDA通过最大化类间散度与类内散度的比值来实现降维。

第四部分:深度学习

第10章:神经网络

  • 前馈神经网络

  • 模型结构:输入层、隐藏层、输出层。

  • 激活函数:ReLU、Sigmoid、Tanh等。

  • 反向传播算法

  • 计算误差梯度:[δj(l)=(Θ(l))Tδ(l+1)g(z(l))][ \delta_j^{(l)} = (\Theta^{(l)})^T \delta^{(l+1)} \odot g'(z^{(l)}) ]

  • 更新权重:[Θij(l)=Θij(l)αδj(l+1)xi(l)][ \Theta_{ij}^{(l)} = \Theta_{ij}^{(l)} - \alpha \delta_j^{(l+1)} x_i^{(l)} ]

  • 解析:反向传播算法通过计算误差梯度来调整权重,从而最小化损失函数。

第11章:卷积神经网络

  • 卷积层

  • 卷积操作:[(IK)(x,y)=m=aan=bbI(x+m,y+n)K(m,n)][ (I * K)(x, y) = \sum_{m=-a}^{a} \sum_{n=-b}^{b} I(x+m, y+n) K(m, n) ]

  • 解析:卷积操作通过滑动窗口提取局部特征。

  • 池化层

  • 最大池化:[MaxPooling(I)=max(I(x,y))][ \text{MaxPooling}(I) = \max(I(x, y)) ]

  • 平均池化:[AveragePooling(I)=1k2i=1kj=1kI(x+i,y+j)][ \text{AveragePooling}(I) = \frac{1}{k^2} \sum_{i=1}^{k} \sum_{j=1}^{k} I(x+i, y+j) ]

  • 解析:池化层通过降低特征图的空间维度来减少计算量。

  • 全连接层

  • 将特征图展平为一维向量,进行全连接操作。

  • 应用实例

  • 图像分类、目标检测等。

第12章:循环神经网络

  • RNN的基本结构

  • 模型结构:[ht=σ(Whht1+Wxxt+b)][ h_t = \sigma(W_h h_{t-1} + W_x x_t + b) ]

  • 输出层:[yt=softmax(Wyht+by)][ y_t = \text{softmax}(W_y h_t + b_y) ]

  • 解析:RNN通过维护一个隐藏状态来处理序列数据。

  • 长短期记忆网络(LSTM)

  • 输入门:[it=σ(Wi[ht1,xt]+bi)][ i_t = \sigma(W_i [h_{t-1}, x_t] + b_i) ]

  • 遗忘门:[ft=σ(Wf[ht1,xt]+bf)][ f_t = \sigma(W_f [h_{t-1}, x_t] + b_f) ]

  • 输出门:[ot=σ(Wo[ht1,xt]+bo)][ o_t = \sigma(W_o [h_{t-1}, x_t] + b_o) ]

  • 细胞状态:[ct=ftct1+ittanh(Wc[ht1,xt]+bc)][ c_t = f_t \odot c_{t-1} + i_t \odot \tanh(W_c [h_{t-1}, x_t] + b_c) ]

  • 隐藏状态:[ht=ottanh(ct)][ h_t = o_t \odot \tanh(c_t) ]

  • 解析:LSTM通过引入门控机制来解决RNN的长期依赖问题。

  • GRU

  • 更新门:[zt=σ(Wz[ht1,xt]+bz)][ z_t = \sigma(W_z [h_{t-1}, x_t] + b_z) ]

  • 重置门:[rt=σ(Wr[ht1,xt]+br)][ r_t = \sigma(W_r [h_{t-1}, x_t] + b_r) ]

  • 候选隐藏状态:[h~t=tanh(Wh[rtht1,xt]+bh)][ \tilde{h}_t = \tanh(W_h [r_t \odot h_{t-1}, x_t] + b_h) ]

  • 隐藏状态:[ht=(1zt)ht1+zth~t][ h_t = (1 - z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t ]

  • 解析:GRU通过简化LSTM的结构来减少计算量。

第五部分:其他

第13章:强化学习

  • 强化学习的基本概念

  • 环境、智能体、状态、动作、奖励。

  • Q-learning

  • 更新规则:[Q(st,at)Q(st,at)+α[rt+γmaxaQ(st+1,a)Q(st,at)]][ Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha [r_t + \gamma \max_a Q(s_{t+1}, a) - Q(s_t, a_t)] ]

  • 解析:Q-learning通过迭代更新Q值来学习最优策略。

  • DQN

  • 使用经验回放:存储过去的经历,随机采样进行训练。

  • 使用目标网络:稳定Q值的更新。

  • 策略梯度方法

  • 直接优化策略函数:[θJ(θ)=Eτπθ[θlogπθ(as)R(τ)]][ \nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \nabla_\theta \log \pi_\theta(a|s) R(\tau) \right] ]

  • 解析:策略梯度方法通过直接优化策略函数来学习最优策略。

第14章:集成学习

  • Bagging

  • 随机抽样生成多个训练集,训练多个模型,最后取平均或投票。

  • Boosting

  • 逐步训练多个弱模型,每个模型重点学习前一个模型的错误。

  • AdaBoost[αt=12ln(1ϵtϵt)][ \alpha_t = \frac{1}{2} \ln \left( \frac{1 - \epsilon_t}{\epsilon_t} \right) ]

  • Gradient Boosting[Fm(x)=Fm1(x)+γmhm(x)][ F_m(x) = F_{m-1}(x) + \gamma_m h_m(x) ]

  • 解析:Boosting通过组合多个弱模型来形成一个强模型。

  • 随机森林

  • 基于Bagging,每个决策树使用不同的特征子集。

第15章:推荐系统

  • 协同过滤

  • 用户-用户协同过滤:基于用户相似度推荐。

  • 物品-物品协同过滤:基于物品相似度推荐。

  • 基于内容的推荐

  • 利用用户过去的行为和物品的特征进行推荐。

  • 混合推荐系统

  • 结合多种推荐方法,提高推荐效果。

总结

  • 统计学习的理论与实践

  • 统计学习的基本原理

  • 不同方法的优缺点

  • 实际应用案例