深度学习总览
这一组笔记覆盖深度学习的核心知识,从 CNN 到 Transformer,从优化器到正则化,偏工程实践视角。
这个主题解决什么问题
深度学习解决的是从数据中自动学习层次化表示的问题。当特征工程的收益递减、手工特征无法捕捉复杂模式时,深度学习通过端到端学习,让模型自己发现有用的中间表示。
阅读路径
第一层:架构演进
- CNN(LeNet → AlexNet → VGG → ResNet → EfficientNet):计算机视觉的支柱
- RNN / LSTM / GRU:序列建模的经典方法
- Transformer:NLP 和多模态的核心
第二层:训练工程
- 优化器:SGD / Adam / AdamW
- 正则化:Dropout / BatchNorm / Label Smoothing
- 训练技巧:学习率调度 / Warmup / MixUp / CutMix
第三层:现代模型
- Diffusion Model
- 多模态模型
- MoE(Mixture of Experts)