优化器选择建议
- 通用场景:Adam,开箱即用
- Transformer:AdamW + Warmup
- 计算机视觉:SGD + Momentum
- 微调大模型:AdamW + 低学习率
机器学习模型训练的核心
机器学习的目标是找到一组参数θ,使得损失函数L(θ)最小化。
| 优化器 | 核心思想 | 优点 | 适用场景 |
|---|---|---|---|
| SGD | 随机梯度下降 | 简单、可解释 | 凸优化问题 |
| Momentum | 累积历史梯度 | 加速收敛 | 深度网络 |
| Adam | 自适应学习率 | 收敛快、稳定 | 通用首选 |
| RMSprop | 自适应学习率 | RNN效果好 | 循环神经网络 |
| AdamW | Adam+权重衰减 | 正则化更好 | Transformer |
Adam结合了Momentum和RMSprop的优点,是目前最流行的优化器。