6.3 大模型训练中的不稳定现象