关于InternVL2的模型训练二(如何训练目标定位模型)
前言
环境依赖
最重要的训练策略
执行参数修改和运行
lora模型合并
更新一点 2024年10月29日
今天发现有人提出 hugging face 的transformers库有个严重的bug,如果训练时使用了梯度累积方法(也就是下面的GRADIENT_ACC)。目前官方还在修复,梯度累积设置为1则可以避免这个问题,这和它里面的计算方式有关,每个样本如果不一样长,交叉熵计算损失时不会按样本长度加权平均计算,会多算padding等无效的token在里面。所以在修复之前建议GRADIENT_ACC控制为1,整体训练效果应该会更好。
前言
本章节是训练模型前的最后一节,上一章节介绍了模型配置、数据配置、重要参数说明,这一章节将会介绍最重要的训练策略、执行参数修改和运行、lora模型合并两点。
InternVL2我前后训练多