更新时间:2026-01-16 gmt 08:00
创建训练任务,显示创建失败-j9九游会登录
问题现象
创建训练任务时,选择qwen2.5-7b、qwen2.5-14b、qwen2.5-32b、qwen2.5-72b-1k或者qwen2-vl-7b模型,创建训练任务失败。
关键日志报错(出现以下任意报错):
- 报错1:
[info|trainer.py:2278] 2025-01-09 20:49:47,170 >> will skip the first 5 epochs then the first 0 batches
- 报错2:
[rank0]: runtimeerror: cannot find sufficient samples, consider increasing dataset size.
原因分析
数据集过少,导致训练失败。
其中,增量预训练会packing,将短sample拼成seq_len长度进行训练,因此原数据条数多不意味着处理后samples多。
问题影响
训练失败或者训练结果与预期不符。
处理方法
增加数据集数量。
相关文档
意见反馈
文档内容是否对您有帮助?
提交成功!非常感谢您的反馈,我们会继续努力做到更好!
您可在查看反馈及问题处理状态。
系统繁忙,请稍后重试
如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨