j9九游会登录/ 大模型即服务平台 maas/ 故障排除/ 创建训练任务,显示创建失败
更新时间:2026-01-16 gmt 08:00

创建训练任务,显示创建失败-j9九游会登录

问题现象

创建训练任务时,选择qwen2.5-7b、qwen2.5-14b、qwen2.5-32b、qwen2.5-72b-1k或者qwen2-vl-7b模型,创建训练任务失败。

关键日志报错(出现以下任意报错):

  • 报错1:
    [info|trainer.py:2278] 2025-01-09 20:49:47,170 >>   will skip the first 5 epochs then the first 0 batches
  • 报错2:
    [rank0]: runtimeerror: cannot find sufficient samples, consider increasing dataset size.

原因分析

数据集过少,导致训练失败。

其中,增量预训练会packing,将短sample拼成seq_len长度进行训练,因此原数据条数多不意味着处理后samples多。

问题影响

训练失败或者训练结果与预期不符。

处理方法

增加数据集数量。

相关文档

网站地图