Pretrain阶段 Text Packing 数据 label_ids 设定问题 #29

zykRichard · 2025-10-05T16:34:06Z

zykRichard
Oct 5, 2025

pretrain时数据按照Text Packing处理，跨文档情况的label_ids似乎没做语义对齐的处理？
例如，这一批数据是：[A0, A1, A2, <//s>, B0, B1, <//s>, C1]，那么：
input_ids : [A0, A1, A2, <//s>, B0, B1, <//s>, C1]
label_ids: [A1, A2, <//s>, -100, B1, <//s>, -100]
(不同字母代表不同文本)
即跨文档的第一个token应该设置成ignore index才是合理的？

目前我没有在原文件中找到这部分逻辑 (utils.py 中的 pretrain_collate_fn, llm_trainer中loss.py的LMloss forward没有相对应的逻辑)
请问是在别的地方做了相对应的处理吗？或者说不需要这么处理呢？如果不需要这么处理想请教一下原因，谢谢！

qibin0506 · 2025-10-07T01:14:07Z

qibin0506
Oct 7, 2025
Maintainer

没有必要这么搞

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Pretrain阶段 Text Packing 数据 label_ids 设定问题 #29

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Replies: 1 comment

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

Pretrain阶段 Text Packing 数据 label_ids 设定问题 #29

Uh oh!

Uh oh!

zykRichard Oct 5, 2025

Replies: 1 comment

Uh oh!

qibin0506 Oct 7, 2025 Maintainer

zykRichard
Oct 5, 2025

qibin0506
Oct 7, 2025
Maintainer