求指教：微调时val_dataset生成有误 #908

sleepyshe · 2024-03-02T08:18:57Z

sleepyshe
Mar 2, 2024

我按照最新的格式{"cinversations":[{"role":"user","content":""},{"role":"assitant","content":""}]}生成的json数据集。
共有两个数据集，train.json和dev.json。
执行微调语句时，发现train.json可以正常读入，并且生成train dataset
但是dev.json能够正常显示generating，并且显示正确的数据量1762，
Generating validation split: 1762 examples [00:00, 145176.67 examples/s]

但是生成之后发现val_dataset的nums_row=0
'''
val_dataset: Dataset({
features: ['conversations'],
num_rows: 0
})
'''
这导致后面的running evaluation发生报错:读入的inputs为none

我自行分析了一下我准备的数据
发现dev.json本身没有问题
因为我把dev.json换为train.json 把train.json换为dev.json之后，训练集依旧可以正常读入并且生成train dataset，验证集依旧不能正常生成val_dataset
说明数据本身应当没有问题

我查看了finetune_hf.py文件，也没发现可以修改的地方
请各位前辈看看这个问题，非常感谢

CNUIGB · 2024-03-02T15:04:38Z

CNUIGB
Mar 2, 2024

我在discussion回过你，感觉我们可以交流一下，你可以给我发邮件，[email protected] @sleepyshe

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

求指教：微调时val_dataset生成有误 #908

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

求指教：微调时val_dataset生成有误 #908

Uh oh!

sleepyshe Mar 2, 2024

Replies: 1 comment

Uh oh!

CNUIGB Mar 2, 2024

sleepyshe
Mar 2, 2024

CNUIGB
Mar 2, 2024