Replies: 1 comment
-
我在discussion回过你,感觉我们可以交流一下,你可以给我发邮件,[email protected] @sleepyshe |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
我按照最新的格式{"cinversations":[{"role":"user","content":""},{"role":"assitant","content":""}]}生成的json数据集。
共有两个数据集,train.json和dev.json。
执行微调语句时,发现train.json可以正常读入,并且生成train dataset
但是dev.json能够正常显示generating,并且显示正确的数据量1762,
Generating validation split: 1762 examples [00:00, 145176.67 examples/s]
但是生成之后发现val_dataset的nums_row=0
'''
val_dataset: Dataset({
features: ['conversations'],
num_rows: 0
})
'''
这导致后面的running evaluation发生报错:读入的inputs为none
我自行分析了一下我准备的数据
发现dev.json本身没有问题
因为我把dev.json换为train.json 把train.json换为dev.json之后,训练集依旧可以正常读入并且生成train dataset,验证集依旧不能正常生成val_dataset
说明数据本身应当没有问题
我查看了finetune_hf.py文件,也没发现可以修改的地方
请各位前辈看看这个问题,非常感谢
Beta Was this translation helpful? Give feedback.
All reactions