Question
我把huggingface上InternData-N1的数据都下载下来了,但是很多.tar.gz在解压的时候会碰到类似如下的问题:
gzip: stdin: not in gzip format
tar: Child returned status 1
tar: Error is not recoverable: exiting now
[fail] 00791-JPMDv7zL4bF.tar.gz (exit=2)
gzip: stdin: unexpected end of file
tar: Child returned status 1
tar: Error is not recoverable: exiting now
[fail] 00793-NRsmXFcVTbN.tar.gz (exit=2)
请问是否存在上传数据集文件时文件损坏的情况?另外我在处理数据时发现各个子集的数据似乎并没有完全统一格式?有的是一个目录多个episodes,有的是一个。task有的是纯用字符串来存json,有的不是。是否统一一下会好一些呢?