Skip to content

[Question]: InternData-N1 是否存在数据文件损坏的问题 #237

@XieWeikai

Description

@XieWeikai

Question

我把huggingface上InternData-N1的数据都下载下来了,但是很多.tar.gz在解压的时候会碰到类似如下的问题:

gzip: stdin: not in gzip format
tar: Child returned status 1
tar: Error is not recoverable: exiting now
[fail] 00791-JPMDv7zL4bF.tar.gz (exit=2)

gzip: stdin: unexpected end of file
tar: Child returned status 1
tar: Error is not recoverable: exiting now
[fail] 00793-NRsmXFcVTbN.tar.gz (exit=2)

请问是否存在上传数据集文件时文件损坏的情况?另外我在处理数据时发现各个子集的数据似乎并没有完全统一格式?有的是一个目录多个episodes,有的是一个。task有的是纯用字符串来存json,有的不是。是否统一一下会好一些呢?

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions