Repository files navigation
数据集
数目
Lang
Task
Gen
类型
来源
链接
belle_cn
1079517
CN
TS/MT
SI
通用指令,数学推理,对话
text-davunci-003
下载
firefly
1649398
CN
MT
COL
23种nlp任务
收集中文数据集,人工书写指令模板
下载
GAOKAO
2785
CN
MT
COL
高考中的多选,填空等问题
人工标注的数据集的收集
下载
COIG
298428
CN
MT
COL
考试,翻译,价值观指令数据集搜集,基于知识图谱的反事实对话
自动化工具+人工验证
下载
pCLUE
1200705
CN
MT
73个Prompt,分类,推理,关键词识别,阅读理解等9个NLP任务
下载
CSL
396209
CN
MT
40万中文论文元数据,26个Prompt
下载
CNewSum
304307
CN
TS
字节与UCSB发布的中文摘要数据集
下载
Coco-cn
CN
TS
图文多模态
下载
news_commentary
69200
EN/CN
TS
中英文翻译数据
下载
Chain of Thought
74771
EN/CN
MT
HG
CoT相关任务
人在现有数据集上标注CoT
下载
HC3
37175
EN/CN
TS
MIX
对话评估
gpt-3.5 或 人工
下载
instinwild
52191
EN/CN
MT
SI
生成,开放域问答,头脑风暴
text-davunci-003
下载
Alpaca_GPT4
52002
EN/CN
MT
SI
通用指令
GPT-4 生成的Alpaca数据
下载
MOSS
1583595
EN/CN
SI
下载
LLMZoo
ML
下载
Guanaco
534610
ML
MT
SI
多种nlp任务
text-davinci-003
下载
Natural Instructions
5040134
ML
MT
COL
多种nlp任务
人工标注的数据集的收集
下载
xP3
78883588
ML
MT
COL
多种nlp任务
人工标注的数据集的收集
下载
alpaca
52002
EN
MT
SI
通用指令
text-davinci-003
下载
GPT4all
806199
EN
MT
COL
代码,故事,对话
GPT-3.5-turbo 蒸馏
下载
GPTeacher
29013
EN
MT
SI
通用,角色扮演,工具指令
GPT-4 & toolformer
下载
prosocial dialog
165681
EN
TS
MIX
对话
GPT-3改写问题,人工回复
下载
finance_en
68912
EN
TS
COL
金融领域问答
GPT3.5
下载
instruct
888969
EN
MT
COL
GPT4All,Alpaca和开源数据集的增强
使用AllenAI提供的nlp增强工具
下载
Code Alpaca
20022
EN
SI
SI
代码生成,编辑,优化
text-davinci-003
下载
webGPT
18994
EN
TS
MIX
信息检索问答
fine-tuned GPT-3 + 人工评估
下载
dolly 2.0
15015
EN
TS
HG
公开、封闭式问答、信息抽取、摘要生成、开放式构思、分类以及创意写作七类任务
人工标注
下载
baize
653699
EN
MT
COL
Alpaca和多种问答任务
人工标注的数据集的收集
下载
hh-rlhf
284517
EN
TS
MIX
对话
RLHF models
下载
OIG(part)
49237
EN
MT
COL
多种nlp任务
人工标注的数据集的收集和数据增强
下载
camel
760620
EN
MT
SI
物理生物化学编程,数学,社会等领域的角色扮演对话人工标注的数据集的收集
gpt-3.5-turbo 生成
下载
FLAN-Muffin
1764800
EN
MT
COL
60种nlp任务
人工标注的数据集的收集
下载
GPT4Tools
71446
EN
MT
SI
a collection of tool-related instructions
gpt-3.5-turbo
下载
ShareChat
1663241
EN
MT
MIX
general instruct
收集ShareGPT
下载
Auto CoT
EN
下载
ultrachat
28247446
EN
下载
StackLLaMA
todo
EN
About
开源SFT数据集整理,随时补充
Topics
Resources
Stars
Watchers
Forks
You can’t perform that action at this time.