[TOC]
-
https://github.com/InsaneLife/ChineseNLPCorpus
- 中文各个nlp任务数据集
-
https://github.com/CLUEbenchmark/CLUEDatasetSearch
- CLUE:搜索所有中文NLP数据集,附常用英文NLP数据集
-
https://github.com/liucongg/NLPDataSet
- 中文各个nlp任务数据集
-
THUOCL:清华大学开放中文词库:http://thuocl.thunlp.org/
-
https://github.com/nonamestreet/weixin_public_corpus
- 微信公众号语料库
-
超对称:https://bbt.ssymmetry.com/data.html
- 通用语料、金融语料
-
中文法律数据
- https://github.com/guoxw/wenshu- 裁判文书数据集
- https://github.com/pengxiao-song/awesome-chinese-legal-resources
- 本仓库致力于收集和整理全面的中国法律数据资源,旨在帮助研究人员及从业者展开工作
-
维基百科json版(wiki2019zh)
-
新闻语料json版(news2016zh)
- baidu pw:k265
- 可以用于训练【标题生成】模型,或训练【关键词生成】模型(选关键词内容不同于标题的数据);亦可以通过新闻渠道区分出新闻的类型。
- 包含了250万篇新闻。新闻来源涵盖了6.3万个媒体,含标题、关键词、描述、正文。( 原始数据9G,压缩文件3.6G;新闻内容跨度:2014-2016年)
-
百科类问答json版(baike2018qa)
- baidu pw:fu45
- 含有150万个预先过滤过的、高质量问题和答案,每个问题属于一个类别。总共有492个类别,其中频率达到或超过10次的类别有434个。
- 可以做为通用中文语料,训练词向量或做为预训练的语料;也可以用于构建百科类问答;其中类别信息比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。
-
百度百科
- 只能自己爬,爬取得链接:
https://pan.baidu.com/share/init?surl=i3wvfil提取码 neqs
- 只能自己爬,爬取得链接:
-
维基百科数据集
-
中文语料小数据
- 包含了中文命名实体识别、中文关系识别、中文阅读理解等一些小量数据。
- https://github.com/crownpku/Small-Chinese-Corpus