Skip to content

Latest commit

 

History

History
91 lines (54 loc) · 3.31 KB

File metadata and controls

91 lines (54 loc) · 3.31 KB

[TOC]

中文数据集

通用语料

  • https://github.com/nonamestreet/weixin_public_corpus

    • 微信公众号语料库
  • 超对称:https://bbt.ssymmetry.com/data.html

    • 通用语料、金融语料
  • 中文法律数据

  • 维基百科json版(wiki2019zh)

    • google
    • baidu
    • 可以做为通用中文语料,做预训练的语料或构建词向量,也可以用于构建知识问答。
  • 新闻语料json版(news2016zh)

    • google
    • baidu pw:k265
    • 可以用于训练【标题生成】模型,或训练【关键词生成】模型(选关键词内容不同于标题的数据);亦可以通过新闻渠道区分出新闻的类型。
    • 包含了250万篇新闻。新闻来源涵盖了6.3万个媒体,含标题、关键词、描述、正文。( 原始数据9G,压缩文件3.6G;新闻内容跨度:2014-2016年)
  • 百科类问答json版(baike2018qa)

    • google
    • baidu pw:fu45
    • 含有150万个预先过滤过的、高质量问题和答案,每个问题属于一个类别。总共有492个类别,其中频率达到或超过10次的类别有434个。
    • 可以做为通用中文语料,训练词向量或做为预训练的语料;也可以用于构建百科类问答;其中类别信息比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。
  • 百度百科

    • 只能自己爬,爬取得链接:https://pan.baidu.com/share/init?surl=i3wvfil 提取码 neqs
  • 维基百科数据集

英文数据集

数据平台