data/nationalism目录下是民族主义的数据
dev.txt表示开发集数据,trian.txt表示训练集数据,test.csv表示测试集数据
其中,开发集和测试集数据,格式是 标签+文本(标签为1,表示正样本,具有民族主义情绪)
测试集数据,格式是 文本id+文本
data/populism目录下是民粹主义的数据,数据格式与上面的民族主义一致
民族主义
| 数据集 | 正样本 | 负样本 | 总量 |
|---|---|---|---|
| trian | 30458 | 31940 | 62398 |
| dev | 7541 | 8059 | 15600 |
| test | - | - | 19471 |
民粹主义
| 数据集 | 正样本 | 负样本 | 总量 |
|---|---|---|---|
| trian | 26457 | 31942 | 58399 |
| dev | 6543 | 8057 | 14600 |
| test | - | - | 19471 |
如果本数据集和代码应用到了你工作中,请引用下面这篇文章:
《民族主义和民粹主义极端情绪的表达:基于新浪微博上转基因议题的研究》