wjc_classification

先看一下数据，各个标签的分布

再看一下文本长度分布

方法构想

方法1: 以搜代查，之前开源了一个大模型以搜代查的方法，但是当时开源工程做的不好，网友反应没办法复现，一直想重新整理一下，趁这次机会，先把这个做了;

方法2: 分类方法，必然少不了bert文本分类啊，文本长度也比较合适，将这个方法作为baseline;

方法3: 大模型api文本分类。看比赛要求里好像不允许使用大模型api,但是比赛第二，借此机会测评一下各家的大模型对违禁词处理的情况；

方法4: 这个是参加这次比赛的重点，前一阵看到公众号有人使用Qwen0.6B做文本分类，当时脑海里有一个想法，就是用使用提示学习的方法，做分类。

做一个简单的预测，bert的初始效果最好，大模型加违禁词词库将是王道，这个有一个好处就是没有正样本，所以就很有特点，黑人、地域、男女。

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
dataset		dataset
README.md		README.md
image-1.png		image-1.png
image.png		image.png
process.ipynb		process.ipynb
run.py		run.py
test.py		test.py
trainer.py		trainer.py

Provide feedback