Skip to content

sunyongdi/wjc_classification

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

wjc_classification

先看一下数据,各个标签的分布

alt text

再看一下文本长度分布

alt text

方法构想

方法1: 以搜代查,之前开源了一个大模型以搜代查的方法,但是当时开源工程做的不好,网友反应没办法复现,一直想重新整理一下,趁这次机会,先把这个做了;

方法2: 分类方法,必然少不了bert文本分类啊,文本长度也比较合适,将这个方法作为baseline;

方法3: 大模型api文本分类。看比赛要求里好像不允许使用大模型api,但是比赛第二,借此机会测评一下各家的大模型对违禁词处理的情况;

方法4: 这个是参加这次比赛的重点,前一阵看到公众号有人使用Qwen0.6B做文本分类,当时脑海里有一个想法,就是用使用提示学习的方法,做分类。

做一个简单的预测,bert的初始效果最好,大模型加违禁词词库将是王道,这个有一个好处就是没有正样本,所以就很有特点,黑人、地域、男女。

About

违禁词分类

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published