先看一下数据,各个标签的分布
再看一下文本长度分布
方法构想
方法1: 以搜代查,之前开源了一个大模型以搜代查的方法,但是当时开源工程做的不好,网友反应没办法复现,一直想重新整理一下,趁这次机会,先把这个做了;
方法2: 分类方法,必然少不了bert文本分类啊,文本长度也比较合适,将这个方法作为baseline;
方法3: 大模型api文本分类。看比赛要求里好像不允许使用大模型api,但是比赛第二,借此机会测评一下各家的大模型对违禁词处理的情况;
方法4: 这个是参加这次比赛的重点,前一阵看到公众号有人使用Qwen0.6B做文本分类,当时脑海里有一个想法,就是用使用提示学习的方法,做分类。
做一个简单的预测,bert的初始效果最好,大模型加违禁词词库将是王道,这个有一个好处就是没有正样本,所以就很有特点,黑人、地域、男女。