annotatedtransformer/todo.md at main · donglinkang2021/annotatedtransformer · GitHub

40 lines (36 loc) · 2.39 KB

Record

log

完成了基本的德英翻译训练和预测和可视化
下一步的计划是改进数据集部分和tokenize部分
使其可以适配下一步的中文数据集
使用中文数据集
尝试一下英文分词器使用word 而中文分词使用char
使用lightning来加速一下训练过程
目前完成了使用中文数据集使用多卡训练并预测可视化但loss在2.8左右并不是很好看
再下一步是逐渐细化，看一下底层的实现和哪里是可以优化的
bleu分数的计算方法也得实现一下本来就是应该和lightning一起实现的
先回归最初始的德英翻译任务，然后再逐渐扩展
下一步的计划是使用yaml来配置参数
- 打算做一个规范的工程 lightning + hydra + wandb
- 不过这是第二个项目的计划了
现在的计划还是优化原有的代码和模型
添加了bleu的计算
测试了以下基本的en2de, word2word, test_bleu = 0.2897, test_loss = 1.6732
下面训练一下bpe2bpe看一下效果
再调参看一下warmup, n_epoch的效果
因为现在跑一轮挺快的，所以可以多跑几轮
en2de, bpe2bpe, test_bleu = 0.2891, test_loss = 1.8787
之前的设置都是20epoch, 456warmup
有一点过拟合 40 epoch, 456*2 warmup, test_bleu = 0.28573, test_loss = 1.87407
30 epoch, 500 warmup, test_bleu = 0.28676, test_loss = 1.79402
现在想做的方向是重新跑一次中文的模型使用更小一点的vocab

todo

再往下就是回归初心，对每个模块都研究透彻，使用可视化+消融实验的方法来解释一下为什么这个有效果
- 比如：为什么最后loss用label_smoothing会好一点而不是只用单纯的cross_entropy
- 还有就是对于warmup的理解自己其实不明白这套调参的方法为什么会好，但感觉可以和模拟退火联系起来
- 然后就是如果自己用单纯的lstm这些rnn模型来做的话，效果如何
- 回去做完vq+resnet的任务之后还要再来看一下这个例子里面能不能用上
- 模型能不能变得更小这么多参数是真的很有必要的吗，都得做实验看一下结果才行
- 这里的位置编码可不可以用随机的分布编码代替，就像生成式任务中的位置编码一样
- 再往下做的就是优化一下greedy_decode的方式
- 采用temperature的方式采样，看一下能不能有更好的输出结果