Skip to content

Latest commit

 

History

History
40 lines (36 loc) · 2.39 KB

File metadata and controls

40 lines (36 loc) · 2.39 KB

Record

log

  • 完成了基本的德英翻译训练和预测和可视化
  • 下一步的计划是改进数据集部分和tokenize部分
  • 使其可以适配下一步的中文数据集
  • 使用中文数据集
  • 尝试一下英文分词器使用word 而中文分词使用char
  • 使用lightning来加速一下训练过程
  • 目前完成了使用中文数据集使用多卡训练并预测可视化 但loss在2.8左右并不是很好看
  • 再下一步是逐渐细化,看一下底层的实现和哪里是可以优化的
  • bleu分数的计算方法也得实现一下 本来就是应该和lightning一起实现的
  • 先回归最初始的德英翻译任务,然后再逐渐扩展
  • 下一步的计划是使用yaml来配置参数
    • 打算做一个规范的工程 lightning + hydra + wandb
    • 不过这是第二个项目的计划了
  • 现在的计划还是优化原有的代码和模型
  • 添加了bleu的计算
  • 测试了以下基本的en2de, word2word, test_bleu = 0.2897, test_loss = 1.6732
  • 下面训练一下bpe2bpe看一下效果
  • 再调参看一下warmup, n_epoch的效果
  • 因为现在跑一轮挺快的,所以可以多跑几轮
  • en2de, bpe2bpe, test_bleu = 0.2891, test_loss = 1.8787
  • 之前的设置都是20epoch, 456warmup
  • 有一点过拟合 40 epoch, 456*2 warmup, test_bleu = 0.28573, test_loss = 1.87407
  • 30 epoch, 500 warmup, test_bleu = 0.28676, test_loss = 1.79402
  • 现在想做的方向是重新跑一次中文的模型 使用更小一点的vocab

todo

  • 再往下就是回归初心,对每个模块都研究透彻,使用可视化+消融实验的方法来解释一下为什么这个有效果
    • 比如:为什么最后loss用label_smoothing会好一点 而不是只用单纯的cross_entropy
    • 还有就是对于warmup的理解自己其实不明白这套调参的方法为什么会好,但感觉可以和模拟退火联系起来
    • 然后就是如果自己用单纯的lstm这些rnn模型来做的话,效果如何
    • 回去做完vq+resnet的任务之后还要再来看一下这个例子里面能不能用上
    • 模型能不能变得更小 这么多参数是真的很有必要的吗,都得做实验看一下结果才行
    • 这里的位置编码可不可以用随机的分布编码代替,就像生成式任务中的位置编码一样
    • 再往下做的就是优化一下greedy_decode的方式
    • 采用temperature的方式采样,看一下能不能有更好的输出结果