为什么训练和推理是按照33=4*8 +1来处理的

训练的时候是按照33一个window来进行vea encode，这样带来的问题就是long history中的latent在时序上是按照1+4*8｜1+4*8这样的latent进行拼接处理的，这里跟vae的因果性其实是不一样的，虽然跟推理是完全对齐的
想问一下大佬为什么这样设计，有没有尝试过，只有第一个chunk 的latent是1+4 *n这样的latent，后面的latent都是4*n这样的latent，这样拼接在history当中，这样history只会对空间进行不同的压缩，vae的时许因果性可能还在