训练的时候是按照33一个window来进行vea encode,这样带来的问题就是long history中的latent在时序上是按照1+48|1+48这样的latent进行拼接处理的,这里跟vae的因果性其实是不一样的,虽然跟推理是完全对齐的
想问一下大佬为什么这样设计,有没有尝试过,只有第一个chunk 的latent是1+4 n这样的latent,后面的latent都是4n这样的latent,这样拼接在history当中,这样history只会对空间进行不同的压缩,vae的时许因果性可能还在