Skip to content

为什么训练和推理是按照33=4*8 +1来处理的 #15

@liwang0621

Description

@liwang0621

训练的时候是按照33一个window来进行vea encode,这样带来的问题就是long history中的latent在时序上是按照1+48|1+48这样的latent进行拼接处理的,这里跟vae的因果性其实是不一样的,虽然跟推理是完全对齐的
想问一下大佬为什么这样设计,有没有尝试过,只有第一个chunk 的latent是1+4 n这样的latent,后面的latent都是4n这样的latent,这样拼接在history当中,这样history只会对空间进行不同的压缩,vae的时许因果性可能还在

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions