Skip to content

注意力权重转换问题 #58

@noob-ctrl

Description

@noob-ctrl

本代码有关注意力权重的转换代码如下:
image

看其他的一些权重转换代码,针对于注意力权重有进行视图维度转换的操作,如下所示:
image

二者都会在后续再进行chunk来进行tensor切分操作,但两者的操作结果不一样吧?

请问本代码为什么没有考虑视图维度转换呢?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions