注意力权重转换问题

本代码有关注意力权重的转换代码如下：
![image](https://github.com/alibaba/Megatron-LLaMA/assets/63763578/6d52b407-039a-431c-9f59-f8ddba249f59)

看其他的一些权重转换代码，针对于注意力权重有进行视图维度转换的操作，如下所示：
![image](https://github.com/alibaba/Megatron-LLaMA/assets/63763578/80e9d873-33fe-45a6-8173-ce903cef5b9c)

二者都会在后续再进行chunk来进行tensor切分操作，但两者的操作结果不一样吧？

请问本代码为什么没有考虑视图维度转换呢？