Hypformer中在应用注意力机制时似乎只计算了(K_T)V,这种做法在双曲空间中是有效的吗?感觉在双曲空间中计算两个点的相似性用双曲距离更或者切空间内积(例如文中的公式(5))合理一些,请问作者对这个问题有好的解释吗?不胜感激!