linear_focus_attention问题

在linear_focus_attention这部分，为什么不对v值进行phi_qs = (F.relu(qs) + 1e-6) / (self.norm_scale.abs() + 1e-6)类似的操作呢？因为我看到论文里公式（15）对Q_s、K_s和V_s都应用了Phi函数