请问论文里面提到的gradient alignment assumption $\nabla \mathcal{L}_t(W_0+\alpha_t\Delta_t) \propto \Delta_t$ 出自哪里呢?这个式子的意思是梯度和参数在同一个空间吗