post : Efficient Attention

woongjoonchoi · woongjoonchoi · commit 26e79a8b6a63 · 2025-03-19T15:17:15.000+09:00
online seflattetnion latex
diff --git a/_posts/DeepLearning/Kernel Fusion/2025-03-07-fused.md b/_posts/DeepLearning/Kernel Fusion/2025-03-07-fused.md
@@ -164,8 +164,9 @@ attention에는 softmax 때문에 input 전체를 봐야한다.
 하지만, softmax는 Online-softmax로 전체를 안봐도 계산이 가능하다
 
 self-attention에도 이를 적용한다.[[link]](https://arxiv.org/pdf/2112.05682) 
+$$ v^* \in \mathbb{R}^d $$ ,$$ s^* \in \mathbb{R}^d $$ 를 0으로 초기화하고 , $$m^*$$를 -inf로 초기화합니다.
+query $$q$$, keys $$k_1, \dots, k_n$$ 와 values $$v_1, \dots, v_n$$ 가 주어질 때 , keys와 values들을 순서대로 사용합니다.$$k_i$$ , $$v_i$$ 가 주어지면 $$ s_i = \mathrm{dot}(q, k_i) $$ 를 계산합니다.그리고 나서,$$m^* = \max(m^*,s_i)$$, $$ v^* \leftarrow v^* e^{m^* - m_i} + v_i e^{s_i - m_i} $$ , $$ s^* \leftarrow s^* e^{m^* - m_i} + e^{s_i - m_i} $$ 를  update합니다.그리고,$$ \frac{v^*}{s^*} $$를 계산해줍니다.
 
-$$ v^* \in \mathbb{R}^d $$ ,$$ s^* \in \mathbb{R} $$ 를   $$ s_i = \mathrm{dot}(q, k_i) $$ , $$ v^* \leftarrow v^* + v_i e^{s_i} $$ , $$ s^* \leftarrow s^* + e^{s_i} $$