Update on "Dont quantize the current token for attention"

kimishpatel · kimishpatel · commit f187574bad3d · 2024-11-22T07:28:05.000-08:00
Differential Revision: [D63497872](https://our.internmc.facebook.com/intern/diff/D63497872/) [ghstack-poisoned]
diff --git a/examples/models/llama/source_transformation/quantized_kv_cache.py b/examples/models/llama/source_transformation/quantized_kv_cache.py
@@ -198,7 +198,6 @@ def update(self, input_pos, k_val, v_val):
                 seq_length = k_val.size(dim_to_slice)
                 narrowed_k = k_out.narrow(dim_to_slice, start_pos, seq_length)
                 narrowed_k.copy_(k_val)
-                # pyre-ignore: Incompatible parameter type [6]
                 narrowed_v = v_out.narrow(dim_to_slice, start_pos, seq_length)
                 narrowed_v.copy_(v_val)
             else: