Don't clamp FP32 residual during quantization

turboderp · turboderp · commit bfa4b4f043d7 · 2024-11-22T09:30:36.000+01:00
diff --git a/exllamav2/conversion/measure.py b/exllamav2/conversion/measure.py
@@ -131,7 +131,8 @@ def test_error(module, hidden_states, target_states, cache, attn_params):
         x = x.cuda()
         xref = xref.cuda()
         xtest = module.forward(x, cache, attn_params)
-        xtest.clamp_(-65504, 65504)
+        if not module.model.config.arch.lm.residual_stream_fp32:
+            xtest.clamp_(-65504, 65504)
         xtest = xtest[0].float()
         xref = xref[0].float()
         rfn_sum += torch.linalg.norm(xtest - xref, 'fro') / torch.linalg.norm(xref, 'fro')