Fix (brevitas_examples/llm): correct batch size for lm_eval (#1430)

Giuseppe5 · web-flow · commit 6ffd10c61cec · 2025-12-15T13:43:01.000+01:00
diff --git a/src/brevitas_examples/llm/main.py b/src/brevitas_examples/llm/main.py
@@ -654,9 +654,11 @@ def quantize_llm(args, extra_args=None):
             from lm_eval.models.huggingface import HFLM
             with torch.no_grad(), quant_inference_mode(model, compile=args.compile_eval):
                 model(**calibration_loader[0])
+                batch_size = 'auto' if args.few_shot_override_batch_size is None else args.few_shot_override_batch_size
 
                 wrapped_model = HFLM(
-                    pretrained=model, add_bos_token=True)  # need to wrap for LLM eval
+                    pretrained=model, add_bos_token=True,
+                    batch_size=batch_size)  # need to wrap for LLM eval
                 few_shot_eval_results = evaluator.simple_evaluate(
                     model=wrapped_model,
                     model_args=None,