fix(training): force FP32 precision for PII LoRA training to fix uniform 0.9 confidence

yossiovadia · claude · yossiovadia · commit 6874a5b114d4 · 2025-11-18T07:11:55.000-08:00
Issue vllm-project#647 reported uniform 0.9 confidence scores in PII detection. Root cause: Training with FP16 (torch.float16) compresses confidence score distributions due to limited mantissa precision (~10-11 significant bits). Token classification requires precise per-token probability distributions. Fix: Force torch.float32 for all PII token classification training, ensuring proper confidence score variance and accurate entity detection probabilities. This fix complements PR vllm-project#648 which enables LoRA PII model auto-detection. 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude <noreply@anthropic.com> Signed-off-by: Yossi Ovadia <yovadia@redhat.com>
diff --git a/src/training/training_lora/pii_model_fine_tuning_lora/pii_bert_finetuning_lora.py b/src/training/training_lora/pii_model_fine_tuning_lora/pii_bert_finetuning_lora.py
@@ -149,10 +149,12 @@ def create_lora_token_model(model_name: str, num_labels: int, lora_config: dict)
         tokenizer.pad_token = tokenizer.eos_token
 
     # Load base model for token classification
+    # Force FP32 for proper confidence score distribution (FP16 causes uniform ~0.9 scores)
+    # Issue #647: FP16 limited precision (10-11 bits) compresses confidence distributions
     base_model = AutoModelForTokenClassification.from_pretrained(
         model_name,
         num_labels=num_labels,
-        dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
+        torch_dtype=torch.float32,  # Always use FP32 for stable token classification
     )
 
     # Create LoRA configuration for token classification