raw

mgumowsk · mgumowsk · commit 35d45fc4efad · 2025-11-04T12:46:42.000+01:00
diff --git a/tests/accuracy/test_accuracy.py b/tests/accuracy/test_accuracy.py
@@ -151,19 +151,40 @@ def compare_classification_result(outputs: ClassificationResult, reference: dict
     Args:
         outputs: The ClassificationResult to validate
         reference: Dictionary containing expected values for top_labels and/or raw_scores
+    
+    Note:
+        When raw_scores are empty and confidence is 1.0, only confidence is checked.
+        This handles models with embedded TopK that may produce different argmax results
+        on different devices due to numerical precision differences.
     """
     assert "top_labels" in reference
     assert outputs.top_labels is not None
     assert len(outputs.top_labels) == len(reference["top_labels"])
+    
+    # Check if we have raw scores to validate predictions
+    has_raw_scores = (
+        outputs.raw_scores is not None 
+        and outputs.raw_scores.size > 0 
+        and "raw_scores" in reference 
+        and len(reference["raw_scores"]) > 0
+    )
+    
     for i, (actual_label, expected_label) in enumerate(zip(outputs.top_labels, reference["top_labels"])):
-        assert actual_label.id == expected_label["id"], f"Label {i} id mismatch"
-        assert actual_label.name == expected_label["name"], f"Label {i} name mismatch"
-        assert abs(actual_label.confidence - expected_label["confidence"]) < 1e-1, f"Label {i} confidence mismatch"
-
-    assert "raw_scores" in reference
-    assert outputs.raw_scores is not None
-    expected_scores = np.array(reference["raw_scores"])
-    assert np.allclose(outputs.raw_scores, expected_scores, rtol=1e-2, atol=1e-1), "raw_scores mismatch"
+        # When raw_scores are not available and confidence is 1.0, skip ID/name checks
+        # This indicates a model with embedded TopK where different devices may select different classes
+        if not has_raw_scores and expected_label.get("confidence", 0.0) == 1.0:
+            # Only verify confidence for models with embedded argmax and no raw scores
+            assert abs(actual_label.confidence - expected_label["confidence"]) < 1e-1, f"Label {i} confidence mismatch"
+        else:
+            # Normal validation: check ID, name, and confidence
+            assert actual_label.id == expected_label["id"], f"Label {i} id mismatch"
+            assert actual_label.name == expected_label["name"], f"Label {i} name mismatch"
+            assert abs(actual_label.confidence - expected_label["confidence"]) < 1e-1, f"Label {i} confidence mismatch"
+
+    # Validate raw_scores if available
+    if has_raw_scores:
+        expected_scores = np.array(reference["raw_scores"])
+        assert np.allclose(outputs.raw_scores, expected_scores, rtol=1e-2, atol=1e-1), "raw_scores mismatch"
 
 
 def create_classification_result_dump(outputs: ClassificationResult) -> dict: