cleanup utils

marwan37 · marwan37 · commit bcaf3df9fec7 · 2025-04-08T11:12:45.000-05:00
diff --git a/omni-reader/utils/__init__.py b/omni-reader/utils/__init__.py
@@ -30,6 +30,7 @@
     create_model_comparison_card,
     create_model_similarity_matrix,
     create_summary_visualization,
+    create_ocr_batch_visualization
 )
 from .ocr_processing import (
     log_image_metadata,
diff --git a/omni-reader/utils/metrics.py b/omni-reader/utils/metrics.py
@@ -193,21 +193,16 @@ def compare_multi_model(
     Returns:
         Dict[str, Dict[str, Union[float, int, Dict]]]: A dictionary of model names to metrics.
     """
-    # Initialize results dictionary
     results = {}
 
-    # Calculate metrics for each model
     for model_display, text in model_texts.items():
         model_metrics = {}
 
-        # Basic metrics
         model_metrics["CER"] = cer(ground_truth, text)
         model_metrics["WER"] = wer(ground_truth, text)
 
-        # Detailed error analysis
         model_analysis = analyze_errors(ground_truth, text)
 
-        # Add detailed metrics
         model_metrics.update(
             {
                 "Insertions": model_analysis.insertions,
@@ -221,7 +216,6 @@ def compare_multi_model(
             }
         )
 
-        # Store in results
         results[model_display] = model_metrics
 
     return results
@@ -258,7 +252,7 @@ def calculate_model_similarities(
     similarity_counts = {}
 
     for result in results:
-        # Build a mapping from model display names to their corresponding text.
+        # Map model display names to their corresponding text
         model_texts = {}
         for display in model_displays:
             key = f"raw_text_{display.lower().replace(' ', '_')}"
@@ -268,11 +262,11 @@ def calculate_model_similarities(
                 if text:
                     model_texts[display] = text
 
-        # Only proceed if at least two models have valid text.
+        # Only proceed if at least two models have valid text
         if len(model_texts) < 2:
             continue
 
-        # Compute pairwise similarity for each combination.
+        # Compute pairwise similarity for each combination
         for i in range(len(model_displays)):
             for j in range(i + 1, len(model_displays)):
                 model1 = model_displays[i]
@@ -286,7 +280,7 @@ def calculate_model_similarities(
                 similarity_sums[pair_key] = similarity_sums.get(pair_key, 0) + similarity
                 similarity_counts[pair_key] = similarity_counts.get(pair_key, 0) + 1
 
-    # Average the similarities for each pair.
+    # Average the similarities for each pair
     similarities = {
         pair: similarity_sums[pair] / similarity_counts[pair] for pair in similarity_sums
     }
diff --git a/omni-reader/utils/ocr_processing.py b/omni-reader/utils/ocr_processing.py
@@ -345,19 +345,21 @@ def process_result_and_track_metrics(
 
         confidence_scores.append(confidence)
 
+        text_length = len(formatted_result["raw_text"])
+
         if track_metadata:
             log_image_metadata(
                 prefix=prefix,
                 index=index,
                 image_name=image_name,
                 processing_time=processing_time,
-                text_length=len(formatted_result["raw_text"]),
+                text_length=text_length,
                 confidence=confidence,
             )
 
         logger.info(
             f"{display} OCR [{index + 1}/{len(images)}]: {image_name} - "
-            f"{len(formatted_result['raw_text'])} chars, "
+            f"{text_length} chars, "
             f"confidence: {confidence:.2f}, "
             f"{processing_time:.2f} seconds"
         )
@@ -517,7 +519,7 @@ def run_ocr(
 ) -> Union[Dict[str, Any], pl.DataFrame, Dict[str, pl.DataFrame]]:
     """Unified interface for running OCR on images with different modes.
 
-    This function intelligently handles different combinations of inputs:
+    This function handles different combinations of inputs:
     - Single image + single model
     - Single image + multiple models
     - Multiple images + single model

Original file line number	Diff line number	Diff line change
`@@ -30,6 +30,7 @@`
`30`	`30`	`create_model_comparison_card,`
`31`	`31`	`create_model_similarity_matrix,`
`32`	`32`	`create_summary_visualization,`
	`33`	`+ create_ocr_batch_visualization`
`33`	`34`	`)`
`34`	`35`	`from .ocr_processing import (`
`35`	`36`	`log_image_metadata,`