Fix RandomAffine and RTDetr training with IoURandomCrop (#4718)

kprokofi · web-flow · commit 58f990f59019 · 2025-09-18T13:47:03.000+02:00
diff --git a/lib/src/otx/data/transform_libs/torchvision.py b/lib/src/otx/data/transform_libs/torchvision.py
@@ -1159,7 +1159,6 @@ def __init__(
     ) -> None:
         super().__init__()
         self._validate_parameters(max_translate_ratio, scaling_ratio_range)
-
         self.max_rotate_degree = max_rotate_degree
         self.max_translate_ratio = max_translate_ratio
         self.scaling_ratio_range = scaling_ratio_range
@@ -1238,28 +1237,28 @@ def forward(self, *_inputs: OTXDataItem) -> OTXDataItem:
         homography_matrix = self._get_random_homography_matrix(height, width)
         output_shape = (height + self.border[0] * 2, width + self.border[1] * 2)
 
-        if hasattr(inputs, "bboxes") and inputs.bboxes is not None and len(inputs.bboxes) > 0:
+        transformed_img = self._warp_image(img, homography_matrix, output_shape)
+        inputs.image = transformed_img
+        inputs.img_info = _resize_image_info(inputs.img_info, transformed_img.shape[:2])
+        valid_index = None
+        valid_bboxes = hasattr(inputs, "bboxes") and inputs.bboxes is not None and len(inputs.bboxes) > 0
+
+        if valid_bboxes:
             # Test transform bboxes to see if any remain valid
             valid_index = self._transform_bboxes(inputs, homography_matrix, output_shape)
             # If no valid annotations will remain after transformation, skip entirely
             if not valid_index.any():
                 inputs.image = img
                 return self.convert(inputs)  # type: ignore[return-value]
 
-            # If we reach here, transformation will produce valid results, so proceed
-            # Transform image
-            transformed_img = self._warp_image(img, homography_matrix, output_shape)
-            inputs.image = transformed_img
-            inputs.img_info = _resize_image_info(inputs.img_info, transformed_img.shape[:2])
-
-            if hasattr(inputs, "masks") and inputs.masks is not None and len(inputs.masks) > 0:
-                self._transform_masks(inputs, homography_matrix, output_shape, valid_index)
+        if hasattr(inputs, "masks") and inputs.masks is not None and len(inputs.masks) > 0:
+            self._transform_masks(inputs, homography_matrix, output_shape, valid_index)
 
-            if hasattr(inputs, "polygons") and inputs.polygons is not None and len(inputs.polygons) > 0:
-                self._transform_polygons(inputs, homography_matrix, output_shape, valid_index)
+        if hasattr(inputs, "polygons") and inputs.polygons is not None and len(inputs.polygons) > 0:
+            self._transform_polygons(inputs, homography_matrix, output_shape, valid_index)
 
-            if self.recompute_bbox:
-                self._recompute_bboxes(inputs, output_shape)
+        if valid_bboxes and self.recompute_bbox:
+            self._recompute_bboxes(inputs, output_shape)
 
         return self.convert(inputs)  # type: ignore[return-value]
 
@@ -1321,7 +1320,7 @@ def _transform_masks(
         inputs: OTXDataItem,
         warp_matrix: np.ndarray,
         output_size: tuple[int, int],
-        valid_index: np.ndarray,
+        valid_index: np.ndarray | None = None,
     ) -> None:
         """Transform masks using the warp matrix.
 
@@ -1335,11 +1334,11 @@ def _transform_masks(
             return
 
         # Convert valid_index to numpy boolean array if it's a tensor
-        if hasattr(valid_index, "numpy"):
+        if valid_index is not None and hasattr(valid_index, "numpy"):
             valid_index = valid_index.numpy()
 
         # Filter masks using valid_index first
-        masks = inputs.masks[valid_index]
+        masks = inputs.masks[valid_index] if valid_index is not None else inputs.masks
         masks = masks.numpy() if not isinstance(masks, np.ndarray) else masks
 
         if masks.ndim == 3:
@@ -1378,15 +1377,20 @@ def _warp_single_mask(self, mask: np.ndarray, warp_matrix: np.ndarray, output_si
             )
             return warped_mask > 127
 
-        msg = "Multi-class masks are not supported yet."
-        raise NotImplementedError(msg)
+        return cv2.warpPerspective(
+            mask.astype(np.uint8),
+            warp_matrix,
+            dsize=(width, height),
+            flags=cv2.INTER_NEAREST,
+            borderValue=0,
+        )
 
     def _transform_polygons(
         self,
         inputs: OTXDataItem,
         warp_matrix: np.ndarray,
         output_shape: tuple[int, int],
-        valid_index: np.ndarray,
+        valid_index: np.ndarray | None = None,
     ) -> None:
         """Transform polygons using the warp matrix.
 
@@ -1405,11 +1409,13 @@ def _transform_polygons(
             return
 
         # Convert valid_index to numpy boolean array if it's a tensor
-        if hasattr(valid_index, "numpy"):
+        if valid_index is not None and hasattr(valid_index, "numpy"):
             valid_index = valid_index.numpy()
 
-        # Filter polygons using valid_index
-        filtered_polygons = [p for p, keep in zip(inputs.polygons, valid_index) if keep]
+        # Filter polygons using valid_index if available
+        filtered_polygons = (
+            [p for p, keep in zip(inputs.polygons, valid_index) if keep] if valid_index is not None else inputs.polygons
+        )
 
         if filtered_polygons:
             inputs.polygons = project_polygons(filtered_polygons, warp_matrix, output_shape)
diff --git a/lib/src/otx/recipe/detection/dfine_x.yaml b/lib/src/otx/recipe/detection/dfine_x.yaml
@@ -66,26 +66,25 @@ overrides:
       batch_size: 8
       num_workers: 4
       transforms:
-        - class_path: torchvision.transforms.v2.RandomPhotometricDistort
-          init_args:
-            p: 0.5
         - class_path: torchvision.transforms.v2.RandomZoomOut
+          enable: true
           init_args:
             fill: 0
         - class_path: otx.data.transform_libs.torchvision.RandomIoUCrop
+          enable: true
           init_args:
             probability: 0.8
         - class_path: torchvision.transforms.v2.SanitizeBoundingBoxes
           init_args:
             min_size: 1
-        - class_path: otx.data.transform_libs.torchvision.RandomFlip
-          init_args:
-            probability: 0.5
         - class_path: otx.data.transform_libs.torchvision.Resize
           init_args:
             scale: $(input_size)
             transform_bbox: true
             keep_ratio: false
+        - class_path: otx.data.transform_libs.torchvision.RandomFlip
+          init_args:
+            probability: 0.5
         - class_path: torchvision.transforms.v2.RandomPhotometricDistort
           enable: false
           init_args:
diff --git a/lib/src/otx/recipe/detection/dfine_x_tile.yaml b/lib/src/otx/recipe/detection/dfine_x_tile.yaml
@@ -68,26 +68,25 @@ overrides:
       num_workers: 4
       to_tv_image: true
       transforms:
-        - class_path: torchvision.transforms.v2.RandomPhotometricDistort
-          init_args:
-            p: 0.5
         - class_path: torchvision.transforms.v2.RandomZoomOut
+          enable: true
           init_args:
             fill: 0
         - class_path: otx.data.transform_libs.torchvision.RandomIoUCrop
+          enable: true
           init_args:
             probability: 0.8
         - class_path: torchvision.transforms.v2.SanitizeBoundingBoxes
           init_args:
             min_size: 1
-        - class_path: otx.data.transform_libs.torchvision.RandomFlip
-          init_args:
-            probability: 0.5
         - class_path: otx.data.transform_libs.torchvision.Resize
           init_args:
             scale: $(input_size)
             transform_bbox: true
             keep_ratio: false
+        - class_path: otx.data.transform_libs.torchvision.RandomFlip
+          init_args:
+            probability: 0.5
         - class_path: torchvision.transforms.v2.RandomPhotometricDistort
           enable: false
           init_args:
diff --git a/lib/src/otx/recipe/detection/rtdetr_101.yaml b/lib/src/otx/recipe/detection/rtdetr_101.yaml
@@ -63,6 +63,13 @@ overrides:
     train_subset:
       batch_size: 4
       transforms:
+        - class_path: otx.data.transform_libs.torchvision.MinIoURandomCrop
+          enable: false
+        - class_path: otx.data.transform_libs.torchvision.Resize
+          init_args:
+            scale: $(input_size)
+            keep_ratio: false
+            transform_bbox: true
         - class_path: torchvision.transforms.v2.RandomPhotometricDistort
           enable: false
           init_args:
@@ -79,11 +86,6 @@ overrides:
               - -0.05
               - 0.05
             p: 0.5
-        - class_path: otx.data.transform_libs.torchvision.Resize
-          init_args:
-            scale: $(input_size)
-            keep_ratio: false
-            transform_bbox: true
         - class_path: otx.data.transform_libs.torchvision.RandomAffine
           enable: false
           init_args:
@@ -94,6 +96,7 @@ overrides:
               - 1.5
             max_shear_degree: 2.0
         - class_path: otx.data.transform_libs.torchvision.RandomFlip
+          enable: true
           init_args:
             probability: 0.5
         - class_path: torchvision.transforms.v2.RandomVerticalFlip
diff --git a/lib/src/otx/recipe/detection/rtdetr_18.yaml b/lib/src/otx/recipe/detection/rtdetr_18.yaml
@@ -62,6 +62,13 @@ overrides:
     train_subset:
       batch_size: 4
       transforms:
+        - class_path: otx.data.transform_libs.torchvision.MinIoURandomCrop
+          enable: false
+        - class_path: otx.data.transform_libs.torchvision.Resize
+          init_args:
+            scale: $(input_size)
+            keep_ratio: false
+            transform_bbox: true
         - class_path: torchvision.transforms.v2.RandomPhotometricDistort
           enable: false
           init_args:
@@ -78,11 +85,6 @@ overrides:
               - -0.05
               - 0.05
             p: 0.5
-        - class_path: otx.data.transform_libs.torchvision.Resize
-          init_args:
-            scale: $(input_size)
-            keep_ratio: false
-            transform_bbox: true
         - class_path: otx.data.transform_libs.torchvision.RandomAffine
           enable: false
           init_args:
@@ -93,6 +95,7 @@ overrides:
               - 1.5
             max_shear_degree: 2.0
         - class_path: otx.data.transform_libs.torchvision.RandomFlip
+          enable: true
           init_args:
             probability: 0.5
         - class_path: torchvision.transforms.v2.RandomVerticalFlip
diff --git a/lib/src/otx/recipe/detection/rtdetr_50.yaml b/lib/src/otx/recipe/detection/rtdetr_50.yaml
@@ -63,6 +63,13 @@ overrides:
     train_subset:
       batch_size: 4
       transforms:
+        - class_path: otx.data.transform_libs.torchvision.MinIoURandomCrop
+          enable: false
+        - class_path: otx.data.transform_libs.torchvision.Resize
+          init_args:
+            scale: $(input_size)
+            keep_ratio: false
+            transform_bbox: true
         - class_path: torchvision.transforms.v2.RandomPhotometricDistort
           enable: false
           init_args:
@@ -79,11 +86,6 @@ overrides:
               - -0.05
               - 0.05
             p: 0.5
-        - class_path: otx.data.transform_libs.torchvision.Resize
-          init_args:
-            scale: $(input_size)
-            keep_ratio: false
-            transform_bbox: true
         - class_path: otx.data.transform_libs.torchvision.RandomAffine
           enable: false
           init_args:
@@ -94,6 +96,7 @@ overrides:
               - 1.5
             max_shear_degree: 2.0
         - class_path: otx.data.transform_libs.torchvision.RandomFlip
+          enable: true
           init_args:
             probability: 0.5
         - class_path: torchvision.transforms.v2.RandomVerticalFlip
diff --git a/lib/src/otx/recipe/detection/rtmdet_tiny.yaml b/lib/src/otx/recipe/detection/rtmdet_tiny.yaml
@@ -81,15 +81,6 @@ overrides:
         - class_path: otx.data.transform_libs.torchvision.RandomCrop
           init_args:
             crop_size: $(input_size)
-        - class_path: otx.data.transform_libs.torchvision.RandomAffine
-          enable: false
-          init_args:
-            max_rotate_degree: 10.0
-            max_translate_ratio: 0.1
-            scaling_ratio_range:
-              - 0.5
-              - 1.5
-            max_shear_degree: 2.0
         - class_path: torchvision.transforms.v2.RandomPhotometricDistort
           enable: false
           init_args:
@@ -106,6 +97,15 @@ overrides:
               - -0.05
               - 0.05
             p: 0.5
+        - class_path: otx.data.transform_libs.torchvision.RandomAffine
+          enable: false
+          init_args:
+            max_rotate_degree: 10.0
+            max_translate_ratio: 0.1
+            scaling_ratio_range:
+              - 0.5
+              - 1.5
+            max_shear_degree: 2.0
         - class_path: otx.data.transform_libs.torchvision.YOLOXHSVRandomAug
         - class_path: otx.data.transform_libs.torchvision.RandomFlip
           init_args:
diff --git a/lib/tests/unit/data/transform_libs/test_torchvision.py b/lib/tests/unit/data/transform_libs/test_torchvision.py
@@ -51,6 +51,17 @@ def close(self):
         return
 
 
+@pytest.fixture()
+def seg_data_entity() -> OTXDataItem:
+    masks = torch.randint(low=0, high=2, size=(1, 112, 224), dtype=torch.uint8)
+    return OTXDataItem(
+        image=tv_tensors.Image(torch.randint(low=0, high=256, size=(3, 112, 224), dtype=torch.uint8)),
+        img_info=ImageInfo(img_idx=0, img_shape=(112, 224), ori_shape=(112, 224)),
+        masks=tv_tensors.Mask(masks),
+        label=LongTensor([1]),
+    )
+
+
 @pytest.fixture()
 def det_data_entity() -> OTXDataItem:
     return OTXDataItem(
@@ -359,6 +370,22 @@ def test_forward(self, random_affine: RandomAffine, det_data_entity: OTXDataItem
         assert results.bboxes.dtype == torch.float32
         assert results.img_info.img_shape == results.image.shape[:2]
 
+    def test_segmentation_transform(
+        self, random_affine_with_mask_transform: RandomAffine, seg_data_entity: OTXDataItem
+    ) -> None:
+        """Test forward for segmentation task."""
+        original_entity = deepcopy(seg_data_entity)
+        results = random_affine_with_mask_transform(original_entity)
+
+        assert hasattr(results, "masks")
+        assert results.masks is not None
+        assert results.masks.shape[0] > 0  # Should have masks
+        assert results.masks.shape[1:] == results.image.shape[:2]  # Same spatial dimensions as image
+
+        # Check that the number of masks matches the number of remaining bboxes and labels
+        assert results.masks.shape[0] == results.label.shape[0]
+        assert isinstance(results.masks, tv_tensors.Mask)
+
     def test_forward_with_masks_transform_enabled(
         self,
         random_affine_with_mask_transform: RandomAffine,