Enable benchmark for classification tasks and add anomaly task to workflow (#4260)

eugene123tw · web-flow · commit 4861512833ac · 2025-02-26T21:48:31.000Z
* Refactor benchmark criteria for classification tasks and add anomaly task to workflow
diff --git a/.github/workflows/perf_benchmark_v2.yaml b/.github/workflows/perf_benchmark_v2.yaml
@@ -51,16 +51,17 @@ jobs:
       fail-fast: false
       matrix:
         include:
+          - task: ANOMALY
           - task: DETECTION
-          # - task: MULTI_CLASS_CLS
-          # - task: MULTI_LABEL_CLS
-          # - task: H_LABEL_CLS
+          - task: MULTI_CLASS_CLS
+          - task: MULTI_LABEL_CLS
+          - task: H_LABEL_CLS
           # - task: INSTANCE_SEGMENTATION
           # - task: SEMANTIC_SEGMENTATION
           # - task: VISUAL_PROMPTING
 
     name: Perf-Benchmark-${{ matrix.task }}
-    runs-on: [otxci02]
+    runs-on: [self-hosted, linux, x64, dmount-v2]
     timeout-minutes: 8640
     steps:
       - name: Checkout repository
diff --git a/tests/perf_v2/__init__.py b/tests/perf_v2/__init__.py
@@ -21,9 +21,9 @@
     OTXTaskType.INSTANCE_SEGMENTATION: instance_segmentation.BENCHMARK_CRITERIA,
     OTXTaskType.SEMANTIC_SEGMENTATION: semantic_segmentation.BENCHMARK_CRITERIA,
     OTXTaskType.ANOMALY: anomaly.BENCHMARK_CRITERIA,
-    OTXTaskType.MULTI_CLASS_CLS: classification.MULTI_CLASS_BENCHMARK_CRITERIA,
-    OTXTaskType.MULTI_LABEL_CLS: classification.MULTI_LABEL_BENCHMARK_CRITERIA,
-    OTXTaskType.H_LABEL_CLS: classification.H_LABEL_CLS_BENCHMARK_CRITERIA,
+    OTXTaskType.MULTI_CLASS_CLS: classification.CLASSIFICATION_BENCHMARK_CRITERIA,
+    OTXTaskType.MULTI_LABEL_CLS: classification.CLASSIFICATION_BENCHMARK_CRITERIA,
+    OTXTaskType.H_LABEL_CLS: classification.CLASSIFICATION_BENCHMARK_CRITERIA,
     OTXTaskType.VISUAL_PROMPTING: visual_prompting.BENCHMARK_CRITERIA,
     OTXTaskType.KEYPOINT_DETECTION: keypoint_detection.BENCHMARK_CRITERIA,
 }
diff --git a/tests/perf_v2/tasks/classification.py b/tests/perf_v2/tasks/classification.py
@@ -15,6 +15,28 @@
 
 from otx.core.types.task import OTXTaskType
 
+CLASSIFICATION_BENCHMARK_CRITERIA = [
+    Criterion(name="train/epoch", summary="max", compare="<", margin=0.1),
+    Criterion(name="train/e2e_time", summary="max", compare="<", margin=0.1),
+    Criterion(name="train/gpu_mem", summary="max", compare="<", margin=0.1),
+    Criterion(name="val/accuracy", summary="max", compare=">", margin=0.1),
+    Criterion(name="test/accuracy", summary="max", compare=">", margin=0.1),
+    Criterion(name="export/accuracy", summary="max", compare=">", margin=0.1),
+    Criterion(name="optimize/accuracy", summary="max", compare=">", margin=0.1),
+    Criterion(name="train/iter_time", summary="mean", compare="<", margin=0.1),
+    Criterion(name="test/iter_time", summary="mean", compare="<", margin=0.1),
+    Criterion(name="export/iter_time", summary="mean", compare="<", margin=0.1),
+    Criterion(name="optimize/iter_time", summary="mean", compare="<", margin=0.1),
+    Criterion(name="optimize/e2e_time", summary="mean", compare="<", margin=0.1),
+    Criterion(name="test(torch)/latency", summary="mean", compare="<", margin=0.1),
+    Criterion(name="test(export)/latency", summary="mean", compare="<", margin=0.1),
+    Criterion(name="test(optimize)/latency", summary="mean", compare="<", margin=0.1),
+    Criterion(name="test(train)/e2e_time", summary="max", compare=">", margin=0.1),
+    Criterion(name="test(export)/e2e_time", summary="max", compare=">", margin=0.1),
+    Criterion(name="test(optimize)/e2e_time", summary="max", compare=">", margin=0.1),
+]
+
+
 # ============= Multi-class classification =============
 
 MULTI_CLASS_MODEL_TEST_CASES = [
@@ -51,23 +73,6 @@
     ),
 ]
 
-# TODO (someone): Compare with DETECTION CRITERIA and fill in the missing values
-MULTI_CLASS_BENCHMARK_CRITERIA = [
-    Criterion(name="train/epoch", summary="max", compare="<", margin=0.1),
-    Criterion(name="train/e2e_time", summary="max", compare="<", margin=0.1),
-    Criterion(name="val/accuracy", summary="max", compare=">", margin=0.1),
-    Criterion(name="test/accuracy", summary="max", compare=">", margin=0.1),
-    Criterion(name="export/accuracy", summary="max", compare=">", margin=0.1),
-    Criterion(name="optimize/accuracy", summary="max", compare=">", margin=0.1),
-    Criterion(name="train/iter_time", summary="mean", compare="<", margin=0.1),
-    Criterion(name="test/iter_time", summary="mean", compare="<", margin=0.1),
-    Criterion(name="export/iter_time", summary="mean", compare="<", margin=0.1),
-    Criterion(name="optimize/iter_time", summary="mean", compare="<", margin=0.1),
-    Criterion(name="test(train)/e2e_time", summary="max", compare=">", margin=0.1),
-    Criterion(name="test(export)/e2e_time", summary="max", compare=">", margin=0.1),
-    Criterion(name="test(optimize)/e2e_time", summary="max", compare=">", margin=0.1),
-]
-
 
 # ============= Multi-label classification =============
 MULTI_LABEL_MODEL_TEST_CASES = [
@@ -100,23 +105,6 @@
     ),
 ]
 
-# TODO (someone): Compare with DETECTION CRITERIA and fill in the missing values
-MULTI_LABEL_BENCHMARK_CRITERIA = [
-    Criterion(name="train/epoch", summary="max", compare="<", margin=0.1),
-    Criterion(name="train/e2e_time", summary="max", compare="<", margin=0.1),
-    Criterion(name="val/accuracy", summary="max", compare=">", margin=0.1),
-    Criterion(name="test/accuracy", summary="max", compare=">", margin=0.1),
-    Criterion(name="export/accuracy", summary="max", compare=">", margin=0.1),
-    Criterion(name="optimize/accuracy", summary="max", compare=">", margin=0.1),
-    Criterion(name="train/iter_time", summary="mean", compare="<", margin=0.1),
-    Criterion(name="test/iter_time", summary="mean", compare="<", margin=0.1),
-    Criterion(name="export/iter_time", summary="mean", compare="<", margin=0.1),
-    Criterion(name="optimize/iter_time", summary="mean", compare="<", margin=0.1),
-    Criterion(name="test(train)/e2e_time", summary="max", compare=">", margin=0.1),
-    Criterion(name="test(export)/e2e_time", summary="max", compare=">", margin=0.1),
-    Criterion(name="test(optimize)/e2e_time", summary="max", compare=">", margin=0.1),
-]
-
 
 # ============= Hierarchical-label classification =============
 
@@ -150,20 +138,3 @@
         extra_overrides={},
     ),
 ]
-
-# TODO (someone): Compare with DETECTION CRITERIA and fill in the missing values
-H_LABEL_CLS_BENCHMARK_CRITERIA = [
-    Criterion(name="train/epoch", summary="max", compare="<", margin=0.1),
-    Criterion(name="train/e2e_time", summary="max", compare="<", margin=0.1),
-    Criterion(name="val/accuracy", summary="max", compare=">", margin=0.1),
-    Criterion(name="test/accuracy", summary="max", compare=">", margin=0.1),
-    Criterion(name="export/accuracy", summary="max", compare=">", margin=0.1),
-    Criterion(name="optimize/accuracy", summary="max", compare=">", margin=0.1),
-    Criterion(name="train/iter_time", summary="mean", compare="<", margin=0.1),
-    Criterion(name="test/iter_time", summary="mean", compare="<", margin=0.1),
-    Criterion(name="export/iter_time", summary="mean", compare="<", margin=0.1),
-    Criterion(name="optimize/iter_time", summary="mean", compare="<", margin=0.1),
-    Criterion(name="test(train)/e2e_time", summary="max", compare=">", margin=0.1),
-    Criterion(name="test(export)/e2e_time", summary="max", compare=">", margin=0.1),
-    Criterion(name="test(optimize)/e2e_time", summary="max", compare=">", margin=0.1),
-]