open-edge-platform
diff --git a/‎interactive_ai/services/auto_train/app/job_creation_helpers.py‎
Lines changed: 3 additions & 3 deletions b/‎interactive_ai/services/auto_train/app/job_creation_helpers.py‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎interactive_ai/services/director/app/communication/kafka_handler.py‎
Lines changed: 62 additions & 5 deletions b/‎interactive_ai/services/director/app/communication/kafka_handler.py‎
Lines changed: 62 additions & 5 deletions
diff --git a/‎interactive_ai/services/director/app/service/job_submission/job_creation_helpers.py‎
Lines changed: 3 additions & 3 deletions b/‎interactive_ai/services/director/app/service/job_submission/job_creation_helpers.py‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎interactive_ai/services/director/tests/fixtures/training_configuration.py‎
Lines changed: 2 additions & 2 deletions b/‎interactive_ai/services/director/tests/fixtures/training_configuration.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎interactive_ai/services/director/tests/unit/test_job_kafka_handler.py‎
Lines changed: 78 additions & 3 deletions b/‎interactive_ai/services/director/tests/unit/test_job_kafka_handler.py‎
Lines changed: 78 additions & 3 deletions
diff --git a/‎interactive_ai/workflows/common/jobs_common/utils/dataset_helpers.py‎
Lines changed: 5 additions & 0 deletions b/‎interactive_ai/workflows/common/jobs_common/utils/dataset_helpers.py‎
Lines changed: 5 additions & 0 deletions
@@ -116,10 +116,10 @@ def create_payload(self) -> dict:
             "retain_training_artifacts": self.retain_training_artifacts,
         }
         if FeatureFlagProvider.is_enabled(FeatureFlag.FEATURE_FLAG_NEW_CONFIGURABLE_PARAMETERS):
-            payload["hyperparameters_json"] = (
+            payload["training_configuration_json"] = (
                 # Use model_dump_json to avoid int casting into floats
-                self.training_configuration.hyperparameters.model_dump_json(
-                    exclude={"training": {"allowed_values_input_size"}}, exclude_none=True
+                self.training_configuration.model_dump_json(
+                    exclude={"hyperparameters": {"training": {"allowed_values_input_size"}}}, exclude_none=True
                 )
                 if self.training_configuration
                 else None
 
@@ -9,7 +9,6 @@
 import logging
 import os
 from datetime import datetime
-from typing import TYPE_CHECKING
 
 from communication.exceptions import MissingJobPayloadAttribute
 from metrics.instruments import (
@@ -19,20 +18,27 @@
 )
 from service.job_submission.job_creation_helpers import JobType
 from service.project_service import ProjectService
+from storage.repos.partial_training_configuration_repo import PartialTrainingConfigurationRepo
 
 from geti_kafka_tools import BaseKafkaHandler, KafkaRawMessage, TopicSubscription
 from geti_telemetry_tools import unified_tracing
 from geti_types import CTX_SESSION_VAR, ID, ProjectIdentifier, Singleton
+from iai_core.entities.model import Model
 from iai_core.entities.model_storage import ModelStorageIdentifier
 from iai_core.entities.model_test_result import TestState
-from iai_core.repos import ModelRepo, ModelStorageRepo, ModelTestResultRepo, TaskNodeRepo
+from iai_core.entities.subset import Subset
+from iai_core.repos import (
+    DatasetRepo,
+    DatasetStorageRepo,
+    ModelRepo,
+    ModelStorageRepo,
+    ModelTestResultRepo,
+    TaskNodeRepo,
+)
 from iai_core.session.session_propagation import setup_session_kafka
 from iai_core.utils.deletion_helpers import DeletionHelpers
 from iai_core.utils.type_helpers import str2bool
 
-if TYPE_CHECKING:
-    from iai_core.entities.model import Model
-
 logger = logging.getLogger(__name__)
 
 
@@ -100,6 +106,57 @@ def on_job_finished(self, raw_message: KafkaRawMessage) -> None:
                 job_status=TrainingDurationCounterJobStatus.SUCCEEDED,
             )
 
+            # update training subset proportions with values used in the training job
+            project_identifier = ProjectIdentifier(
+                workspace_id=workspace_id,
+                project_id=project_id,
+            )
+            self._update_subset_split_configuration(project_identifier=project_identifier, model=base_model)
+
+    @staticmethod
+    def _update_subset_split_configuration(project_identifier: ProjectIdentifier, model: Model) -> None:
+        """
+        Update the subset split configuration with actual values used after model training job.
+
+        :param project_identifier: The identifier of the project
+        :param model: The model containing the dataset information to update splits from
+        """
+        dataset_storage = DatasetStorageRepo(project_identifier).get_one(extra_filter={"use_for_training": True})
+        dataset_repo = DatasetRepo(dataset_storage.identifier)
+        subsets_count = dataset_repo.count_per_subset(dataset_id=model.train_dataset_id)
+        training_config_repo = PartialTrainingConfigurationRepo(project_identifier)
+        training_config = training_config_repo.get_by_model_manifest_id(
+            model_manifest_id=model.model_storage.model_manifest_id
+        )
+        n_training = subsets_count.get(Subset.TRAINING.name, 0)
+        n_validation = subsets_count.get(Subset.VALIDATION.name, 0)
+        n_test = subsets_count.get(Subset.TESTING.name, 0)
+
+        total = n_training + n_validation + n_test
+
+        if total == 0:
+            logger.warning(
+                f"Cannot update subset split configuration for project {project_identifier}: "
+                "total number of samples is zero. Setting all split percentages to zero."
+            )
+            training_percent = 0
+            validation_percent = 0
+            test_percent = 0
+        else:
+            # Calculate percentages (0-100 range)
+            validation_percent = int(100 * n_validation / total)
+            test_percent = int(100 * n_test / total)
+            # Ensure percentages sum to exactly 100
+            training_percent = 100 - validation_percent - test_percent
+
+        # Update the configuration with percentages
+        training_config.global_parameters.dataset_preparation.subset_split.training = training_percent
+        training_config.global_parameters.dataset_preparation.subset_split.validation = validation_percent
+        training_config.global_parameters.dataset_preparation.subset_split.test = test_percent
+
+        # Save the updated configuration
+        training_config_repo.save(training_config)
+
     @setup_session_kafka
     @unified_tracing
     def on_job_failed(self, raw_message: KafkaRawMessage) -> None:
 
@@ -162,10 +162,10 @@ def create_payload(self) -> dict:
             "retain_training_artifacts": self.retain_training_artifacts,
         }
         if FeatureFlagProvider.is_enabled(FeatureFlag.FEATURE_FLAG_NEW_CONFIGURABLE_PARAMETERS):
-            payload["hyperparameters_json"] = (
+            payload["training_configuration_json"] = (
                 # Use model_dump_json to avoid int casting into floats
-                self.training_configuration.hyperparameters.model_dump_json(
-                    exclude={"training": {"allowed_values_input_size"}}, exclude_none=True
+                self.training_configuration.model_dump_json(
+                    exclude={"hyperparameters": {"training": {"allowed_values_input_size"}}}, exclude_none=True
                 )
                 if self.training_configuration
                 else None
 
@@ -210,7 +210,7 @@ def fxt_training_configuration_task_level_rest_view(fxt_training_configuration_t
                     "value": 10,
                 },
                 {
-                    "default_value": True,
+                    "default_value": False,
                     "description": "Whether to automatically select data for each subset",
                     "key": "auto_selection",
                     "name": "Auto selection",
@@ -503,7 +503,7 @@ def fxt_training_configuration_full_rest_view(
                     "value": 10,
                 },
                 {
-                    "default_value": True,
+                    "default_value": False,
                     "description": "Whether to automatically select data for each subset",
                     "key": "auto_selection",
                     "name": "Auto selection",
 
@@ -5,17 +5,20 @@
 from unittest.mock import MagicMock, patch
 
 import pytest
+from geti_configuration_tools.training_configuration import GlobalParameters, TrainingConfiguration
 from tests.unit.mocked_method_helpers import return_none
 
 from communication.kafka_handler import JobKafkaHandler
 from service.job_submission.job_creation_helpers import JobType
 from service.project_service import ProjectService
+from storage.repos.partial_training_configuration_repo import PartialTrainingConfigurationRepo
 
 from geti_kafka_tools import KafkaRawMessage
 from geti_types import ID, ProjectIdentifier
 from iai_core.entities.model import Model
 from iai_core.entities.model_storage import ModelStorage
-from iai_core.repos import AnnotationSceneRepo, ModelRepo, ModelTestResultRepo
+from iai_core.entities.subset import Subset
+from iai_core.repos import AnnotationSceneRepo, DatasetRepo, ModelRepo, ModelTestResultRepo
 from iai_core.utils.deletion_helpers import DeletionHelpers
 
 WORKSPACE_ID = "63b183d00000000000000001"
@@ -81,6 +84,10 @@ def test_on_training_finished(
         model_storage_id = ID("model_storage_id")
         model_id = ID("model_id")
         mocked_get_model_by_id.return_value = fxt_model
+        project_identifier = ProjectIdentifier(
+            workspace_id=ID(WORKSPACE_ID),
+            project_id=project_id,
+        )
 
         MagicMock(spec=ModelStorage)
         mock_base_model = MagicMock(spec=Model)
@@ -90,12 +97,15 @@ def test_on_training_finished(
         mocked_get_optimized_models.return_value = mock_optimized_models
 
         # Act
-        with patch.object(ProjectService, "unlock") as mock_unlock_project:
+        with (
+            patch.object(ProjectService, "unlock") as mock_unlock_project,
+            patch.object(JobKafkaHandler, "_update_subset_split_configuration") as mock_config_update,
+        ):
             fxt_job_kafka_handler.on_job_finished(
                 fxt_consumer_record_maker(
                     {
                         "job_type": job_type,
-                        "workspace_id": ID("workspace_id"),
+                        "workspace_id": project_identifier.workspace_id,
                         "job_payload": {
                             "project_id": project_id,
                             "task_id": task_id,
@@ -121,6 +131,10 @@ def test_on_training_finished(
             model=mock_base_model,
             training_job_duration=(end_time - start_time).total_seconds(),
         )
+        mock_config_update.assert_called_once_with(
+            project_identifier=project_identifier,
+            model=mock_base_model,
+        )
 
     @patch.object(DeletionHelpers, "delete_models_by_base_model_id")
     def test_on_training_cancelled(
@@ -449,3 +463,64 @@ def test_on_optimize_job_cancelled(
         # Assert
         mock_unlock_project(job_type=job_type, project_id=project_id)
         mock_delete.assert_called_once_with(mock_model.id_)
+
+    def test_update_subset_split_configuration(self) -> None:
+        # Arrange
+        project_identifier = ProjectIdentifier(
+            workspace_id=ID(WORKSPACE_ID),
+            project_id=ID("project_id"),
+        )
+
+        # Mock model
+        mock_model = MagicMock(spec=Model)
+        mock_model.train_dataset_id = ID("dataset_id")
+        mock_model.model_storage = MagicMock()
+        mock_model.model_storage.model_manifest_id = "YOLOX"
+
+        mock_training_config = MagicMock(spec=TrainingConfiguration)
+        mock_training_config.global_parameters = MagicMock(spec=GlobalParameters)
+        mock_training_config.global_parameters.dataset_preparation = MagicMock()
+        mock_training_config.global_parameters.dataset_preparation.subset_split = MagicMock()
+        mock_training_config.global_parameters.dataset_preparation.subset_split.training = 70
+        mock_training_config.global_parameters.dataset_preparation.subset_split.validation = 20
+        mock_training_config.global_parameters.dataset_preparation.subset_split.test = 10
+
+        # Set up mock data with imbalanced distribution that won't sum to 100 naturally
+        subset_counts = {
+            Subset.TRAINING.name: 155,
+            Subset.VALIDATION.name: 37,
+            Subset.TESTING.name: 18,
+        }
+
+        # Act
+        with (
+            patch.object(DatasetRepo, "count_per_subset", return_value=subset_counts),
+            patch.object(
+                PartialTrainingConfigurationRepo,
+                "get_by_model_manifest_id",
+                return_value=mock_training_config,
+            ) as mock_get_by_model_manifest_id,
+            patch.object(
+                PartialTrainingConfigurationRepo,
+                "save",
+            ) as mock_save_config,
+        ):
+            JobKafkaHandler._update_subset_split_configuration(project_identifier=project_identifier, model=mock_model)
+
+        # Assert
+        # Verify repositories were called correctly
+        mock_get_by_model_manifest_id.assert_called_once_with(
+            model_manifest_id=mock_model.model_storage.model_manifest_id
+        )
+
+        # Calculate expected values based on mock data
+        expected_validation = 17
+        expected_test = 8
+        expected_training = 75
+
+        subset_split = mock_training_config.global_parameters.dataset_preparation.subset_split
+        assert subset_split.training == expected_training
+        assert subset_split.validation == expected_validation
+        assert subset_split.test == expected_test
+
+        mock_save_config.assert_called_once_with(mock_training_config)
@@ -5,6 +5,7 @@
 import copy
 import os
 
+from geti_configuration_tools.training_configuration import TrainingConfiguration
 from geti_kafka_tools import publish_event
 from geti_telemetry_tools import unified_tracing
 from geti_types import CTX_SESSION_VAR, ID, DatasetStorageIdentifier, ProjectIdentifier
@@ -211,6 +212,7 @@ def construct_and_save_train_dataset_for_task(
         project_id: ID,
         task_node: TaskNode,
         dataset_storage: DatasetStorage,
+        training_configuration: TrainingConfiguration,
         max_training_dataset_size: int | None = None,
         reshuffle_subsets: bool = False,
     ) -> Dataset:
@@ -225,6 +227,7 @@ def construct_and_save_train_dataset_for_task(
         :param project_id: ID of the project
         :param task_node: Task node for which the dataset is fetched
         :param dataset_storage: DatasetStorage containing the dataset items
+        :param training_configuration: Training configuration containing dataset preparation parameters
         :param max_training_dataset_size: maximum training dataset size
         :param reshuffle_subsets: Whether to reassign/shuffle all the items to subsets including Test set from scratch
         :return: A copy of the current dataset, split into subsets.
@@ -253,6 +256,8 @@ def construct_and_save_train_dataset_for_task(
         TaskSubsetManager.split(
             dataset_items=iter(training_dataset_items),
             task_node=task_node,
+            subset_split_config=training_configuration.global_parameters.dataset_preparation.subset_split,
+            filtering_config=training_configuration.global_parameters.dataset_preparation.filtering,
             subsets_to_reset=subsets_to_reset,
         )
         task_dataset_entity.save_subsets(dataset=dataset, dataset_storage_identifier=dataset_storage.identifier)
Original file line number	Diff line number	Diff line change
`@@ -116,10 +116,10 @@ def create_payload(self) -> dict:`
`116`	`116`	`"retain_training_artifacts": self.retain_training_artifacts,`
`117`	`117`	`}`
`118`	`118`	`if FeatureFlagProvider.is_enabled(FeatureFlag.FEATURE_FLAG_NEW_CONFIGURABLE_PARAMETERS):`
`119`		`- payload["hyperparameters_json"] = (`
	`119`	`+ payload["training_configuration_json"] = (`
`120`	`120`	`# Use model_dump_json to avoid int casting into floats`
`121`		`- self.training_configuration.hyperparameters.model_dump_json(`
`122`		`- exclude={"training": {"allowed_values_input_size"}}, exclude_none=True`
	`121`	`+ self.training_configuration.model_dump_json(`
	`122`	`+ exclude={"hyperparameters": {"training": {"allowed_values_input_size"}}}, exclude_none=True`
`123`	`123`	`)`
`124`	`124`	`if self.training_configuration`
`125`	`125`	`else None`
Original file line number	Diff line number	Diff line change
`@@ -162,10 +162,10 @@ def create_payload(self) -> dict:`
`162`	`162`	`"retain_training_artifacts": self.retain_training_artifacts,`
`163`	`163`	`}`
`164`	`164`	`if FeatureFlagProvider.is_enabled(FeatureFlag.FEATURE_FLAG_NEW_CONFIGURABLE_PARAMETERS):`
`165`		`- payload["hyperparameters_json"] = (`
	`165`	`+ payload["training_configuration_json"] = (`
`166`	`166`	`# Use model_dump_json to avoid int casting into floats`
`167`		`- self.training_configuration.hyperparameters.model_dump_json(`
`168`		`- exclude={"training": {"allowed_values_input_size"}}, exclude_none=True`
	`167`	`+ self.training_configuration.model_dump_json(`
	`168`	`+ exclude={"hyperparameters": {"training": {"allowed_values_input_size"}}}, exclude_none=True`
`169`	`169`	`)`
`170`	`170`	`if self.training_configuration`
`171`	`171`	`else None`