Linter

makseq · makseq · commit 43e7baa8d631 · 2025-06-06T16:59:02.000+01:00
diff --git a/label_studio_ml/examples/timeseries_segmenter/_wsgi.py b/label_studio_ml/examples/timeseries_segmenter/_wsgi.py
@@ -4,30 +4,30 @@
 import logging
 import logging.config
 
-logging.config.dictConfig({
-  "version": 1,
-  "disable_existing_loggers": False,
-  "formatters": {
-    "standard": {
-      "format": "[%(asctime)s] [%(levelname)s] [%(name)s::%(funcName)s::%(lineno)d] %(message)s"
+logging.config.dictConfig(
+    {
+        'version': 1,
+        'disable_existing_loggers': False,
+        'formatters': {
+            'standard': {
+                'format': '[%(asctime)s] [%(levelname)s] [%(name)s::%(funcName)s::%(lineno)d] %(message)s'
+            }
+        },
+        'handlers': {
+            'console': {
+                'class': 'logging.StreamHandler',
+                'level': os.getenv('LOG_LEVEL'),
+                'stream': 'ext://sys.stdout',
+                'formatter': 'standard',
+            }
+        },
+        'root': {
+            'level': os.getenv('LOG_LEVEL'),
+            'handlers': ['console'],
+            'propagate': True,
+        },
     }
-  },
-  "handlers": {
-    "console": {
-      "class": "logging.StreamHandler",
-      "level": os.getenv('LOG_LEVEL'),
-      "stream": "ext://sys.stdout",
-      "formatter": "standard"
-    }
-  },
-  "root": {
-    "level": os.getenv('LOG_LEVEL'),
-    "handlers": [
-      "console"
-    ],
-    "propagate": True
-  }
-})
+)
 
 from label_studio_ml.api import init_app
 from model import TimeSeriesSegmenter
@@ -45,37 +45,61 @@ def get_kwargs_from_config(config_path=_DEFAULT_CONFIG_PATH):
     return config
 
 
-if __name__ == "__main__":
+if __name__ == '__main__':
     parser = argparse.ArgumentParser(description='Label studio')
     parser.add_argument(
-        '-p', '--port', dest='port', type=int, default=9090,
-        help='Server port')
+        '-p', '--port', dest='port', type=int, default=9090, help='Server port'
+    )
+    parser.add_argument(
+        '--host', dest='host', type=str, default='0.0.0.0', help='Server host'
+    )
     parser.add_argument(
-        '--host', dest='host', type=str, default='0.0.0.0',
-        help='Server host')
+        '--kwargs',
+        '--with',
+        dest='kwargs',
+        metavar='KEY=VAL',
+        nargs='+',
+        type=lambda kv: kv.split('='),
+        help='Additional LabelStudioMLBase model initialization kwargs',
+    )
     parser.add_argument(
-        '--kwargs', '--with', dest='kwargs', metavar='KEY=VAL', nargs='+', type=lambda kv: kv.split('='),
-        help='Additional LabelStudioMLBase model initialization kwargs')
+        '-d',
+        '--debug',
+        dest='debug',
+        action='store_true',
+        help='Switch debug mode',
+    )
     parser.add_argument(
-        '-d', '--debug', dest='debug', action='store_true',
-        help='Switch debug mode')
+        '--log-level',
+        dest='log_level',
+        choices=['DEBUG', 'INFO', 'WARNING', 'ERROR'],
+        default=None,
+        help='Logging level',
+    )
     parser.add_argument(
-        '--log-level', dest='log_level', choices=['DEBUG', 'INFO', 'WARNING', 'ERROR'], default=None,
-        help='Logging level')
+        '--model-dir',
+        dest='model_dir',
+        default=os.path.dirname(__file__),
+        help='Directory where models are stored (relative to the project directory)',
+    )
     parser.add_argument(
-        '--model-dir', dest='model_dir', default=os.path.dirname(__file__),
-        help='Directory where models are stored (relative to the project directory)')
+        '--check',
+        dest='check',
+        action='store_true',
+        help='Validate model instance before launching server',
+    )
     parser.add_argument(
-        '--check', dest='check', action='store_true',
-        help='Validate model instance before launching server')
-    parser.add_argument('--basic-auth-user',
-                        default=os.environ.get('ML_SERVER_BASIC_AUTH_USER', None),
-                        help='Basic auth user')
-    
-    parser.add_argument('--basic-auth-pass',
-                        default=os.environ.get('ML_SERVER_BASIC_AUTH_PASS', None),
-                        help='Basic auth pass')    
-    
+        '--basic-auth-user',
+        default=os.environ.get('ML_SERVER_BASIC_AUTH_USER', None),
+        help='Basic auth user',
+    )
+
+    parser.add_argument(
+        '--basic-auth-pass',
+        default=os.environ.get('ML_SERVER_BASIC_AUTH_PASS', None),
+        help='Basic auth pass',
+    )
+
     args = parser.parse_args()
 
     # setup logging level
@@ -110,10 +134,16 @@ def parse_kwargs():
         kwargs.update(parse_kwargs())
 
     if args.check:
-        print('Check "' + TimeSeriesSegmenter.__name__ + '" instance creation..')
+        print(
+            'Check "' + TimeSeriesSegmenter.__name__ + '" instance creation..'
+        )
         model = TimeSeriesSegmenter(**kwargs)
 
-    app = init_app(model_class=TimeSeriesSegmenter, basic_auth_user=args.basic_auth_user, basic_auth_pass=args.basic_auth_pass)
+    app = init_app(
+        model_class=TimeSeriesSegmenter,
+        basic_auth_user=args.basic_auth_user,
+        basic_auth_pass=args.basic_auth_pass,
+    )
 
     app.run(host=args.host, port=args.port, debug=args.debug)
 
diff --git a/label_studio_ml/examples/timeseries_segmenter/model.py b/label_studio_ml/examples/timeseries_segmenter/model.py
@@ -31,12 +31,14 @@ class TimeSeriesSegmenter(LabelStudioMLBase):
 
     LABEL_STUDIO_HOST = os.getenv('LABEL_STUDIO_HOST', 'http://localhost:8080')
     LABEL_STUDIO_API_KEY = os.getenv('LABEL_STUDIO_API_KEY')
-    START_TRAINING_EACH_N_UPDATES = int(os.getenv('START_TRAINING_EACH_N_UPDATES', 10))
+    START_TRAINING_EACH_N_UPDATES = int(
+        os.getenv('START_TRAINING_EACH_N_UPDATES', 10)
+    )
     MODEL_DIR = os.getenv('MODEL_DIR', '.')
 
     def setup(self):
         """Initialize model metadata."""
-        self.set("model_version", f"{self.__class__.__name__}-v0.0.1")
+        self.set('model_version', f'{self.__class__.__name__}-v0.0.1')
 
     # ------------------------------------------------------------------
     # Utility helpers
@@ -46,49 +48,55 @@ def _get_model(self, blank: bool = False) -> LogisticRegression:
         global _model
         if _model is not None and not blank:
             return _model
-        
-        model_path = os.path.join(self.MODEL_DIR, "model.pkl")
+
+        model_path = os.path.join(self.MODEL_DIR, 'model.pkl')
         if not blank and os.path.exists(model_path):
-            with open(model_path, "rb") as f:
+            with open(model_path, 'rb') as f:
                 _model = pickle.load(f)
         else:
             _model = LogisticRegression(max_iter=1000)
         return _model
 
     def _get_labeling_params(self) -> Dict:
         """Return tag names and channel information from the labeling config."""
-        from_name, to_name, value = self.label_interface.get_first_tag_occurence(
-            "TimeSeriesLabels", "TimeSeries"
+        (
+            from_name,
+            to_name,
+            value,
+        ) = self.label_interface.get_first_tag_occurence(
+            'TimeSeriesLabels', 'TimeSeries'
         )
         tag = self.label_interface.get_tag(from_name)
         labels = list(tag.labels)
         ts_tag = self.label_interface.get_tag(to_name)
-        time_col = ts_tag.attr.get("timeColumn")
+        time_col = ts_tag.attr.get('timeColumn')
         # Parse channel names from the original XML because TimeSeries tag
         # does not expose its children via label-studio's interface
         import xml.etree.ElementTree as ET
 
         root = ET.fromstring(self.label_config)
         ts_elem = root.find(f".//TimeSeries[@name='{to_name}']")
-        channels = [ch.attrib["column"] for ch in ts_elem.findall("Channel")]
+        channels = [ch.attrib['column'] for ch in ts_elem.findall('Channel')]
 
         return {
             'from_name': from_name,
             'to_name': to_name,
             'value': value,
             'labels': labels,
             'time_col': time_col,
-            'channels': channels
+            'channels': channels,
         }
 
     def _read_csv(self, task: Dict, path: str) -> pd.DataFrame:
         """Load a CSV referenced by the task using Label Studio utilities."""
         csv_str = self.preload_task_data(task, path)
         return pd.read_csv(io.StringIO(csv_str))
 
-    def _predict_task(self, task: Dict, model: LogisticRegression, params: Dict) -> Dict:
+    def _predict_task(
+        self, task: Dict, model: LogisticRegression, params: Dict
+    ) -> Dict:
         """Return Label Studio-style prediction for a single task."""
-        df = self._read_csv(task, task["data"][params["value"]])
+        df = self._read_csv(task, task['data'][params['value']])
 
         # Vector of sensor values per row
         X = df[params['channels']].values
@@ -108,26 +116,28 @@ def _predict_task(self, task: Dict, model: LogisticRegression, params: Dict) ->
         for seg in segments:
             score = float(np.mean(seg['scores']))
             avg_score += score
-            results.append({
-                'from_name': params['from_name'],
-                'to_name': params['to_name'],
-                'type': 'timeserieslabels',
-                'value': {
-                    'start': seg['start'],
-                    'end': seg['end'],
-                    'instant': False,
-                    'timeserieslabels': [seg['label']]
-                },
-                'score': score
-            })
+            results.append(
+                {
+                    'from_name': params['from_name'],
+                    'to_name': params['to_name'],
+                    'type': 'timeserieslabels',
+                    'value': {
+                        'start': seg['start'],
+                        'end': seg['end'],
+                        'instant': False,
+                        'timeserieslabels': [seg['label']],
+                    },
+                    'score': score,
+                }
+            )
 
         if not results:
             return {}
 
         return {
             'result': results,
             'score': avg_score / len(results),
-            'model_version': self.get('model_version')
+            'model_version': self.get('model_version'),
         }
 
     def _group_rows(self, df: pd.DataFrame, time_col: str) -> List[Dict]:
@@ -146,13 +156,15 @@ def _group_rows(self, df: pd.DataFrame, time_col: str) -> List[Dict]:
                     'label': label,
                     'start': row[time_col],
                     'end': row[time_col],
-                    'scores': [row['score']]
+                    'scores': [row['score']],
                 }
         if current:
             segments.append(current)
         return segments
 
-    def _collect_samples(self, tasks: List[Dict], params: Dict, label2idx: Dict[str, int]) -> Tuple[List, List]:
+    def _collect_samples(
+        self, tasks: List[Dict], params: Dict, label2idx: Dict[str, int]
+    ) -> Tuple[List, List]:
         """Return feature matrix and label vector built from all labeled tasks."""
         X, y = [], []
         for task in tasks:
@@ -169,9 +181,8 @@ def _collect_samples(self, tasks: List[Dict], params: Dict, label2idx: Dict[str,
                     start = r['value']['start']
                     end = r['value']['end']
                     label = r['value']['timeserieslabels'][0]
-                    mask = (
-                        (df[params['time_col']] >= start)
-                        & (df[params['time_col']] <= end)
+                    mask = (df[params['time_col']] >= start) & (
+                        df[params['time_col']] <= end
                     )
                     seg = df.loc[mask, params['channels']].values
                     X.extend(seg)
@@ -191,9 +202,13 @@ def predict(
         """Return time series segments predicted for the given tasks."""
         params = self._get_labeling_params()
         model = self._get_model()
-        predictions = [self._predict_task(task, model, params) for task in tasks]
+        predictions = [
+            self._predict_task(task, model, params) for task in tasks
+        ]
 
-        return ModelResponse(predictions=predictions, model_version=self.get('model_version'))
+        return ModelResponse(
+            predictions=predictions, model_version=self.get('model_version')
+        )
 
     def _get_tasks(self, project_id: int) -> List[Dict]:
         """Fetch labeled tasks from Label Studio."""
@@ -206,20 +221,24 @@ def _get_tasks(self, project_id: int) -> List[Dict]:
     def fit(self, event, data, **kwargs):
         """Train the model on all labeled segments."""
         if event not in (
-            "ANNOTATION_CREATED",
-            "ANNOTATION_UPDATED",
-            "START_TRAINING",
+            'ANNOTATION_CREATED',
+            'ANNOTATION_UPDATED',
+            'START_TRAINING',
         ):
-            logger.info("Skip training: event %s is not supported", event)
+            logger.info('Skip training: event %s is not supported', event)
             return
-        
+
         project_id = data['annotation']['project']
         tasks = self._get_tasks(project_id)
-        if len(tasks) % self.START_TRAINING_EACH_N_UPDATES != 0 and event != 'START_TRAINING':
+        if (
+            len(tasks) % self.START_TRAINING_EACH_N_UPDATES != 0
+            and event != 'START_TRAINING'
+        ):
             logger.info(
-                f'Skip training: {len(tasks)} tasks are not multiple of {self.START_TRAINING_EACH_N_UPDATES}')
+                f'Skip training: {len(tasks)} tasks are not multiple of {self.START_TRAINING_EACH_N_UPDATES}'
+            )
             return
-        
+
         params = self._get_labeling_params()
         label2idx = {l: i for i, l in enumerate(params['labels'])}
 
@@ -234,4 +253,3 @@ def fit(self, event, data, **kwargs):
         global _model
         _model = None  # reload on next predict
         self._get_model()
-
diff --git a/label_studio_ml/examples/timeseries_segmenter/tests/test_segmenter.py b/label_studio_ml/examples/timeseries_segmenter/tests/test_segmenter.py