apache
diff --git a/‎src/main/python/systemds/scuro/__init__.py‎
Lines changed: 4 additions & 0 deletions b/‎src/main/python/systemds/scuro/__init__.py‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎src/main/python/systemds/scuro/dataloader/audio_loader.py‎
Lines changed: 12 additions & 12 deletions b/‎src/main/python/systemds/scuro/dataloader/audio_loader.py‎
Lines changed: 12 additions & 12 deletions
diff --git a/‎src/main/python/systemds/scuro/dataloader/video_loader.py‎
Lines changed: 16 additions & 6 deletions b/‎src/main/python/systemds/scuro/dataloader/video_loader.py‎
Lines changed: 16 additions & 6 deletions
diff --git a/‎src/main/python/systemds/scuro/drsearch/dr_search.py‎
Lines changed: 1 addition & 1 deletion b/‎src/main/python/systemds/scuro/drsearch/dr_search.py‎
Lines changed: 1 addition & 1 deletion
@@ -73,6 +73,8 @@
 from systemds.scuro.drsearch.unimodal_representation_optimizer import (
     UnimodalRepresentationOptimizer,
 )
+from systemds.scuro.drsearch.multimodal_optimizer import MultimodalOptimizer
+from systemds.scuro.drsearch.unimodal_optimizer import UnimodalOptimizer
 
 
 __all__ = [
@@ -127,4 +129,6 @@
     "OptimizationData",
     "RepresentationCache",
     "UnimodalRepresentationOptimizer",
+    "UnimodalOptimizer",
+    "MultimodalOptimizer",
 ]
@@ -45,18 +45,18 @@ def __init__(
 
     def extract(self, file: str, index: Optional[Union[str, List[str]]] = None):
         self.file_sanity_check(file)
-        # if not self.load_data_from_file:
-        #     import numpy as np
-        #
-        #     self.metadata[file] = self.modality_type.create_audio_metadata(
-        #         1000, np.array([0])
-        #     )
-        # else:
-        audio, sr = librosa.load(file, dtype=self._data_type)
+        if not self.load_data_from_file:
+            import numpy as np
 
-        if self.normalize:
-            audio = librosa.util.normalize(audio)
+            self.metadata[file] = self.modality_type.create_audio_metadata(
+                1000, np.array([0])
+            )
+        else:
+            audio, sr = librosa.load(file, dtype=self._data_type)
 
-        self.metadata[file] = self.modality_type.create_audio_metadata(sr, audio)
+            if self.normalize:
+                audio = librosa.util.normalize(audio)
 
-        self.data.append(audio)
+            self.metadata[file] = self.modality_type.create_audio_metadata(sr, audio)
+
+            self.data.append(audio)
@@ -35,11 +35,13 @@ def __init__(
         data_type: Union[np.dtype, str] = np.float16,
         chunk_size: Optional[int] = None,
         load=True,
+        fps=None,
     ):
         super().__init__(
             source_path, indices, data_type, chunk_size, ModalityType.VIDEO
         )
         self.load_data_from_file = load
+        self.fps = fps
 
     def extract(self, file: str, index: Optional[Union[str, List[str]]] = None):
         self.file_sanity_check(file)
@@ -53,25 +55,33 @@ def extract(self, file: str, index: Optional[Union[str, List[str]]] = None):
         if not cap.isOpened():
             raise f"Could not read video at path: {file}"
 
-        fps = cap.get(cv2.CAP_PROP_FPS)
+        orig_fps = cap.get(cv2.CAP_PROP_FPS)
+        frame_interval = 1
+        if self.fps is not None and self.fps < orig_fps:
+            frame_interval = int(round(orig_fps / self.fps))
+        else:
+            self.fps = orig_fps
+
         length = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
         width = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))
         height = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))
         num_channels = 3
 
         self.metadata[file] = self.modality_type.create_video_metadata(
-            fps, length, width, height, num_channels
+            self.fps, length, width, height, num_channels
         )
 
         frames = []
+        idx = 0
         while cap.isOpened():
             ret, frame = cap.read()
 
             if not ret:
                 break
-            frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
-            frame = frame.astype(self._data_type) / 255.0
-
-            frames.append(frame)
+            if idx % frame_interval == 0:
+                frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
+                frame = frame.astype(self._data_type) / 255.0
+                frames.append(frame)
+            idx += 1
 
         self.data.append(np.stack(frames))
@@ -76,7 +76,7 @@ def set_best_params(
         """
 
         # check if modality name is already in dictionary
-        if "_".join(modality_names) not in self.scores.keys():
+        if "_".join(modality_names) not in list(self.scores.keys()):
             # if not add it to dictionary
             self.scores["_".join(modality_names)] = {}
Original file line number	Diff line number	Diff line change
`@@ -73,6 +73,8 @@`
`73`	`73`	`from systemds.scuro.drsearch.unimodal_representation_optimizer import (`
`74`	`74`	`UnimodalRepresentationOptimizer,`
`75`	`75`	`)`
	`76`	`+from systemds.scuro.drsearch.multimodal_optimizer import MultimodalOptimizer`
	`77`	`+from systemds.scuro.drsearch.unimodal_optimizer import UnimodalOptimizer`
`76`	`78`
`77`	`79`
`78`	`80`	`__all__ = [`
`@@ -127,4 +129,6 @@`
`127`	`129`	`"OptimizationData",`
`128`	`130`	`"RepresentationCache",`
`129`	`131`	`"UnimodalRepresentationOptimizer",`
	`132`	`+ "UnimodalOptimizer",`
	`133`	`+ "MultimodalOptimizer",`
`130`	`134`	`]`