filter transcripts fixed for bytes.

EliHei2 · web-flow · commit 443744a9430e · 2025-01-24T14:57:33.000+01:00
diff --git a/src/segger/data/utils.py b/src/segger/data/utils.py
@@ -43,7 +43,7 @@ def try_import(module_name):
 from datetime import timedelta
 
 
-def filter_transcripts(
+def filter_transcripts( #ONLY FOR XENIUM
     transcripts_df: pd.DataFrame,
     min_qv: float = 20.0,
 ) -> pd.DataFrame:
@@ -65,8 +65,17 @@ def filter_transcripts(
         "DeprecatedCodeword_",
         "UnassignedCodeword_",
     )
-    mask = transcripts_df["qv"].ge(min_qv)
-    mask &= ~transcripts_df["feature_name"].str.startswith(filter_codewords)
+    
+    transcripts_df['feature_name'] = transcripts_df['feature_name'].apply(
+        lambda x: x.decode("utf-8") if isinstance(x, bytes) else x
+    )
+    mask_quality = transcripts_df['qv'] >= min_qv
+
+    # Apply the filter for unwanted codewords using Dask string functions
+    mask_codewords = ~transcripts_df['feature_name'].str.startswith(filter_codewords)
+
+    # Combine the filters and return the filtered Dask DataFrame
+    mask = mask_quality & mask_codewords
     return transcripts_df[mask]