OpenMined
diff --git a/‎examples/apol1/apol1-classifier/pipeline.yaml‎
Lines changed: 1 addition & 1 deletion b/‎examples/apol1/apol1-classifier/pipeline.yaml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/apol1/apol1-classifier/workflow.nf‎
Lines changed: 11 additions & 9 deletions b/‎examples/apol1/apol1-classifier/workflow.nf‎
Lines changed: 11 additions & 9 deletions
diff --git a/‎examples/apol1/apol1_dev.ipynb‎
Lines changed: 27 additions & 12 deletions b/‎examples/apol1/apol1_dev.ipynb‎
Lines changed: 27 additions & 12 deletions
diff --git a/‎examples/brca/brca-classifier/assets/classify_brca.py‎
Lines changed: 19 additions & 2 deletions b/‎examples/brca/brca-classifier/assets/classify_brca.py‎
Lines changed: 19 additions & 2 deletions
diff --git a/‎examples/brca/brca-classifier/pipeline.yaml‎
Lines changed: 1 addition & 1 deletion b/‎examples/brca/brca-classifier/pipeline.yaml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/brca/brca-classifier/workflow.nf‎
Lines changed: 11 additions & 9 deletions b/‎examples/brca/brca-classifier/workflow.nf‎
Lines changed: 11 additions & 9 deletions
diff --git a/‎examples/brca/brca_dev.ipynb‎
Lines changed: 27 additions & 17 deletions b/‎examples/brca/brca_dev.ipynb‎
Lines changed: 27 additions & 17 deletions
diff --git a/‎examples/brca/classify_brca.py‎
Lines changed: 19 additions & 2 deletions b/‎examples/brca/classify_brca.py‎
Lines changed: 19 additions & 2 deletions
diff --git a/‎examples/herc2/herc2-classifier/pipeline.yaml‎
Lines changed: 1 addition & 1 deletion b/‎examples/herc2/herc2-classifier/pipeline.yaml‎
Lines changed: 1 addition & 1 deletion
@@ -14,4 +14,4 @@ steps:
       destination: SQL()
       source: classification_result
       table_name: apol1_{run_id}
-      key_column: participant_id
+      participant_column: participant_id
@@ -6,21 +6,24 @@ workflow USER {
         participants  // Channel emitting GenotypeRecord maps
 
     main:
-        def assetsDir = file(context.params.assets_dir)
-        def workflowScript = file("${assetsDir}/classify_apol1.py")
+        def assetsDir = context.assets_dir
+        if (!assetsDir) {
+            throw new IllegalStateException("Missing assets directory in context")
+        }
+        def assetsDirPath = file(assetsDir)
 
-        // Extract (participant_id, genotype_file) tuples from the records channel
-        def participant_tuples = participants.map { record ->
+        // Pair the assets directory with each (participant_id, genotype_file) tuple
+        def participant_work_items = participants.map { record ->
             tuple(
+                assetsDirPath,
                 record.participant_id,
                 file(record.genotype_file)
             )
         }
 
         // Process each participant
         def per_participant_results = apol1_classifier(
-            workflowScript,
-            participant_tuples
+            participant_work_items
         )
 
         // Aggregate all results into single file
@@ -38,15 +41,14 @@ process apol1_classifier {
     tag { participant_id }
 
     input:
-        path script
-        tuple val(participant_id), path(genotype_file)
+        tuple path(assets_dir), val(participant_id), path(genotype_file)
 
     output:
         path "result_APOL1_${participant_id}.tsv"
 
     script:
     """
-    bioscript classify "${script}" --file "${genotype_file}" --participant_id "${participant_id}"
+    bioscript classify "${assets_dir}/classify_apol1.py" --file "${genotype_file}" --participant_id "${participant_id}"
     """
 }
 
 
@@ -261,7 +261,7 @@
     "# Run tests\n",
     "test_g0_homozygous()\n",
     "test_g1_homozygous()\n",
-    "print(\"\u2713 All tests passed!\")"
+    "print(\"✓ All tests passed!\")"
    ]
   },
   {
@@ -382,7 +382,7 @@
     "    return test_file\n",
     "\n",
     "test_file = create_apol1_test_file()\n",
-    "print('\u2713 Test file ready!')\n"
+    "print('✓ Test file ready!')\n"
    ]
   },
   {
@@ -405,7 +405,6 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "id": "6515fe1b",
    "metadata": {},
    "outputs": [],
    "source": [
@@ -436,13 +435,12 @@
     "    return csv_path\n",
     "\n",
     "decodeme_file = create_apol1_decodeme_file()\n",
-    "print('\u2713 DecodeME sample ready!')\n"
+    "print('✓ DecodeME sample ready!')\n"
    ]
   },
   {
    "cell_type": "code",
    "execution_count": null,
-   "id": "695eabd8",
    "metadata": {},
    "outputs": [],
    "source": [
@@ -453,7 +451,6 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "id": "101625f9",
    "metadata": {},
    "outputs": [],
    "source": [
@@ -487,13 +484,12 @@
     "    return csv_path\n",
     "\n",
     "myheritage_file = create_apol1_myheritage_file()\n",
-    "print('\u2713 MyHeritage sample ready!')\n"
+    "print('✓ MyHeritage sample ready!')\n"
    ]
   },
   {
    "cell_type": "code",
    "execution_count": null,
-   "id": "b808ac94",
    "metadata": {},
    "outputs": [],
    "source": [
@@ -504,7 +500,6 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "id": "328c4426",
    "metadata": {},
    "outputs": [],
    "source": [
@@ -537,19 +532,39 @@
     "    return tsv_path\n",
     "\n",
     "headerless_file = create_apol1_headerless_file()\n",
-    "print('\u2713 Headerless sample ready!')\n"
+    "print('✓ Headerless sample ready!')\n"
    ]
   },
   {
    "cell_type": "code",
    "execution_count": null,
-   "id": "159f07aa",
    "metadata": {},
    "outputs": [],
    "source": [
     "!bioscript classify classify_apol1.py --file apol1_headerless.txt --participant_id=\"HEADERLESS\"\n",
     "!cat result_APOL1_HEADERLESS.tsv\n"
    ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
   }
  ],
  "metadata": {
@@ -573,4 +588,4 @@
  },
  "nbformat": 4,
  "nbformat_minor": 4
-}
+}
@@ -2,6 +2,22 @@
 from bioscript import optional_int, optional_str, write_tsv
 from bioscript.classifier import GenotypeClassifier
 from bioscript.types import VariantCall
+from bioscript import assets_dir
+
+ASSETS_DIR = assets_dir()
+RESULT_HEADERS = [
+    "participant_id",
+    "filename",
+    "gene",
+    "rsid",
+    "chromosome",
+    "position",
+    "genotype",
+    "ref",
+    "alt",
+    "variant_type",
+    "match_type",
+]
 
 def generate_variant_calls(df: pd.DataFrame) -> list[VariantCall]:
     """Generate VariantCall objects from ClinVar DataFrame."""
@@ -21,7 +37,8 @@ def generate_variant_calls(df: pd.DataFrame) -> list[VariantCall]:
 
 def get_vcs() -> list[VariantCall]:
     """Load BRCA1 and BRCA2 variant calls from ClinVar TSV files."""
-    dfs = [pd.read_csv(f, sep="\t") for f in ["brca1_clinvar.tsv", "brca2_clinvar.tsv"]]
+    data_files = [ASSETS_DIR / name for name in ["brca1_clinvar.tsv", "brca2_clinvar.tsv"]]
+    dfs = [pd.read_csv(f, sep="\t") for f in data_files]
     df = pd.concat(dfs, ignore_index=True)
     print(f"Loaded {len(df)} variants from BRCA1 and BRCA2")
     return generate_variant_calls(df)
@@ -41,7 +58,7 @@ def classify(self, matches):
             write_tsv(f"{self.output_basename}_ref.tsv", ref_rows)
             write_tsv(f"{self.output_basename}_no.tsv", no_rows)
 
-        write_tsv(f"{self.output_basename}.tsv", var_rows)
+        write_tsv(f"{self.output_basename}.tsv", var_rows, headers=RESULT_HEADERS)
 
         # Return variant rows for testing
         return var_rows
 
@@ -14,4 +14,4 @@ steps:
       destination: SQL()
       source: classification_result
       table_name: brca_{run_id}
-      key_column: participant_id
+      participant_column: participant_id
@@ -6,21 +6,24 @@ workflow USER {
         participants  // Channel emitting GenotypeRecord maps
 
     main:
-        def assetsDir = file(context.params.assets_dir)
-        def workflowScript = file("${assetsDir}/classify_brca.py")
+        def assetsDir = context.assets_dir
+        if (!assetsDir) {
+            throw new IllegalStateException("Missing assets directory in context")
+        }
+        def assetsDirPath = file(assetsDir)
 
-        // Extract (participant_id, genotype_file) tuples from the records channel
-        def participant_tuples = participants.map { record ->
+        // Pair the assets directory with each (participant_id, genotype_file) tuple
+        def participant_work_items = participants.map { record ->
             tuple(
+                assetsDirPath,
                 record.participant_id,
                 file(record.genotype_file)
             )
         }
 
         // Process each participant
         def per_participant_results = brca_classifier(
-            workflowScript,
-            participant_tuples
+            participant_work_items
         )
 
         // Aggregate all results into single file
@@ -38,15 +41,14 @@ process brca_classifier {
     tag { participant_id }
 
     input:
-        path script
-        tuple val(participant_id), path(genotype_file)
+        tuple path(assets_dir), val(participant_id), path(genotype_file)
 
     output:
         path "result_BRCA_${participant_id}.tsv"
 
     script:
     """
-    bioscript classify "${script}" --file "${genotype_file}" --participant_id "${participant_id}"
+    bioscript classify "${assets_dir}/classify_brca.py" --file "${genotype_file}" --participant_id "${participant_id}"
     """
 }
 
 
@@ -27,7 +27,30 @@
     "import pandas as pd\n",
     "from bioscript import optional_int, optional_str, write_tsv\n",
     "from bioscript.classifier import GenotypeClassifier\n",
-    "from bioscript.types import VariantCall"
+    "from bioscript.types import VariantCall\n",
+    "from bioscript import assets_dir"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "ASSETS_DIR = assets_dir()\n",
+    "RESULT_HEADERS = [\n",
+    "    \"participant_id\",\n",
+    "    \"filename\",\n",
+    "    \"gene\",\n",
+    "    \"rsid\",\n",
+    "    \"chromosome\",\n",
+    "    \"position\",\n",
+    "    \"genotype\",\n",
+    "    \"ref\",\n",
+    "    \"alt\",\n",
+    "    \"variant_type\",\n",
+    "    \"match_type\",\n",
+    "]"
    ]
   },
   {
@@ -61,7 +84,8 @@
    "source": [
     "def get_vcs() -> list[VariantCall]:\n",
     "    \"\"\"Load BRCA1 and BRCA2 variant calls from ClinVar TSV files.\"\"\"\n",
-    "    dfs = [pd.read_csv(f, sep=\"\\t\") for f in [\"brca1_clinvar.tsv\", \"brca2_clinvar.tsv\"]]\n",
+    "    data_files = [ASSETS_DIR / name for name in [\"brca1_clinvar.tsv\", \"brca2_clinvar.tsv\"]]\n",
+    "    dfs = [pd.read_csv(f, sep=\"\\t\") for f in data_files]\n",
     "    df = pd.concat(dfs, ignore_index=True)\n",
     "    print(f\"Loaded {len(df)} variants from BRCA1 and BRCA2\")\n",
     "    return generate_variant_calls(df)"
@@ -88,7 +112,7 @@
     "            write_tsv(f\"{self.output_basename}_ref.tsv\", ref_rows)\n",
     "            write_tsv(f\"{self.output_basename}_no.tsv\", no_rows)\n",
     "\n",
-    "        write_tsv(f\"{self.output_basename}.tsv\", var_rows)\n",
+    "        write_tsv(f\"{self.output_basename}.tsv\", var_rows, headers=RESULT_HEADERS)\n",
     "        \n",
     "        # Return variant rows for testing\n",
     "        return var_rows"
@@ -363,20 +387,6 @@
     "pipeline\n"
    ]
   },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": []
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": []
-  },
   {
    "cell_type": "code",
    "execution_count": null,
 
@@ -2,6 +2,22 @@
 from bioscript import optional_int, optional_str, write_tsv
 from bioscript.classifier import GenotypeClassifier
 from bioscript.types import VariantCall
+from bioscript import assets_dir
+
+ASSETS_DIR = assets_dir()
+RESULT_HEADERS = [
+    "participant_id",
+    "filename",
+    "gene",
+    "rsid",
+    "chromosome",
+    "position",
+    "genotype",
+    "ref",
+    "alt",
+    "variant_type",
+    "match_type",
+]
 
 def generate_variant_calls(df: pd.DataFrame) -> list[VariantCall]:
     """Generate VariantCall objects from ClinVar DataFrame."""
@@ -21,7 +37,8 @@ def generate_variant_calls(df: pd.DataFrame) -> list[VariantCall]:
 
 def get_vcs() -> list[VariantCall]:
     """Load BRCA1 and BRCA2 variant calls from ClinVar TSV files."""
-    dfs = [pd.read_csv(f, sep="\t") for f in ["brca1_clinvar.tsv", "brca2_clinvar.tsv"]]
+    data_files = [ASSETS_DIR / name for name in ["brca1_clinvar.tsv", "brca2_clinvar.tsv"]]
+    dfs = [pd.read_csv(f, sep="\t") for f in data_files]
     df = pd.concat(dfs, ignore_index=True)
     print(f"Loaded {len(df)} variants from BRCA1 and BRCA2")
     return generate_variant_calls(df)
@@ -41,7 +58,7 @@ def classify(self, matches):
             write_tsv(f"{self.output_basename}_ref.tsv", ref_rows)
             write_tsv(f"{self.output_basename}_no.tsv", no_rows)
 
-        write_tsv(f"{self.output_basename}.tsv", var_rows)
+        write_tsv(f"{self.output_basename}.tsv", var_rows, headers=RESULT_HEADERS)
 
         # Return variant rows for testing
         return var_rows
 
@@ -14,4 +14,4 @@ steps:
       destination: SQL()
       source: classification_result
       table_name: herc2_{run_id}
-      key_column: participant_id
+      participant_column: participant_id