update scripts for manuscript

JannesSP · JannesSP · commit 1b4a523a17f2 · 2025-06-24T10:10:46.000+02:00
diff --git a/src/python/misc/collectMetrics.py b/src/python/misc/collectMetrics.py
@@ -24,6 +24,7 @@ def parse() -> Namespace:
     parser.add_argument("time_uncalled4", type=str, help="Path to the tools time file")
     parser.add_argument("time_f5c_eventalign", type=str, help="Path to the tools time file")
     parser.add_argument("time_f5c_resquiggle", type=str, help="Path to the tools time file")
+    parser.add_argument("subtools_dorado", type=str, help="Path to the downstream tool metrics file")
     parser.add_argument("subtools_dynamont", type=str, help="Path to the downstream tool metrics file")
     parser.add_argument("subtools_uncalled4", type=str, help="Path to the downstream tool metrics file")
     parser.add_argument("subtools_f5c_eventalign", type=str, help="Path to the downstream tool metrics file")
@@ -53,6 +54,7 @@ def main() -> None:
     }
 
     downstream_tools = {
+        "dorado" : args.subtools_dorado,
         "dynamont": args.subtools_dynamont,
         "uncalled4": args.subtools_uncalled4,
         "f5c_eventalign": args.subtools_f5c_eventalign,
@@ -108,19 +110,29 @@ def main() -> None:
             })
             scores = pd.concat([scores, new_entry], ignore_index=True)
 
-    # control = pd.read_csv(args.control, sep="\t")
-    # for _, row in control.iterrows():
-    #     new_entry = pd.DataFrame({
-    #         "Tool": ["Control Random", "Control Uniform"],
-    #         "Value": [row["Value"], row["Value"]],
-    #         "Metric": [row["Metric"].lower() + '_length', row["Metric"].lower() + '_length']
-    #     })
-    #     scores = pd.concat([scores, new_entry], ignore_index=True)
+    #! add default control values to dorado
+    control = pd.read_csv(args.control, sep="\t")
+    for _, row in control.iterrows():
+        new_entry = pd.DataFrame({
+            "Tool": ["Dorado"],
+            "Value": [row["Value"]],
+            "Metric": [row["Metric"].lower() + '_length']
+        })
+        scores = pd.concat([scores, new_entry], ignore_index=True)
+
+    # print(scores.loc[scores["Metric"] == "total", "Value"].values)
+    total_reads = scores.loc[scores["Metric"] == "total", "Value"].values[0]
+    new_entry = pd.DataFrame({
+        "Tool": ["Dorado", "Dorado", "Dorado", "Dorado", "Dorado", "Dorado"],
+        "Metric": ["total", "present", "missing", "truncated", "identical", "nt changed"],
+        "Value": [total_reads, total_reads, 0, 0, total_reads, 0],
+    })
+    scores = pd.concat([scores, new_entry], ignore_index=True)
 
     #! remove controls and dorado
     scores = scores[scores["Tool"] != "Control Random"]
     scores = scores[scores["Tool"] != "Control Uniform"]
-    scores = scores[scores["Tool"] != "Dorado"]
+    # scores = scores[scores["Tool"] != "Dorado"]
 
     # fix names
     scores["Tool"] = scores["Tool"].replace(
@@ -135,33 +147,56 @@ def main() -> None:
     )
 
     # Remove unwanted metrics
-    removed_metrics = ["missing reads", "identical reads"]
-    scores = scores[~scores["Metric"].isin(removed_metrics)]
-
     # Exclude specific metrics (e.g., "Time in hh:mm:ss") from the Metric Score calculation
-    excluded_metrics = ["Time in hh:mm:ss", "Memory in MB"]
+    excluded_metrics = ["missing reads", "identical reads", "Time in hh:mm:ss", "Memory in MB"]
     numeric_scores = scores[~scores["Metric"].isin(excluded_metrics)]
     numeric_scores["Value"] = pd.to_numeric(numeric_scores["Value"], errors="coerce")
 
     # Calculate Metric Score only for numeric values
     scores["Metric Score"] = numeric_scores.groupby("Metric")["Value"].transform(
         lambda x: x / x.max() if x.max() > 0 else 0
     )
-    
+    # print("GROUP: ", scores["Metric Score"])
+    # exit(1)
+
     # Fill non-numeric rows with NaN for "Metric Score"
     scores["Metric Score"] = scores["Metric Score"].fillna(0)
 
     # calculate metric score
     # scores["Metric Score"] = scores.groupby("Metric")["Value"].transform(lambda x: x / x.max() if x.max() > 0 else 0)
 
     # Adjust Metric Score for specific metrics
-    scores.loc[scores["Metric"].isin(["Homogeneity", "Mad Delta", "missing", "truncated", "nt_changed", "min_length"]), "Metric Score"] = 1 - scores["Metric Score"]
+    scores.loc[scores["Metric"].isin(["Homogeneity", "missing", "truncated", "nt_changed", "min_length"]), "Metric Score"] = 1 - scores["Metric Score"]
+
+    # Calculate Metric Score only for numeric values
+    # def metric_score(series, lower_is_better=False):
+    #     if series.max() == series.min():
+    #         return pd.Series([1.0] * len(series), index=series.index)
+    #     if lower_is_better:
+    #         return (series.max() - series) / (series.max() - series.min())
+    #     else:
+    #         return (series - series.min()) / (series.max() - series.min())
+
+    # # Define which metrics are "lower is better"
+    # lower_is_better_metrics = ["Homogeneity", "missing", "truncated", "nt_changed", "min_length"]
+
+    # # Calculate scores for each metric
+    # scores["Metric Score"] = 0.0
+    # for metric in numeric_scores["Metric"].unique():
+    #     mask = scores["Metric"] == metric
+    #     lower_is_better = metric in lower_is_better_metrics
+    #     values = pd.to_numeric(scores.loc[mask, "Value"], errors="coerce")
+    #     scores.loc[mask, "Metric Score"] = metric_score(values, lower_is_better=lower_is_better)
+
+    # # Fill non-numeric rows with NaN for "Metric Score"
+    # scores["Metric Score"] = scores["Metric Score"].fillna(0)
 
     # Finalize the DataFrame
     scores = scores[["Tool", "Metric", "Value", "Metric Score"]]
     scores = scores.sort_values(by=["Metric", "Tool"])
     scores.reset_index(drop=True, inplace=True)
 
+    print("\nWriting to", args.outfile, "\n")
     scores.to_csv(args.outfile, sep="\t", index=False)
 
 if __name__ == '__main__':
diff --git a/src/python/misc/compareDatasets.py b/src/python/misc/compareDatasets.py
@@ -84,6 +84,18 @@
       "Reads Segmentation Ratio" : "/data/fass5/projects/js_dynamont/benchmark/comparison/dna_r10.4.1_5kHz/zymo_hmw/comparison_w0_segmentedReadsRatio.csv",
       "Read Lengths" : "/data/fass5/projects/js_dynamont/benchmark/comparison/dna_r10.4.1_5kHz/zymo_hmw/comparison_w0_readLengths.csv",
       "Read Quality" : "/data/fass5/projects/js_dynamont/benchmark/comparison/dna_r10.4.1_5kHz/zymo_hmw/comparison_w0_readQuality.csv",
+    },
+    "S. Aureus" : {
+      "Score" : "/data/fass5/projects/js_dynamont/benchmark/comparison/dna_r10.4.1_5kHz/p_anserina/comparison_w0_score.txt",
+      "Reads Segmentation Ratio" : "/data/fass5/projects/js_dynamont/benchmark/comparison/dna_r10.4.1_5kHz/p_anserina/comparison_w0_segmentedReadsRatio.csv",
+      "Read Lengths" : "/data/fass5/projects/js_dynamont/benchmark/comparison/dna_r10.4.1_5kHz/p_anserina/comparison_w0_readLengths.csv",
+      "Read Quality" : "/data/fass5/projects/js_dynamont/benchmark/comparison/dna_r10.4.1_5kHz/p_anserina/comparison_w0_readQuality.csv",
+    },
+    "P. Anserina" : {
+      "Score" : "/data/fass5/projects/js_dynamont/benchmark/comparison/dna_r10.4.1_5kHz/s_aureus/comparison_w0_score.txt",
+      "Reads Segmentation Ratio" : "/data/fass5/projects/js_dynamont/benchmark/comparison/dna_r10.4.1_5kHz/s_aureus/comparison_w0_segmentedReadsRatio.csv",
+      "Read Lengths" : "/data/fass5/projects/js_dynamont/benchmark/comparison/dna_r10.4.1_5kHz/s_aureus/comparison_w0_readLengths.csv",
+      "Read Quality" : "/data/fass5/projects/js_dynamont/benchmark/comparison/dna_r10.4.1_5kHz/s_aureus/comparison_w0_readQuality.csv",
     }
   }
 }
diff --git a/src/python/misc/csv_to_ms_heatmap.py b/src/python/misc/csv_to_ms_heatmap.py
@@ -7,6 +7,8 @@
 import pandas as pd
 import seaborn as sns
 import matplotlib.pyplot as plt
+import matplotlib
+matplotlib.use('Agg')
 from argparse import ArgumentDefaultsHelpFormatter, ArgumentParser, Namespace
 
 def parse() -> Namespace:
@@ -33,7 +35,7 @@ def process_csv(input_csv: str) -> pd.DataFrame:
     df.loc[df['Metric'] == 'present', 'Metric'] = 'segmented reads'
     df.loc[df['Metric'] == 'missing', 'Metric'] = 'missing reads'
 
-    #! Collect meta data for controls and dorado
+    # Collect meta data for controls and dorado
     # total_reads = df.loc[df['Metric'] == 'total reads', 'Value'].values[0]
     # min_length = df.loc[df['Metric'] == 'min length', 'Value'].values[0]
     # max_length = df.loc[df['Metric'] == 'max length', 'Value'].values[0]
@@ -53,48 +55,161 @@ def process_csv(input_csv: str) -> pd.DataFrame:
     #     ], ignore_index=True
     # )
 
-    # #! Add trivial values for Dorado
+    #! Add trivial values for Dorado
+    # print(df)
     # df = pd.concat(
     #     [
     #         df, pd.DataFrame({
     #             "Tool": ["Dorado"] * 10,
     #             "Metric": ["segmented reads", "missing reads", "truncated reads", "identical reads", "nt changed", "min length", "mean length", "median length", "n50 length", "max length"],
     #             "Value": [total_reads, 0, 0, total_reads, 0, min_length, mean_length, median_length, n50_length, max_length],
-    #             "Metric Score": [1.0, 1.0, 1.0, 1.0, 1.0, df.loc[(df['Tool'] == 'Ctrl R.') & (df['Metric'] == 'min length'), 'Metric Score'].squeeze(), 1.0, 1.0, 1.0, 1.0],
+    #             "Metric Score": [1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0],
     #         })
     #     ], ignore_index=True
     # )
+    # print(df)
+
+    #! include specific metrics
+    df_for_agg = df[df["Metric"].isin([
+        "median delta",
+        "mad delta",
+        "homogeneity",
+        "segmented reads",
+        # "missing reads",
+        "truncated reads",
+        # "identical reads",
+        # "nt changed",
+        "min length",
+        # "mean length",
+        # "median length",
+        "n50 length",
+        "max length",
+        "flye total length",
+        "flye n50",
+        "flye mean coverage",
+        "svim structural variants",
+    ])]
 
     # Calculate metric score sum for all tools
-    ams = df.groupby("Tool")["Metric Score"].sum().reset_index()
+    # ams = df.groupby("Tool")["Metric Score"].sum().reset_index()
+    ams = df_for_agg.groupby('Tool')["Metric Score"].sum().reset_index()
     ams["Dataset"] = f"{input_csv.split('/')[1]} {input_csv.split('/')[2]}" # Extract dataset name from file path
     return ams
 
 def plot_heatmap(ams: pd.DataFrame, output_file: str):
     # Pivot the data for heatmap
     heatmap_data = ams.pivot(index="Tool", columns="Dataset", values="Metric Score")
 
+    # print(heatmap_data.columns)
+
+    # set column order
+    column_order = [
+        "rna002 h_sapiens",
+        "rna002 e_coli",
+        "rna002 sarscov2",
+        "rna002 ivt",
+        "rna004 h_sapiens",
+        "rna004 s_cerevisiae",
+        "rna004 cevd",
+        "rna004 ivt",
+        "dna_r10.4.1_5kHz h_sapiens",
+        "dna_r10.4.1_5kHz zymo_hmw",
+        "dna_r10.4.1_5kHz s_aureus",
+        "dna_r10.4.1_5kHz p_anserina",
+    ]
+    heatmap_data = heatmap_data[column_order]
+
+    # Rename columns
+    column_rename_map = {
+        "rna002 h_sapiens": r"$H.\ sapiens$",
+        "rna002 e_coli": r"$E.\ coli$",
+        "rna002 sarscov2": r"SARS-CoV-2",
+        "rna002 ivt": r"IVT",
+        "rna004 h_sapiens": r"$H.\ sapiens$",
+        "rna004 s_cerevisiae": r"$S.\ cerevisiae$",
+        "rna004 cevd": r"CEVD",
+        "rna004 ivt": r"IVT",
+        "dna_r10.4.1_5kHz h_sapiens": r"$H.\ sapiens$",
+        "dna_r10.4.1_5kHz zymo_hmw": r"Zymo HMW",
+        "dna_r10.4.1_5kHz s_aureus": r"$S.\ Aureus$",
+        "dna_r10.4.1_5kHz p_anserina": r"$P.\ Anserina$",
+    }
+    heatmap_data = heatmap_data.rename(columns=column_rename_map)
+
+    # Add superlabels (multi-index for columns)
+    # superlabels = [
+    #     "RNA002", "RNA002", "RNA002", "RNA002",
+    #     "RNA004", "RNA004", "RNA004", "RNA004",
+    #     "DNA R10.4.1 5kHz", "DNA R10.4.1 5kHz"
+    # ]
+    # heatmap_data.columns = pd.MultiIndex.from_tuples(
+    #     zip(superlabels, heatmap_data.columns),
+    #     names=["Dataset Type", "Dataset"]
+    # )
+
     # Sort tools by their mean metric score (descending order)
-    tool_order = heatmap_data.mean(axis=1).sort_values(ascending=False).index
+    print(heatmap_data)
+    tool_order = heatmap_data.mean(axis=1).sort_values(ascending=False).index.tolist()
+    # ensure that dorado is the top row
+    if "Dorado" in tool_order:
+        tool_order.remove("Dorado")
+        tool_order = ["Dorado"] + tool_order
     heatmap_data = heatmap_data.loc[tool_order]
 
     # Plot the heatmap
-    plt.figure(figsize=(9, 7))  # Adjust figure size for better readability
-    sns.heatmap(
+    plt.figure(figsize=(9, 6))  # Adjust figure size for better readability
+    ax = sns.heatmap(
         heatmap_data,
         annot=True,  # Display values in cells
         fmt=".2f",  # Format values to 2 decimal places
         cmap="coolwarm",  # Use a visually appealing color palette
-        cbar_kws={'label': 'Metric Score'},  # Add a label to the color bar
+        cbar_kws={'label': 'Score', 'shrink': 0.8},  # Adjust color bar size
         linewidths=0.5,  # Add grey lines between cells
         linecolor="grey",  # Set the line color to grey
         annot_kws={"fontsize": 9},  # Adjust font size for annotations
+        square=True,  # Make cells square
     )
-    plt.title("Metric Score Heatmap", fontsize=16, fontweight="bold")  # Add a bold title
+
+    # Add superlabels above the dataset labels
+    superlabels = [
+        "RNA002", "RNA002", "RNA002", "RNA002",
+        "RNA004", "RNA004", "RNA004", "RNA004",
+        "DNA R10.4.1 5kHz", "DNA R10.4.1 5kHz", "DNA R10.4.1 5kHz", "DNA R10.4.1 5kHz"
+    ]
+    dataset_labels = [
+        r"$H.\ sapiens$", r"$E.\ coli$", "SARS-CoV-2", "IVT",
+        r"$H.\ sapiens$", r"$S.\ cerevisiae$", "CEVD", "IVT",
+        r"$H.\ sapiens$", "Zymo HMW", r"$S.\ Aureus$", r"$P.\ Anserina$"
+    ]
+
+    # Set the dataset labels
+    ax.set_xticks([i + 0.5 for i in range(len(dataset_labels))])  # Center labels
+    ax.set_xticklabels(dataset_labels, rotation=45, ha="right", fontsize=10)
+
+    # Add superlabels
+    for i, label in enumerate(superlabels):
+        if i == 0 or superlabels[i] != superlabels[i - 1]:  # Only add label once per group
+            start = i
+            end = i + superlabels.count(superlabels[i]) - 1
+            ax.text(
+                (start + end) / 2 + 0.5, 1.25 * len(tool_order),  # Center above group
+                label,
+                ha="center",
+                va="bottom",
+                fontsize=10,
+                fontweight="bold",
+                transform=ax.transData
+            )
+
+    # Adjust layout to fit the labels
+    plt.subplots_adjust(bottom=0.2, top=0.85)
+
+    plt.title("Aggregated Metric Score", fontsize=14)  # Add a bold title
     plt.ylabel("Tool", fontsize=12)  # Adjust y-axis label font size
-    plt.xlabel("Dataset", fontsize=12)  # Adjust x-axis label font size
-    plt.xticks(rotation=45, ha="right", fontsize=10)  # Rotate x-axis labels for better readability
-    plt.yticks(rotation=0, fontsize=10)  # Adjust y-axis label font size
+    plt.xlabel("Dataset", fontsize=12, labelpad=25)  # Adjust x-axis label font size
+    # plt.xticks(rotation=45, ha="right", fontsize=10)  # Rotate x-axis labels for better readability
+    plt.xticks(rotation=25, ha="center", fontsize=9)  # Rotate x-axis labels for better readability
+    plt.yticks(rotation=0, fontsize=9)  # Adjust y-axis label font size
     plt.tight_layout()  # Ensure everything fits within the figure
 
     # Save the heatmap
diff --git a/src/python/misc/csv_to_tex.py b/src/python/misc/csv_to_tex.py

Original file line number	Diff line number	Diff line change
`@@ -84,6 +84,18 @@`
`84`	`84`	`"Reads Segmentation Ratio" : "/data/fass5/projects/js_dynamont/benchmark/comparison/dna_r10.4.1_5kHz/zymo_hmw/comparison_w0_segmentedReadsRatio.csv",`
`85`	`85`	`"Read Lengths" : "/data/fass5/projects/js_dynamont/benchmark/comparison/dna_r10.4.1_5kHz/zymo_hmw/comparison_w0_readLengths.csv",`
`86`	`86`	`"Read Quality" : "/data/fass5/projects/js_dynamont/benchmark/comparison/dna_r10.4.1_5kHz/zymo_hmw/comparison_w0_readQuality.csv",`
	`87`	`+ },`
	`88`	`+ "S. Aureus" : {`
	`89`	`+ "Score" : "/data/fass5/projects/js_dynamont/benchmark/comparison/dna_r10.4.1_5kHz/p_anserina/comparison_w0_score.txt",`
	`90`	`+ "Reads Segmentation Ratio" : "/data/fass5/projects/js_dynamont/benchmark/comparison/dna_r10.4.1_5kHz/p_anserina/comparison_w0_segmentedReadsRatio.csv",`
	`91`	`+ "Read Lengths" : "/data/fass5/projects/js_dynamont/benchmark/comparison/dna_r10.4.1_5kHz/p_anserina/comparison_w0_readLengths.csv",`
	`92`	`+ "Read Quality" : "/data/fass5/projects/js_dynamont/benchmark/comparison/dna_r10.4.1_5kHz/p_anserina/comparison_w0_readQuality.csv",`
	`93`	`+ },`
	`94`	`+ "P. Anserina" : {`
	`95`	`+ "Score" : "/data/fass5/projects/js_dynamont/benchmark/comparison/dna_r10.4.1_5kHz/s_aureus/comparison_w0_score.txt",`
	`96`	`+ "Reads Segmentation Ratio" : "/data/fass5/projects/js_dynamont/benchmark/comparison/dna_r10.4.1_5kHz/s_aureus/comparison_w0_segmentedReadsRatio.csv",`
	`97`	`+ "Read Lengths" : "/data/fass5/projects/js_dynamont/benchmark/comparison/dna_r10.4.1_5kHz/s_aureus/comparison_w0_readLengths.csv",`
	`98`	`+ "Read Quality" : "/data/fass5/projects/js_dynamont/benchmark/comparison/dna_r10.4.1_5kHz/s_aureus/comparison_w0_readQuality.csv",`
`87`	`99`	`}`
`88`	`100`	`}`
`89`	`101`	`}`