vanallenlab
diff --git a/‎datasources/cancergenecensus/diff_versions.py‎
Lines changed: 46 additions & 25 deletions b/‎datasources/cancergenecensus/diff_versions.py‎
Lines changed: 46 additions & 25 deletions
diff --git a/‎datasources/cancergenecensus/extract_genes.py‎
Lines changed: 16 additions & 9 deletions b/‎datasources/cancergenecensus/extract_genes.py‎
Lines changed: 16 additions & 9 deletions
diff --git a/‎datasources/cancerhotspots/prep_3dhotspots/prep3dhotspots.py‎
Lines changed: 21 additions & 15 deletions b/‎datasources/cancerhotspots/prep_3dhotspots/prep3dhotspots.py‎
Lines changed: 21 additions & 15 deletions
diff --git a/‎datasources/clinvar/prepare_clinvar.py‎
Lines changed: 23 additions & 15 deletions b/‎datasources/clinvar/prepare_clinvar.py‎
Lines changed: 23 additions & 15 deletions
diff --git a/‎datasources/cosmic/prepare_cosmic.py‎
Lines changed: 36 additions & 18 deletions b/‎datasources/cosmic/prepare_cosmic.py‎
Lines changed: 36 additions & 18 deletions
diff --git a/‎datasources/exac/expand_exac.py‎
Lines changed: 19 additions & 8 deletions b/‎datasources/exac/expand_exac.py‎
Lines changed: 19 additions & 8 deletions
@@ -3,37 +3,58 @@
 
 
 def get_set_difference(case_series, comparison_series, column_name):
-	new_members = case_series.difference(comparison_series)
-	return pandas.Series(new_members, name=column_name)
+    new_members = case_series.difference(comparison_series)
+    return pandas.Series(new_members, name=column_name)
 
 
 def read_file(file, column_name):
-	dataframe = pandas.read_csv(file, sep='\t', usecols=[column_name])
-	return dataframe.set_index(column_name).index
+    dataframe = pandas.read_csv(file, sep="\t", usecols=[column_name])
+    return dataframe.set_index(column_name).index
 
 
 def write_file(dataframe, output_name):
-	dataframe.to_csv(output_name, sep='\t', index=False)
+    dataframe.to_csv(output_name, sep="\t", index=False)
 
 
 if __name__ == "__main__":
-	description = "Identify genes added and removed between versions of Cancer Gene Census"
-	arg_parser = argparse.ArgumentParser(prog='diff versions', description=description)
-	arg_parser.add_argument('--old_version', '-o', help='input file, old version of datasource', required=True)
-	arg_parser.add_argument('--new_version', '-n', help='input file, new version of datasource', required=True)
-	arg_parser.add_argument('--gene_column_name', '-g', help='column which contains gene names', default="Gene Symbol")
-	args = arg_parser.parse_args()
-
-	old = read_file(args.old_version, args.gene_column_name)
-	new = read_file(args.new_version, args.gene_column_name)
-
-	removals = get_set_difference(old, new, args.gene_column_name)
-	additions = get_set_difference(new, old, args.gene_column_name)
-
-	print(f"{len(removals)} genes have been removed between {args.old_version} and {args.new_version}")
-	print(f"{', '.join(removals.tolist())}")
-	print('')
-
-	print(f"{len(additions)} new genes appear in {args.new_version} that were not present in {args.old_version}")
-	print(f"{', '.join(additions.tolist())}")
-	print('')
+    description = (
+        "Identify genes added and removed between versions of Cancer Gene Census"
+    )
+    arg_parser = argparse.ArgumentParser(prog="diff versions", description=description)
+    arg_parser.add_argument(
+        "--old_version",
+        "-o",
+        help="input file, old version of datasource",
+        required=True,
+    )
+    arg_parser.add_argument(
+        "--new_version",
+        "-n",
+        help="input file, new version of datasource",
+        required=True,
+    )
+    arg_parser.add_argument(
+        "--gene_column_name",
+        "-g",
+        help="column which contains gene names",
+        default="Gene Symbol",
+    )
+    args = arg_parser.parse_args()
+
+    old = read_file(args.old_version, args.gene_column_name)
+    new = read_file(args.new_version, args.gene_column_name)
+
+    removals = get_set_difference(old, new, args.gene_column_name)
+    additions = get_set_difference(new, old, args.gene_column_name)
+
+    print(
+        f"{len(removals)} genes have been removed between {args.old_version} and {args.new_version}"
+    )
+    print(f"{', '.join(removals.tolist())}")
+    print("")
+
+    print(
+        f"{len(additions)} new genes appear in {args.new_version} that were not present in {args.old_version}"
+    )
+    print(f"{', '.join(additions.tolist())}")
+    print("")
@@ -3,19 +3,26 @@
 
 
 def read_file(file, column_name):
-	return pandas.read_csv(file, sep='\t', usecols=[column_name])
+    return pandas.read_csv(file, sep="\t", usecols=[column_name])
 
 
 def write_file(dataframe, output_name):
-	dataframe.to_csv(output_name, sep='\t', index=False)
+    dataframe.to_csv(output_name, sep="\t", index=False)
 
 
 if __name__ == "__main__":
-	arg_parser = argparse.ArgumentParser(prog='extract genes', description='Extract genes from tab separated values.')
-	arg_parser.add_argument('--input', '-i', help='input file', required=True)
-	arg_parser.add_argument('--output', '-o', help='output file', required=True)
-	arg_parser.add_argument('--gene_column_name', '-g', help='column which contains gene names', default="Gene Symbol")
-	args = arg_parser.parse_args()
+    arg_parser = argparse.ArgumentParser(
+        prog="extract genes", description="Extract genes from tab separated values."
+    )
+    arg_parser.add_argument("--input", "-i", help="input file", required=True)
+    arg_parser.add_argument("--output", "-o", help="output file", required=True)
+    arg_parser.add_argument(
+        "--gene_column_name",
+        "-g",
+        help="column which contains gene names",
+        default="Gene Symbol",
+    )
+    args = arg_parser.parse_args()
 
-	df = read_file(args.input, args.gene_column_name)
-	df.to_csv(args.output, sep='\t', index=False)
+    df = read_file(args.input, args.gene_column_name)
+    df.to_csv(args.output, sep="\t", index=False)
@@ -1,21 +1,27 @@
 import pandas as pd
-df2_cols = ['Gene', 'Residue', 'p-value', 'Class']
-df5_cols = ['Gene', 'Reference amino acid', 'Variant amino acid', 'Amino_Acid_Position']
-df2 = pd.read_csv('3d_hotspots_T2.txt', sep='\t', usecols = df2_cols)
-df5 = pd.read_csv('3d_hotspots_T5.txt', sep = '\t', usecols = df5_cols)
 
-df5['Residue'] = df5.loc[:,'Reference amino acid'] + df5.loc[:,'Amino_Acid_Position'].astype(str)
-df5['alteration'] = 'p.' + df5.loc[:,'Reference amino acid'] + df5.loc[:,'Amino_Acid_Position'].astype(str) + df5.loc[:,'Variant amino acid']
-df5 = df5.drop(['Reference amino acid', 'Variant amino acid', 'Amino_Acid_Position'], axis = 1)
+df2_cols = ["Gene", "Residue", "p-value", "Class"]
+df5_cols = ["Gene", "Reference amino acid", "Variant amino acid", "Amino_Acid_Position"]
+df2 = pd.read_csv("3d_hotspots_T2.txt", sep="\t", usecols=df2_cols)
+df5 = pd.read_csv("3d_hotspots_T5.txt", sep="\t", usecols=df5_cols)
 
-df = pd.merge(df2, df5, on=['Gene', 'Residue'], how='left')
+df5["Residue"] = df5.loc[:, "Reference amino acid"] + df5.loc[
+    :, "Amino_Acid_Position"
+].astype(str)
+df5["alteration"] = (
+    "p."
+    + df5.loc[:, "Reference amino acid"]
+    + df5.loc[:, "Amino_Acid_Position"].astype(str)
+    + df5.loc[:, "Variant amino acid"]
+)
+df5 = df5.drop(
+    ["Reference amino acid", "Variant amino acid", "Amino_Acid_Position"], axis=1
+)
 
-class_map = {
-    'Cluster-exclusive': 1,
-    'Hotspot-linked': 2,
-    'Hotspot': 3
-}
+df = pd.merge(df2, df5, on=["Gene", "Residue"], how="left")
 
-df['cancerhotspots3D_bin'] = df['Class'].map(class_map)
+class_map = {"Cluster-exclusive": 1, "Hotspot-linked": 2, "Hotspot": 3}
 
-df.to_csv('hotspots3d.txt', sep = '\t', index = False)
+df["cancerhotspots3D_bin"] = df["Class"].map(class_map)
+
+df.to_csv("hotspots3d.txt", sep="\t", index=False)
@@ -2,14 +2,14 @@
 import argparse
 
 COLUMNS = [
-    'GeneSymbol',
-    'Chromosome',
-    'Start',
-    'Stop',
-    'ReferenceAllele',
-    'AlternateAllele',
-    'ClinicalSignificance',
-    'ClinSigSimple'
+    "GeneSymbol",
+    "Chromosome",
+    "Start",
+    "Stop",
+    "ReferenceAllele",
+    "AlternateAllele",
+    "ClinicalSignificance",
+    "ClinSigSimple",
 ]
 
 
@@ -18,24 +18,32 @@ def create_output_filename(date):
 
 
 def read_file(file, relevant_columns):
-    return pandas.read_csv(file, sep='\t', usecols=relevant_columns, low_memory=False)
+    return pandas.read_csv(file, sep="\t", usecols=relevant_columns, low_memory=False)
 
 
 def write_file(dataframe, date):
     output_name = create_output_filename(date)
-    dataframe.to_csv(output_name, sep='\t', index=False)
+    dataframe.to_csv(output_name, sep="\t", index=False)
 
 
 if __name__ == "__main__":
-    parser = argparse.ArgumentParser(prog='prepare clinvar', description='Prepare ClinVar for use with MOAlmanac')
-    parser.add_argument('--input', '-i', help='input file, CosmicMutantExport.tsv', required=True)
-    parser.add_argument('--date', '-d', help='date of access; e.g. 2023-03-09', required=True)
+    parser = argparse.ArgumentParser(
+        prog="prepare clinvar", description="Prepare ClinVar for use with MOAlmanac"
+    )
+    parser.add_argument(
+        "--input", "-i", help="input file, CosmicMutantExport.tsv", required=True
+    )
+    parser.add_argument(
+        "--date", "-d", help="date of access; e.g. 2023-03-09", required=True
+    )
     args = parser.parse_args()
 
     df = read_file(args.input, COLUMNS)
     df.drop_duplicates(inplace=True)
     write_file(df, args.date)
 
-    gene_count = df['GeneSymbol'].drop_duplicates().shape[0]
+    gene_count = df["GeneSymbol"].drop_duplicates().shape[0]
     total_count = df.shape[0]
-    print(f"As of {args.date}, ClinVar contains {gene_count} genes and {total_count} variants.")
+    print(
+        f"As of {args.date}, ClinVar contains {gene_count} genes and {total_count} variants."
+    )
@@ -3,30 +3,48 @@
 
 
 def create_output_filename(version):
-	return f"CosmicMutantExport_{version}.lite.txt"
+    return f"CosmicMutantExport_{version}.lite.txt"
 
 
 def read_file(file, relevant_columns):
-	return pandas.read_csv(file, sep='\t', usecols=relevant_columns)
+    return pandas.read_csv(file, sep="\t", usecols=relevant_columns)
 
 
 def write_file(dataframe, version):
-	output_name = f"CosmicMutantExport_{version}.lite.txt"
-	dataframe.to_csv(output_name, sep='\t', index=False)
+    output_name = f"CosmicMutantExport_{version}.lite.txt"
+    dataframe.to_csv(output_name, sep="\t", index=False)
 
 
 if __name__ == "__main__":
-	parser = argparse.ArgumentParser(prog='prepare COSMIC', description='Prepare COSMIC for use with MOAlmanac')
-	parser.add_argument('--input', '-i', help='input file, CosmicMutantExport.tsv', required=True)
-	parser.add_argument('--version', '-v', help='input file version; e.g., v97', required=True)
-	parser.add_argument('--gene_column_name', '-g', help='column that contains gene names', default="Gene name")
-	parser.add_argument('--protein_column_name', '-p', help='column that contains protein changes', default="Mutation AA")
-	args = parser.parse_args()
-
-	df = read_file(args.input, [args.gene_column_name, args.protein_column_name])
-	df.drop_duplicates(inplace=True)
-	write_file(df, args.version)
-
-	gene_count = df[args.gene_column_name].drop_duplicates().shape[0]
-	total_count = df.shape[0]
-	print(f"COSMIC {args.version} contains {gene_count} genes and {total_count} protein changes")
+    parser = argparse.ArgumentParser(
+        prog="prepare COSMIC", description="Prepare COSMIC for use with MOAlmanac"
+    )
+    parser.add_argument(
+        "--input", "-i", help="input file, CosmicMutantExport.tsv", required=True
+    )
+    parser.add_argument(
+        "--version", "-v", help="input file version; e.g., v97", required=True
+    )
+    parser.add_argument(
+        "--gene_column_name",
+        "-g",
+        help="column that contains gene names",
+        default="Gene name",
+    )
+    parser.add_argument(
+        "--protein_column_name",
+        "-p",
+        help="column that contains protein changes",
+        default="Mutation AA",
+    )
+    args = parser.parse_args()
+
+    df = read_file(args.input, [args.gene_column_name, args.protein_column_name])
+    df.drop_duplicates(inplace=True)
+    write_file(df, args.version)
+
+    gene_count = df[args.gene_column_name].drop_duplicates().shape[0]
+    total_count = df.shape[0]
+    print(
+        f"COSMIC {args.version} contains {gene_count} genes and {total_count} protein changes"
+    )
@@ -2,21 +2,32 @@
 import argparse
 
 parser = argparse.ArgumentParser()
-parser.add_argument('--exac', help='Tab delimited ExAC', required=True)
+parser.add_argument("--exac", help="Tab delimited ExAC", required=True)
 args = parser.parse_args()
 
-exac = pd.read_csv(args.exac, sep='\t', low_memory=False)
+exac = pd.read_csv(args.exac, sep="\t", low_memory=False)
 
-cols = ['ALT', 'AF', 'AC', 'AC_AFR', 'AC_AMR', 'AC_EAS', 'AC_FIN', 'AC_NFE', 'AC_OTH', 'AC_SAS']
+cols = [
+    "ALT",
+    "AF",
+    "AC",
+    "AC_AFR",
+    "AC_AMR",
+    "AC_EAS",
+    "AC_FIN",
+    "AC_NFE",
+    "AC_OTH",
+    "AC_SAS",
+]
 fillcols = list(set(exac.columns.tolist()) - set(cols))
 
-idx = exac['ALT'].astype(str).str.contains(',')
+idx = exac["ALT"].astype(str).str.contains(",")
 idx_multiallele = exac[idx].index
 idx_singleallele = exac[~idx].index
 
 expanded_list = []
 for i in idx_multiallele:
-    expand = exac.loc[i, cols].str.split(',', expand=True).T
+    expand = exac.loc[i, cols].str.split(",", expand=True).T
     fill = pd.DataFrame(exac.loc[i, fillcols]).T.reset_index(drop=True)
     for j in expand.index[1:]:
         fill = fill.append(exac.loc[i, fillcols], ignore_index=True)
@@ -26,6 +37,6 @@
 
 df = pd.concat([exac.loc[idx_singleallele, :], expanded_exac], ignore_index=True)
 
-mincols = ['CHROM', 'POS', 'REF', 'ALT', 'QUAL', 'AF', 'AC', 'AN']
-df.to_csv('exac.expanded.r1.txt', sep='\t', index=False)
-df.loc[:, mincols].to_csv('exac.expanded.min.r1.txt', sep='\t', index=False)
+mincols = ["CHROM", "POS", "REF", "ALT", "QUAL", "AF", "AC", "AN"]
+df.to_csv("exac.expanded.r1.txt", sep="\t", index=False)
+df.loc[:, mincols].to_csv("exac.expanded.min.r1.txt", sep="\t", index=False)