WIP still

kcotto · kcotto · commit 1e1f7cda01db · 2022-10-10T18:00:06.000-05:00
diff --git a/scripts/compare_junctions_hist.py b/scripts/compare_junctions_hist.py
@@ -13,18 +13,28 @@
 samples_inputfile = '/Users/kcotto/Desktop/CHOL/dir_names.tsv'
 
 # read in all splicing variants
-all_splicing_variants = pd.read_csv(splicing_variants_inputfile, delimiter='\t', header=0)
+all_splicing_variants = pd.read_csv(
+    splicing_variants_inputfile, delimiter='\t', header=0)
 
 # create key to match regtools variant_info column and key2 that is the same as key but with sample name added
+
+
 def createkey(row):
     key = row[0] + ':' + str(row[1]) + '-' + str(row[2])
     return key
-all_splicing_variants['key'] = all_splicing_variants.apply(lambda row: createkey(row), axis=1)
+
+
+all_splicing_variants['key'] = all_splicing_variants.apply(
+    lambda row: createkey(row), axis=1)
+
 
 def createkey(row):
     key = row[0] + ':' + str(row[1]) + '-' + str(row[2]) + '_' + row[3]
     return key
-all_splicing_variants['key2'] = all_splicing_variants.apply(lambda row: createkey(row), axis=1)
+
+
+all_splicing_variants['key2'] = all_splicing_variants.apply(
+    lambda row: createkey(row), axis=1)
 
 # read in the sample names
 all_samples = []
@@ -45,9 +55,11 @@ def createkey(row):
     print(f'Reading in {sample}')
     df = pd.read_csv(path, delimiter='\t', header=0)
     df['sample'] = sample
-    df = df[['sample', 'variant_info', 'chrom', 'start', 'end', 'strand', 'anchor', 'score', 'name', 'genes']]
+    df = df[['sample', 'variant_info', 'chrom', 'start',
+             'end', 'strand', 'anchor', 'score', 'name', 'genes']]
     df = df.dropna(subset=['variant_info'])
-    df = df.set_index(['sample', 'chrom', 'start', 'end', 'strand', 'anchor', 'score', 'name', 'genes']).apply(lambda x: x.str.split(',').explode()).reset_index()
+    df = df.set_index(['sample', 'chrom', 'start', 'end', 'strand', 'anchor', 'score',
+                      'name', 'genes']).apply(lambda x: x.str.split(',').explode()).reset_index()
     df = df.loc[df['variant_info'].isin(all_splicing_variants['key'])]
     dfs.append(df)
 
@@ -57,84 +69,155 @@ def createkey(row):
 del dfs
 
 # create various keys
+
+
 def createkey(row):
-    key = row[1] + '_' + str(row[2]) + '_' + str(row[3]) + '_' + row[5] + '_' + row[9]
+    key = row[1] + '_' + str(row[2]) + '_' + \
+        str(row[3]) + '_' + row[5] + '_' + row[9]
     return key
+
+
 master_df['info'] = master_df.apply(lambda row: createkey(row), axis=1)
 
+
 def createkey(row):
     key = row[9] + '_' + row[0]
     return key
+
+
 master_df['key'] = master_df.apply(lambda row: createkey(row), axis=1)
 
+
 def createkey(row):
     key = row[1] + '_' + str(row[2]) + '_' + str(row[3])
     return key
+
+
 master_df['junction'] = master_df.apply(lambda row: createkey(row), axis=1)
 
 # subset data to work on samples with splicing variant of interest
-samples_w_variant_df = master_df.loc[master_df['key'].isin(all_splicing_variants['key2'])]
+samples_w_variant_df = master_df.loc[master_df['key'].isin(
+    all_splicing_variants['key2'])]
 # print(samples_w_variant_df.info(verbose=True))
 
 # start performing the calculations for this subset of data
-print('Calculating for samples with variants of interest')
-mode = 'blah'
-print(samples_w_variant_df.head(10))
+print('Calculating normalized scores for samples with variants of interest')
+mode = 'strict'
 if mode == 'group':
     samples_w_variant_df = (samples_w_variant_df >>
-                        group_by(X.key) >>
-                        summarize(score_tmp = X.score.sum()) >>
-                        outer_join(samples_w_variant_df, by='key')
-                        )
-    samples_w_variant_df['norm_score'] = samples_w_variant_df['score']/samples_w_variant_df['score_tmp']
+                            group_by(X.key) >>
+                            summarize(score_tmp=X.score.sum()) >>
+                            outer_join(samples_w_variant_df, by='key')
+                            )
+    samples_w_variant_df['norm_score'] = samples_w_variant_df['score'] / \
+        samples_w_variant_df['score_tmp']
     samples_w_variant_df = (samples_w_variant_df >>
-                        group_by('junction') >>
-                        summarize(mean_norm_score_variant=X.norm_score.mean(), sd_norm_score_variant=X.norm_score.std(), total_score_variant=X.score.sum()) >>
-                        outer_join(samples_w_variant_df, by='junction')
-                        )
-    tmp_df = samples_w_variant_df.groupby('junction')[['norm_score', 'score', 'variant_info', 'sample', 'name', 'info']].aggregate(lambda x: x.tolist()).reset_index()
-    samples_w_variant_df = pd.merge(samples_w_variant_df, tmp_df, on='junction')
+                            group_by('junction') >>
+                            summarize(mean_norm_score_variant=X.norm_score.mean(), sd_norm_score_variant=X.norm_score.std(), total_score_variant=X.score.sum()) >>
+                            outer_join(samples_w_variant_df, by='junction')
+                            )
+    tmp_df = samples_w_variant_df.groupby('junction')[
+        ['norm_score', 'score', 'variant_info', 'sample', 'name']].aggregate(lambda x: x.tolist()).reset_index()
+    samples_w_variant_df = pd.merge(
+        samples_w_variant_df, tmp_df, on='junction')
     samples_w_variant_df = samples_w_variant_df[['sample_y', 'variant_info_y', 'chrom', 'start', 'end', 'strand', 'anchor',
-                                             'info_y', 'genes', 'name_y', 'mean_norm_score_variant', 'sd_norm_score_variant',
-                                             'norm_score_y', 'score_y', 'junction', 'total_score_variant']]
+                                                 'info', 'genes', 'name_y', 'mean_norm_score_variant', 'sd_norm_score_variant',
+                                                 'norm_score_y', 'score_y', 'junction', 'total_score_variant']]
     samples_w_variant_df.columns = ['samples', 'variant_info', 'chrom', 'start', 'end', 'strand', 'anchor',
-                                             'info', 'genes', 'names', 'mean_norm_score_variant', 'sd_norm_score_variant',
-                                             'norm_scores_variant', 'scores', 'junction', 'total_score_variant']
-    samples_w_variant_df = samples_w_variant_df.astype(str).drop_duplicates()
+                                    'info', 'genes', 'names', 'mean_norm_score_variant', 'sd_norm_score_variant',
+                                    'norm_scores_variant', 'scores', 'junction', 'total_score_variant']
+    samples_w_variant_df = samples_w_variant_df[~samples_w_variant_df.astype(
+        str).duplicated()]
 else:
     samples_w_variant_df = (samples_w_variant_df >>
                             group_by(X.key) >>
-                            summarize(score_tmp = X.score.sum()) >>
+                            summarize(score_tmp=X.score.sum()) >>
                             outer_join(samples_w_variant_df, by='key')
                             )
-    samples_w_variant_df['norm_score'] = samples_w_variant_df['score']/samples_w_variant_df['score_tmp']
+    samples_w_variant_df['norm_score'] = samples_w_variant_df['score'] / \
+        samples_w_variant_df['score_tmp']
     samples_w_variant_df = (samples_w_variant_df >>
-                        group_by('info') >>
-                        summarize(mean_norm_score_variant=X.norm_score.mean(), sd_norm_score_variant=X.norm_score.std(), total_score_variant=X.score.sum()) >>
-                        outer_join(samples_w_variant_df, by='info')
-                        )
-    tmp_df = samples_w_variant_df.groupby('info')[['norm_score', 'score', 'sd_norm_score_variant', 'mean_norm_score_variant', 'sample', 'name']].aggregate(lambda x: x.tolist()).reset_index()
+                            group_by('info') >>
+                            summarize(mean_norm_score_variant=X.norm_score.mean(), sd_norm_score_variant=X.norm_score.std(), total_score_variant=X.score.sum()) >>
+                            outer_join(samples_w_variant_df, by='info')
+                            )
+    tmp_df = samples_w_variant_df.groupby('info')[['norm_score', 'score', 'sd_norm_score_variant',
+                                                   'mean_norm_score_variant', 'sample', 'name']].aggregate(lambda x: x.tolist()).reset_index()
     samples_w_variant_df = pd.merge(samples_w_variant_df, tmp_df, on='info')
     samples_w_variant_df = samples_w_variant_df[['sample_y', 'variant_info', 'chrom', 'start', 'end', 'strand', 'anchor',
-                                             'info', 'genes', 'name_y', 'mean_norm_score_variant_y', 'sd_norm_score_variant_y',
-                                             'norm_score_y', 'score_y', 'junction', 'total_score_variant']]
+                                                 'info', 'genes', 'name_y', 'mean_norm_score_variant_y', 'sd_norm_score_variant_y',
+                                                 'norm_score_y', 'score_y', 'junction', 'total_score_variant']]
     samples_w_variant_df.columns = ['samples', 'variant_info', 'chrom', 'start', 'end', 'strand', 'anchor',
-                                             'info', 'genes', 'names', 'mean_norm_score_variant', 'sd_norm_score_variant',
-                                             'norm_scores_variant', 'scores', 'junction', 'total_score_variant']
+                                    'info', 'genes', 'names', 'mean_norm_score_variant', 'sd_norm_score_variant',
+                                    'norm_scores_variant', 'scores', 'junction', 'total_score_variant']
+    samples_w_variant_df = samples_w_variant_df[~samples_w_variant_df.astype(
+        str).duplicated()]
 
 # work on samples that don't have the variant of interest
+print('Calculating normalized scores for samples without variants of interest')
+samples_wout_variant_df = master_df[~master_df['key'].isin(
+    all_splicing_variants['key2'])]
+del (master_df)
 
-samples_wout_variant_df = master_df[-master_df['key'].isin(all_splicing_variants['key2'])]
-samples_wout_variant_df = (samples_wout_variant_df >>
-                        group_by(X.key) >>
-                        summarize(score_tmp = X.score.sum()) >>
-                        outer_join(samples_wout_variant_df, by='key')
-                        )
-samples_wout_variant_df['norm_score'] = samples_wout_variant_df['score']/samples_wout_variant_df['score_tmp']
-
-mode = 'strict' #others include 'exclude' and 'group'
-
+# mode = 'strict' #others include 'exclude' and 'group'
 # if mode == 'strict':
-    
-
+samples_wout_variant_df = (samples_wout_variant_df >>
+                           group_by(X.key) >>
+                           summarize(score_tmp=X.score.sum()) >>
+                           outer_join(samples_wout_variant_df, by='key')
+                           )
+samples_wout_variant_df['norm_score'] = samples_wout_variant_df['score'] / \
+    samples_wout_variant_df['score_tmp']
+samples_wout_variant_df = samples_wout_variant_df.loc[samples_wout_variant_df['variant_info'].isin(
+    all_splicing_variants['key'])]
+tmp_df = samples_wout_variant_df.groupby(
+    'info')[['norm_score']].aggregate(lambda x: x.tolist()).reset_index()
+samples_wout_variant_df = pd.merge(samples_wout_variant_df, tmp_df, on='info')
+samples_wout_variant_df['samples_wout_variant_count'] = samples_wout_variant_df['norm_score_y'].astype(
+    str).str.count(',') + 1
+if mode == 'group' or mode == 'exclude':
+    samples_wout_variant_df = samples_wout_variant_df[~samples_wout_variant_df['junction'].isin(
+        samples_w_variant_df['junction'])]
+    tmp_df = samples_wout_variant_df.groupby(
+        'info')[['norm_score_x']].aggregate(lambda x: x.tolist()).reset_index()
+    samples_wout_variant_df = pd.merge(
+        samples_wout_variant_df, tmp_df, on='info')
+    samples_wout_variant_df = (samples_wout_variant_df >>
+                           group_by('info') >>
+                           summarize(total_score_non=X.score.sum()) >>
+                           outer_join(samples_wout_variant_df, by='info')
+                           )
+    samples_wout_variant_df = samples_wout_variant_df[['sample', 'variant_info', 'chrom', 'start', 'end', 'strand', 'anchor',
+                                                       'info', 'genes', 'name', 'norm_score_x_y', 'junction', 'total_score_non', 'samples_wout_variant_count']]
+else:
+    samples_wout_variant_df = (samples_wout_variant_df >>
+                           group_by('info') >>
+                           summarize(total_score_non=X.score.sum()) >>
+                           outer_join(samples_wout_variant_df, by='info')
+                           )
+    samples_wout_variant_df = samples_wout_variant_df[['sample', 'variant_info', 'chrom', 'start', 'end', 'strand', 'anchor',
+                                                       'info', 'genes', 'name', 'norm_score_y', 'junction', 'total_score_non', 'samples_wout_variant_count']]
+samples_wout_variant_df.columns = ['sample', 'variant_info', 'chrom', 'start', 'end', 'strand', 'anchor',
+                                'info', 'genes', 'name', 'norm_scores_non', 'junction', 'total_score_non', 'samples_wout_variant_count']
+
+print('Merging dataframes')
+# samples_w_variant_df['samples'] = samples_w_variant_df['samples'].astype(str)
+# samples_w_variant_df['variant_info'] = samples_w_variant_df['variant_info'].astype(str)
+samples_w_variant_df['info'] = samples_w_variant_df['info'].astype(str)
+# samples_w_variant_df['names'] = samples_w_variant_df['names'].astype(str)
+# samples_w_variant_df['norm_scores_variant'] = samples_w_variant_df['norm_scores_variant'].astype(str)
+# samples_w_variant_df['scores'] = samples_w_variant_df['scores'].astype(str)
+# samples_wout_variant_df['norm_scores_non'] = samples_wout_variant_df['norm_scores_non'].astype(str)
+samples_wout_variant_df['info'] = samples_wout_variant_df['info'].astype(str)
+master_df = pd.merge(samples_w_variant_df, samples_wout_variant_df, how='outer' ,on='info')
+del(samples_wout_variant_df)
+del(samples_w_variant_df)
+
+master_df['samples_w_variant_count'] = master_df['norm_score_y'].astype(
+    str).str.count(',') + 1
 
+samples_wout_variant_df = (samples_wout_variant_df >>
+                           group_by('info') >>
+                           summarize(mean_norm_score_non=X.norm_score.mean(), sd_norm_score_non=X.norm_score.std(), total_score_non=X.score.sum()) >>
+                           outer_join(samples_wout_variant_df, by='info')
+                           )