first part working for new python script

kcotto · kcotto · commit 0a230c429eae · 2022-10-07T11:53:49.000-05:00
diff --git a/scripts/compare_junctions_hist.py b/scripts/compare_junctions_hist.py
@@ -14,7 +14,6 @@
 
 # read in all splicing variants
 all_splicing_variants = pd.read_csv(splicing_variants_inputfile, delimiter='\t', header=0)
-# print(all_splicing_variants.head(20))
 
 # create key to match regtools variant_info column and key2 that is the same as key but with sample name added
 def createkey(row):
@@ -47,22 +46,15 @@ def createkey(row):
     df = pd.read_csv(path, delimiter='\t', header=0)
     df['sample'] = sample
     df = df[['sample', 'variant_info', 'chrom', 'start', 'end', 'strand', 'anchor', 'score', 'name', 'genes']]
-    # print(df.info(verbose=True))
     df = df.dropna(subset=['variant_info'])
-    # print(df.info(verbose=True))
     df = df.set_index(['sample', 'chrom', 'start', 'end', 'strand', 'anchor', 'score', 'name', 'genes']).apply(lambda x: x.str.split(',').explode()).reset_index()
-    # print(df.info(verbose=True))
-    # print(df.head(20))
-    # print(all_splicing_variants.head(20))
     df = df.loc[df['variant_info'].isin(all_splicing_variants['key'])]
-    # print(df.info(verbose=True))
     dfs.append(df)
 
 # concat all individual dfs into one df
 print("Concatenating each sample's df together")
 master_df = pd.concat(dfs, axis=0, ignore_index=True)
 del dfs
-# print(master_df.info(verbose=True))
 
 # create various keys
 def createkey(row):
@@ -76,47 +68,59 @@ def createkey(row):
 master_df['key'] = master_df.apply(lambda row: createkey(row), axis=1)
 
 def createkey(row):
-    key = row[1] + '_' + str(row[2]) + '_' + str(row[3]) + '_' + row[0]
+    key = row[1] + '_' + str(row[2]) + '_' + str(row[3])
     return key
 master_df['junction'] = master_df.apply(lambda row: createkey(row), axis=1)
-# print(master_df.info(verbose=True))
 
+# subset data to work on samples with splicing variant of interest
 samples_w_variant_df = master_df.loc[master_df['key'].isin(all_splicing_variants['key2'])]
 # print(samples_w_variant_df.info(verbose=True))
 
 # start performing the calculations for this subset of data
 print('Calculating for samples with variants of interest')
+mode = 'blah'
 print(samples_w_variant_df.head(10))
-samples_w_variant_df = (samples_w_variant_df >>
+if mode == 'group':
+    samples_w_variant_df = (samples_w_variant_df >>
                         group_by(X.key) >>
                         summarize(score_tmp = X.score.sum()) >>
                         outer_join(samples_w_variant_df, by='key')
                         )
-samples_w_variant_df['norm_score'] = samples_w_variant_df['score']/samples_w_variant_df['score_tmp']
-# tmp_df = samples_w_variant_df.groupby('info')['norm_score'].agg([np.mean, np.std])
-samples_w_variant_df = (samples_w_variant_df >>
+    samples_w_variant_df['norm_score'] = samples_w_variant_df['score']/samples_w_variant_df['score_tmp']
+    samples_w_variant_df = (samples_w_variant_df >>
+                        group_by('junction') >>
+                        summarize(mean_norm_score_variant=X.norm_score.mean(), sd_norm_score_variant=X.norm_score.std(), total_score_variant=X.score.sum()) >>
+                        outer_join(samples_w_variant_df, by='junction')
+                        )
+    tmp_df = samples_w_variant_df.groupby('junction')[['norm_score', 'score', 'variant_info', 'sample', 'name', 'info']].aggregate(lambda x: x.tolist()).reset_index()
+    samples_w_variant_df = pd.merge(samples_w_variant_df, tmp_df, on='junction')
+    samples_w_variant_df = samples_w_variant_df[['sample_y', 'variant_info_y', 'chrom', 'start', 'end', 'strand', 'anchor',
+                                             'info_y', 'genes', 'name_y', 'mean_norm_score_variant', 'sd_norm_score_variant',
+                                             'norm_score_y', 'score_y', 'junction', 'total_score_variant']]
+    samples_w_variant_df.columns = ['samples', 'variant_info', 'chrom', 'start', 'end', 'strand', 'anchor',
+                                             'info', 'genes', 'names', 'mean_norm_score_variant', 'sd_norm_score_variant',
+                                             'norm_scores_variant', 'scores', 'junction', 'total_score_variant']
+    samples_w_variant_df = samples_w_variant_df.astype(str).drop_duplicates()
+else:
+    samples_w_variant_df = (samples_w_variant_df >>
+                            group_by(X.key) >>
+                            summarize(score_tmp = X.score.sum()) >>
+                            outer_join(samples_w_variant_df, by='key')
+                            )
+    samples_w_variant_df['norm_score'] = samples_w_variant_df['score']/samples_w_variant_df['score_tmp']
+    samples_w_variant_df = (samples_w_variant_df >>
                         group_by('info') >>
                         summarize(mean_norm_score_variant=X.norm_score.mean(), sd_norm_score_variant=X.norm_score.std(), total_score_variant=X.score.sum()) >>
                         outer_join(samples_w_variant_df, by='info')
                         )
-# samples_w_variant_df = (samples_w_variant_df >>
-#                         group_by(X.info) >>
-#                         summarize_each([np.mean, np.std], X.norm_score) >>
-#                         outer_join(samples_w_variant_df, by='info')
-#                         )
-print(samples_w_variant_df.head(10))
-tmp_df = samples_w_variant_df.groupby('info')[['norm_score', 'score', 'sd_norm_score_variant', 'mean_norm_score_variant', 'sample']].aggregate(lambda x: x.tolist()).reset_index()
-samples_w_variant_df = pd.merge(samples_w_variant_df, tmp_df, on='info')
-samples_w_variant_df = samples_w_variant_df[['sample_y', 'variant_info', 'chrom', 'start', 'end', 'strand', 'anchor',
-                                             'info', 'genes', 'name', 'mean_norm_score_variant_y', 'sd_norm_score_variant_y',
+    tmp_df = samples_w_variant_df.groupby('info')[['norm_score', 'score', 'sd_norm_score_variant', 'mean_norm_score_variant', 'sample', 'name']].aggregate(lambda x: x.tolist()).reset_index()
+    samples_w_variant_df = pd.merge(samples_w_variant_df, tmp_df, on='info')
+    samples_w_variant_df = samples_w_variant_df[['sample_y', 'variant_info', 'chrom', 'start', 'end', 'strand', 'anchor',
+                                             'info', 'genes', 'name_y', 'mean_norm_score_variant_y', 'sd_norm_score_variant_y',
                                              'norm_score_y', 'score_y', 'junction', 'total_score_variant']]
-samples_w_variant_df.columns = ['samples', 'variant_info', 'chrom', 'start', 'end', 'strand', 'anchor',
-                                             'info', 'genes', 'name', 'mean_norm_score_variant', 'sd_norm_score_variant',
-                                             'norm_scores_variant', 'scores', 'junction_key', 'total_score_variant']
-# samples_w_variant_df['mean_norm_score_variant'] = samples_w_variant_df.groupby(['sample', 'variant_info', 'chrom', 'start', 'end', 'strand', 'anchor', 'info']).score_norm.mean().reset_index()
-# samples_w_variant_df['sd_norm_score_variant'] = samples_w_variant_df.groupby(['sample', 'variant_info', 'chrom', 'start', 'end', 'strand', 'anchor', 'info']).score_norm.sd().reset_index()
-# samples_w_variant_df['total_score_variant'] = samples_w_variant_df.groupby(['variant_info', 'chrom', 'start', 'end', 'strand', 'anchor', 'info']).score.sum().reset_index()
-print(samples_w_variant_df.head(10))
+    samples_w_variant_df.columns = ['samples', 'variant_info', 'chrom', 'start', 'end', 'strand', 'anchor',
+                                             'info', 'genes', 'names', 'mean_norm_score_variant', 'sd_norm_score_variant',
+                                             'norm_scores_variant', 'scores', 'junction', 'total_score_variant']
 
 # work on samples that don't have the variant of interest
 
@@ -130,7 +134,7 @@ def createkey(row):
 
 mode = 'strict' #others include 'exclude' and 'group'
 
-if mode == 'strict':
+# if mode == 'strict':