v2.8.1

PhilippSpahn · PhilippSpahn · commit ccfee65fed06 · 2017-12-18T17:59:18.000-08:00
diff --git a/Scripts/AnalyzeControl.py b/Scripts/AnalyzeControl.py
@@ -95,17 +95,28 @@ def EstimateControlCounts():
         I = [i for i in range(L) if Mean[i]>0]        
         Mean0 = [Mean[i] for i in I]
         Var0 = [SampleVar[i] for i in I]
-        TestStat = scipy.stats.mannwhitneyu(Var0,Mean0,alternative='two-sided')
+        TestStat = scipy.stats.wilcoxon(Var0,Mean0)
         if TestStat[1] >= p_overdisp:
             Model = 'Poisson'
-            print('No overdispersion detected at p='+str(p_overdisp)+'. Choosing Poisson model ...')
-        TestStat = scipy.stats.mannwhitneyu(Var0,Mean0,alternative='greater')
-        if TestStat[1] < p_overdisp:
-            Model = 'Neg. Binomial'
-            print('Overdispersion detected at p='+str(TestStat[1])+'. Choosing negative binomial model ...')
+            print('Cannot reject equality of read count mean and variance (p='+str(p_overdisp)+'). Choosing Poisson model ...')
         else:
-            Model = 'none'
-            print('WARNING: Low variance in control samples! Cannot choose statistical model ...')            
+            # compute rank sums manually (** scipy does not allow one-sided Wilcoxon tests **)
+            I = [i for i in range(len(Mean0)) if Var0[i]!=Mean0[i]]
+            Mean00 = [Mean0[i] for i in I]
+            Var00 = [Var0[i] for i in I]
+            Delta = [numpy.abs(Var00[i]-Mean00[i]) for i in range(len(Mean00))]
+            sig = [1 if Var00[i]>Mean00[i] else -1 for i in range(len(Mean00))]
+            Ranks = scipy.stats.mstats.rankdata(Delta)
+            Ranks_pos = [Ranks[i] for i in range(len(Mean00)) if sig[i]>0]
+            Ranks_neg = [Ranks[i] for i in range(len(Mean00)) if sig[i]<0]
+            W_pos = sum(Ranks_pos)
+            W_neg = sum(Ranks_neg)
+            if W_pos > W_neg:
+                Model = 'Neg. Binomial'
+                print('Overdispersion detected at p='+str(TestStat[1])+'. Choosing negative binomial model ...')
+            else:
+                Model = 'Neg. Binomial'             # for lack of better choice...
+                print('WARNING: Low variance in control samples (underdispersion)!')            
 
 
     # -----------------------------------------------    
diff --git a/Scripts/BuildLibraryIndex.py b/Scripts/BuildLibraryIndex.py
@@ -47,12 +47,12 @@ def BuildBowtieIndex():
     os.chdir(LibDir)
     LibCols = ['gene','ID','seq']
     LibFile = pd.read_table(LibFilename, sep = libsep, skiprows = 1, names = LibCols)
-    seq = LibFile['seq'].values
-    IDs = LibFile['ID'].values    
+    seq = list(LibFile['seq'])
+    IDs = list(LibFile['ID'])    
     with open('library.fasta','w') as library_fasta:
         for k in range(len(IDs)):
-            library_fasta.write('>'+IDs[k]+'\n')
-            library_fasta.write(seq[k]+'\n')
+            library_fasta.write('>'+str(IDs[k])+'\n')
+            library_fasta.write(str(seq[k])+'\n')
     library_fasta.close()
     
     # ----------------------------------
diff --git a/Scripts/CombineGeneRanks.py b/Scripts/CombineGeneRanks.py
@@ -37,56 +37,57 @@ def GeneRankCombination(treatment):
     os.chdir(GeneDir)
     treatment_files = [f for f in os.listdir(GeneDir) if treatment in f\
         and metric in f and 'combined' not in f]
-    treatment_files.sort()
-    K = len(treatment_files)
-    ResultTable = pandas.DataFrame() 
-    X1 = pandas.read_table(treatment_files[0], sep='\t')
-    # Pre-process gene rank tables in case of STARS    
-    if metric == 'STARS':
-        # Compute consensus gene list (present in all replicates) 
-        print('Computing consensus gene list from STARS output ...')
-        Genes_0 = set(X1['gene'])
-        for treatment_file in treatment_files:
-            X = pandas.read_table(treatment_file, sep='\t')
-            Genes = set(X['gene'])
-            Genes_0 = Genes_0.intersection(Genes)
-        G = len(Genes_0)
-    else:
-        G = len(X1)        
-    # Read replicates
-    chi = list(numpy.zeros(G))    
-    k = 0    
-    for treatment_file in treatment_files:
-        k+=1   
-        print('Reading '+treatment+' replicate '+str(k)+' ...')            
-        X = pandas.read_table(treatment_file, sep='\t')
+    if len(treatment_files) > 1:
+        treatment_files.sort()
+        K = len(treatment_files)
+        ResultTable = pandas.DataFrame() 
+        X1 = pandas.read_table(treatment_files[0], sep='\t')
+        # Pre-process gene rank tables in case of STARS    
         if metric == 'STARS':
-            # use only genes from consensus list
-            I = [X[X['gene']==gene].index[0] for gene in Genes_0]
-            X0 = X.iloc[I]
-            X0.sort_values('gene',ascending=1)
+            # Compute consensus gene list (present in all replicates) 
+            print('Computing consensus gene list from STARS output ...')
+            Genes_0 = set(X1['gene'])
+            for treatment_file in treatment_files:
+                X = pandas.read_table(treatment_file, sep='\t')
+                Genes = set(X['gene'])
+                Genes_0 = Genes_0.intersection(Genes)
+            G = len(Genes_0)
         else:
-            X0 = X.sort_values('gene',ascending=1)    
-        genes = list(X0['gene'])
-        ResultTable['gene'] = genes
-        pval = list(X0['p_value (adj.)'])
-        ResultTable['p-value Repl. '+str(k)] = pval
-        ln_pval = [numpy.log(pval[i]+eps) for i in range(G)]
-        chi = numpy.add(chi,ln_pval)         
-    
-    # Combine p-values
-    print('Computing Fisher statistic ...')
-    chi = [-2*chi[i] for i in range(G)]
-    ResultTable['Fisher Statistic'] = chi
-    PVal = [1 - scipy.stats.chi2.cdf(chi[i],2*K) for i in range(G)]
-    ResultTable['p-value combined'] = PVal
-    significant = [PVal[i] < alpha for i in range(G)]
-    ResultTable['significant'] = significant
-    ResultTable = ResultTable.sort_values(['significant','p-value combined'],ascending=[0,1])
-    print('Writing results dataframe ...')
-    ResultFilename = treatment+'_combined_'+str(alpha)+'_'+str(padj)+'_'+str(metric)\
-        +'_P'+str(Np)+'_GeneList.txt'
-    ResultTable.to_csv(ResultFilename, sep = '\t', index = False)  
+            G = len(X1)        
+        # Read replicates
+        chi = list(numpy.zeros(G))    
+        k = 0    
+        for treatment_file in treatment_files:
+            k+=1   
+            print('Reading '+treatment+' replicate '+str(k)+' ...')            
+            X = pandas.read_table(treatment_file, sep='\t')
+            if metric == 'STARS':
+                # use only genes from consensus list
+                I = [X[X['gene']==gene].index[0] for gene in Genes_0]
+                X0 = X.iloc[I]
+                X0.sort_values('gene',ascending=1)
+            else:
+                X0 = X.sort_values('gene',ascending=1)    
+            genes = list(X0['gene'])
+            ResultTable['gene'] = genes
+            pval = list(X0['p_value (adj.)'])
+            ResultTable['p-value Repl. '+str(k)] = pval
+            ln_pval = [numpy.log(pval[i]+eps) for i in range(G)]
+            chi = numpy.add(chi,ln_pval)         
+        
+        # Combine p-values
+        print('Computing Fisher statistic ...')
+        chi = [-2*chi[i] for i in range(G)]
+        ResultTable['Fisher Statistic'] = chi
+        PVal = [1 - scipy.stats.chi2.cdf(chi[i],2*K) for i in range(G)]
+        ResultTable['p-value combined'] = PVal
+        significant = [PVal[i] < alpha for i in range(G)]
+        ResultTable['significant'] = significant
+        ResultTable = ResultTable.sort_values(['significant','p-value combined'],ascending=[0,1])
+        print('Writing results dataframe ...')
+        ResultFilename = treatment+'_combined_'+str(alpha)+'_'+str(padj)+'_'+str(metric)\
+            +'_P'+str(Np)+'_GeneList.txt'
+        ResultTable.to_csv(ResultFilename, sep = '\t', index = False)  
    
    # Time stamp
     end = time.time()
diff --git a/Scripts/PrintStatus.py b/Scripts/PrintStatus.py
@@ -12,7 +12,7 @@
 
 def PrintStatus_Header():
     print('**************************************************')
-    print('Launching PinAPL-Py v2.8..')
+    print('Launching PinAPL-Py v2.8.1')
     print('P. Spahn et al., UC San Diego (11/2017)')
     print('**************************************************')
     
@@ -73,4 +73,4 @@ def PrintStatus_TimeStamp(msg):
     elif input1 == 'AllDone':
         PrintStatus_AllDone()
     elif input1 == 'TimeStamp':
-        PrintStatus_TimeStamp(input2)        
+        PrintStatus_TimeStamp(input2)        
diff --git a/Scripts/RankGenes.py b/Scripts/RankGenes.py
@@ -239,7 +239,7 @@ def GeneRankingAnalysis(sample):
     global lfc; lfc = list(lfc_DF['lfc'])
     parjob = Parallel(n_jobs=num_cores)(delayed(AverageLogFC)(g) for g in range(G))      
     nGuides = [parjob[g][0] for g in range(G)]
-    AvgLogFCs = [parjob[g][1] for g in range(G)]   
+    AvgLogFC = [parjob[g][1] for g in range(G)]   
 
        
     # -------------------------------------------        
@@ -289,7 +289,7 @@ def GeneRankingAnalysis(sample):
             metric_sig = multTest[0]
             metric_pval0 = multTest[1]
         else: # no control replicates
-            print('### ERROR: Cannot compute aRRA scores without control replicates! ###')
+            print('### ERROR: Cannot compute aRRA scores without significant sgRNAs! ###')
             SortFlag = True
             metric = [-1 for k in range(G)]
             metric_pval = [-1 for k in range(G)]
@@ -334,11 +334,16 @@ def GeneRankingAnalysis(sample):
         STARS_output = glob.glob('counts_STARSOutput*.txt')[0]
         STARS = pandas.read_table(STARS_output, sep='\t')
         geneList_s = list(STARS['Gene Symbol'].values)
+        # Reduce gene list to genes reported by STARS
         G = len(geneList_s)
         s_index = [geneList.index(geneList_s[k]) for k in range(G)]
         geneList = geneList_s
         sigGuides_s = [sigGuides[s_index[k]] for k in range(G)]
         sigGuides = sigGuides_s
+        AvgLogFC_s = [AvgLogFC[s_index[k]] for k in range(G)]
+        AvgLogFC = AvgLogFC_s     
+        nGuides_s = [nGuides[s_index[k]] for k in range(G)]
+        nGuides = nGuides_s         
         metric = list(STARS['STARS Score'].values)
         metric_pval = list(STARS['p-value'].values)
         multTest = multipletests(metric_pval,alpha,padj)
@@ -353,7 +358,7 @@ def GeneRankingAnalysis(sample):
         # Run non-parametric permutation analysis 
         # -------------------------------------------------   
         SortFlag = False
-        metric = AvgLogFCs
+        metric = AvgLogFC
         # Compute permutations
         I_perm = numpy.random.choice(L,size=(Np,r),replace=False)
         metric_null = Parallel(n_jobs=num_cores)(delayed(AvgLogFC_null)(I) for I in I_perm)
@@ -393,7 +398,7 @@ def GeneRankingAnalysis(sample):
                                      'significant': [str(metric_sig[g]) for g in range(G)],
                                      '# sgRNAs': [nGuides[g] for g in range(G)],                
                                      '# signif. sgRNAs': [sigGuides[g] for g in range(G)],
-                                    'avg. logFC': [AvgLogFCs[g] for g in range(G)]},
+                                    'avg. logFC': [AvgLogFC[g] for g in range(G)]},
                             columns = ['gene',GeneMetric,'p_value','p_value (adj.)',\
                             'significant','# sgRNAs','# signif. sgRNAs','avg. logFC'])
     if GeneMetric == 'AVGLFC':