v2.7.7

PhilippSpahn · PhilippSpahn · commit e463cd1344c0 · 2017-09-19T10:10:40.000-07:00
diff --git a/Scripts/AnalyzeControl.py b/Scripts/AnalyzeControl.py
@@ -8,6 +8,7 @@
 # Estimate mean counts and variance from control samples
 # =======================================================================
 # Imports
+from __future__ import division # floating point division by default
 import numpy
 import matplotlib
 matplotlib.use('Agg') 
@@ -39,8 +40,8 @@ def EstimateControlCounts():
     AlnQCDir = config['AlnQCDir']
     ControlDir = config['ControlDir']
     res = config['dpi']
+    thr_overdisp = config['thr_overdisp']
     CtrlCounts_Filename = 'Control_GuideCounts_0.tsv'
-    
    
     # --------------------------------    
     # Generate table of control counts
@@ -58,7 +59,7 @@ def EstimateControlCounts():
                                     'gene': genes},
                             columns = ['sgID','gene'])        
     if len(ControlSamples) == 0:
-        print('### ERROR: No control sample directories found! ###')
+        print('### ERROR: No control samples found! ###')
     else:
         os.chdir(AlnQCDir)
         for controlsample in ControlSamples:
@@ -80,47 +81,70 @@ def EstimateControlCounts():
     Mean = list(Mean_array)   
     Var_matrix = numpy.var(CtrlCounts_matrix,axis=1)
     Var_array = numpy.array(Var_matrix.T)[0]
-    Var = list(Var_array)
+    SampleVar = list(Var_array)
+    
+    # --------------------------------------------------------------    
+    # Determine if the variance equals the mean (Poisson distribution)
+    # --------------------------------------------------------------      
+    Svar0 = numpy.mean(SampleVar)
+    if Svar0 == 0:
+        Model = 'none'
+        print('WARNING: Zero variance or no control replicates! Cannot choose statistical model.')
+    else:
+        L0_list = [1 if Mean[k]>0 else 0 for k in range(L)]
+        overdisp_list = [1 if Mean[k]>0 and SampleVar[k]>Mean[k] else 0 for k in range(L)]
+        overdisp = sum(overdisp_list)/sum(L0_list)
+        print('Overdispersion fraction: '+str(overdisp))
+        if overdisp >= thr_overdisp:
+            Model = 'Neg. Binomial'
+            print('Choosing negative binomial model ...')
+        else:
+            Model = 'Poisson'
+            print('Choosing Poisson model ...')
 
     # -----------------------------------------------    
-    # Estimate variance from negative binomial model
+    # Model variance
     # -----------------------------------------------
-    if max(Var)>0:   
-        x = [numpy.log(Mean[k]) for k in range(L) if Mean[k]>0 and Var[k]>Mean[k]]
-        y = [numpy.log(Var[k]-Mean[k]) for k in range(L) if Mean[k]>0 and Var[k]>Mean[k]]    
+    if Model == 'none':
+        Var = [0 for k in range(len(SampleVar))]    
+        n = 'N/A'
+        p = 'N/A'        
+    elif Model == 'Neg. Binomial':
+        x = [numpy.log(Mean[k]) for k in range(L) if Mean[k]>0 and SampleVar[k]>Mean[k]]
+        y = [numpy.log(SampleVar[k]-Mean[k]) for k in range(L) if Mean[k]>0 and SampleVar[k]>Mean[k]]    
         c = [y[k]-2*x[k] for k in range(len(x))]
         c_0 = numpy.mean(c)
         D = numpy.exp(c_0)
-        Var_Model = [Mean[k] + D*Mean[k]**2 for k in range(L)]    
-    else: # no control replicates present
-        print('WARNING: No control replicates found!')
-        Var_Model = [0 for k in range(len(Var))]
-    
-    # -----------------------------------------------    
-    # Compute parameters for neg. binom. distribution 
-    # n: number of failures, p: probability of failure
-    # -----------------------------------------------
-    print('Computing parameters of neg. binomial distribution ...')
-    n = list(); p = list()
-    for k in range(L):
-        if Mean[k]==0 or Var_Model[k]==0:
-            n.append(((Mean[k]+delta)**2/(Var_Model[k]+2*delta))/(1-(Mean[k]+delta)/(Var_Model[k]+2*delta)))
-            p.append((Mean[k]+delta)/(Var_Model[k]+2*delta))
-        else:
-            n.append((Mean[k]**2/Var_Model[k])/(1-Mean[k]/Var_Model[k]))
-            p.append(Mean[k]/Var_Model[k])
-
-
+        Var = [Mean[k] + D*Mean[k]**2 for k in range(L)]  
+        # -----------------------------------------------    
+        # Compute parameters for neg. binom. distribution 
+        # n: number of failures, p: probability of failure
+        # -----------------------------------------------
+        print('Computing parameters of negative binomial distribution ...')
+        n = list(); p = list()
+        for k in range(L):
+            if Mean[k]==0 or Var[k]==0 :
+                n.append(((Mean[k]+delta)**2/(Var[k]+2*delta))/(1-(Mean[k]+delta)/(Var[k]+2*delta)))
+                p.append((Mean[k]+delta)/(Var[k]+2*delta))
+            else:
+                n.append((Mean[k]**2/Var[k])/(1-Mean[k]/Var[k]))
+                p.append(Mean[k]/Var[k])
+    elif Model == 'Poisson':
+        Var = [Mean[k] if Mean[k]>0 else 1 for k in range(L)]
+        n = 'N/A'
+        p = 'N/A'
+                
     # --------------------------------    
     # Write data frame
     # --------------------------------     
     if not os.path.exists(ControlDir):
         os.makedirs(ControlDir)         
     os.chdir(ControlDir)    
     print('Writing dataframe ...')
+    CtrlCounts_df['Model'] = Model
     CtrlCounts_df['Mean'] = Mean
-    CtrlCounts_df['Sample Variance'] = Var
-    CtrlCounts_df['Model Variance'] = Var_Model 
+    CtrlCounts_df['Sample Variance'] = SampleVar
+    CtrlCounts_df['Model Variance'] = Var
     CtrlCounts_df['n'] = n
     CtrlCounts_df['p'] = p
     CtrlCounts_df.to_csv(CtrlCounts_Filename,sep='\t')    
@@ -132,10 +156,10 @@ def EstimateControlCounts():
     # Mean/Variance plot
     print('Generating dispersion plot ...')
     plt.subplot(121)        
-    if max(Var) > 0:
+    if max(SampleVar) > 0:
         Mmax = numpy.percentile(Mean_array,99)
         x = [Mean[k] for k in range(L) if Mean[k] < Mmax]
-        y = [Var[k] for k in range(L) if Mean[k] < Mmax]
+        y = [SampleVar[k] for k in range(L) if Mean[k] < Mmax]
         plt.scatter(x,y,s=4,lw=0,alpha=0.25)
         plt.plot(x,x,'--',color='orange',label='Mean = Variance')
         leg = plt.legend(loc='upper left', prop={'size':8})
@@ -149,9 +173,9 @@ def EstimateControlCounts():
     # Log Plot with Regression
     print('Generating log regression plot ...')
     plt.subplot(122)
-    if max(Var) > 0:
-        logx = [numpy.log(Mean[k]) for k in range(L) if Mean[k]>0 and Var[k]>Mean[k]]
-        logy = [numpy.log(Var[k]-Mean[k]) for k in range(L) if Mean[k]>0 and Var[k]>Mean[k]]
+    if Model == 'Neg. Binomial' and max(SampleVar)>0:
+        logx = [numpy.log(Mean[k]) for k in range(L) if Mean[k]>0 and SampleVar[k]>Mean[k]]
+        logy = [numpy.log(SampleVar[k]-Mean[k]) for k in range(L) if Mean[k]>0 and SampleVar[k]>Mean[k]]
         plt.scatter(logx,logy,s=4,lw=0,alpha=0.25)  
         logy_0 = [2*logx[k] + c_0 for k in range(len(logx))]
         plt.plot(logx,logy_0,'r--')
diff --git a/Scripts/FindHits.py b/Scripts/FindHits.py
@@ -60,10 +60,12 @@ def PrepareHitList(sample):
     print('Loading read counts ...')     
     os.chdir(CtrlDir)
     Ctrl_File = pandas.read_table(CtrlCounts_Filename, sep='\t')
+    Model = Ctrl_File['Model'][0]
     sgIDs = list(Ctrl_File['sgID'])
     genes = list(Ctrl_File['gene'])
     mu = list(Ctrl_File['Mean'])
     L = len(sgIDs)
+    SampleVar = list(Ctrl_File['Sample Variance'])
     sigma2 = list(Ctrl_File['Model Variance'])
     n = list(Ctrl_File['n'])
     p = list(Ctrl_File['p'])    
@@ -74,57 +76,69 @@ def PrepareHitList(sample):
     x = list(SampleFile['counts'])
      
     # -----------------------------------------------
-    # Compute fold change and p-values
+    # Compute fold change 
     # -----------------------------------------------    
-    if max(sigma2) == 0:        # check for control replicates
+    print('Computing fold-changes ...')
+    fc = list()
+    for k in range(L):
+        if x[k]==0 or mu[k]==0:
+            fc.append((x[k]+delta)/(mu[k]+delta))
+        else:
+            fc.append(x[k]/mu[k])     
+     
+    # -----------------------------------------------
+    # Compute p-values 
+    # -----------------------------------------------              
+    if Model == 'none':        
     # -----------------------------------------------------------
-        print('WARNING: No control replicates! No p-values computed...')
-        print('Computing fold changes ...')
-        fc = list()
-        for k in range(L):
-            if x[k]==0 or mu[k]==0:
-                fc.append((x[k]+delta)/(mu[k]+delta))
-            else:
-                fc.append(x[k]/mu[k])        
-        NBpval = [1 for k in range(L)]
-        NBpval_0 = [1 for k in range(L)]
+        print('WARNING: Zero variance or no control replicates! Cannot compute p-values ...')   
+        pval = [1 for k in range(L)]
+        pval0 = [1 for k in range(L)]
         significant = [False for k in range(L)]     
     # -----------------------------------------------------------
     elif ScreenType == 'enrichment':       # enrichment screen
     # -----------------------------------------------------------
-        fc = list(); NBpval = list(); NBpval2 = list()
-        print('Computing fold-changes and p-values...')
-        for k in range(L):
-            # fold-change            
-            if x[k]==0 or mu[k]==0:
-                fc.append((x[k]+delta)/(mu[k]+delta))
-            else:
-                fc.append(x[k]/mu[k])
-            # one-sided p-value
-            if mu[k]==0 and x[k]==0:
-                  NBpval.append(1)
-            elif x[k]<=mu[k]:
-                  NBpval.append(1)
-            else: 
-                  NBpval.append(1 - scipy.stats.nbinom.cdf(x[k],n[k],p[k]))    
+        pval = list(); 
+        print('Computing p-values ...')
+        # one-sided p-value
+        if Model == 'Neg. Binomial':
+            for k in range(L):
+                if mu[k]==0 and x[k]==0:
+                      pval.append(1)
+                elif x[k]<=mu[k]:
+                      pval.append(1)
+                else: 
+                      pval.append(1 - scipy.stats.nbinom.cdf(x[k],n[k],p[k]))
+        elif Model == 'Poisson':
+            for k in range(L):
+                if mu[k]==0 and x[k]==0:
+                      pval.append(1)
+                elif x[k]<=mu[k]:
+                      pval.append(1)
+                else: 
+                      pval.append(1 - scipy.stats.poisson.cdf(x[k],sigma2[k]))
     # -----------------------------------------------------------                 
     elif ScreenType == 'depletion':       # depletion screen        
     # -----------------------------------------------------------
-        fc = list(); NBpval = list(); NBpval2 = list()
-        print('Computing fold-changes and p-values...')
-        for k in range(L):
-            # fold-change
-            if x[k]==0 or mu[k]==0:
-               fc.append((x[k]+delta)/(mu[k]+delta))
-            else:
-                fc.append(x[k]/mu[k])
-            # one-sided p-value
-            if mu[k]==0 and x[k]==0:
-                NBpval.append(1)
-            elif x[k]>=mu[k]:
-                NBpval.append(1)
-            else:
-                NBpval.append(scipy.stats.nbinom.cdf(x[k],n[k],p[k]))                    
+        pval = list();
+        print('Computing p-values...')
+        # one-sided p-value
+        if Model == 'Neg. Binomial':
+            for k in range(L):         
+                if mu[k]==0 and x[k]==0:
+                    pval.append(1)
+                elif x[k]>=mu[k]:
+                    pval.append(1)
+                else:
+                    pval.append(scipy.stats.nbinom.cdf(x[k],n[k],p[k]))
+        elif Model == 'Poisson':
+            for k in range(L):
+                if mu[k]==0 and x[k]==0:
+                      pval.append(1)
+                elif x[k]<=mu[k]:
+                      pval.append(1)
+                else: 
+                      pval.append(scipy.stats.poisson.cdf(x[k],sigma2[k]))        
     # -----------------------------------------------------------                  
     else:                           # error in scree type
     # -----------------------------------------------------------   
@@ -133,17 +147,17 @@ def PrepareHitList(sample):
     # -----------------------------------------------
     # p-value Correction and Plots
     # -----------------------------------------------  
-    if max(sigma2) > 0:
+    if max(SampleVar) > 0:
         # p-value correction for multiple tests
         print('p-value correction ...')
-        multTest = multipletests(NBpval,alpha,padj)
+        multTest = multipletests(pval,alpha,padj)
         significant = multTest[0]
-        NBpval_0 = multTest[1]
+        pval0 = multTest[1]
         # Plots
         print('Plotting p-values ...')
-        pvalHist(NBpval,NBpval_0,pvalDir,sample,res,svg)
-        VolcanoPlot(fc,NBpval,significant,pvalDir,ScreenType,sample,res,svg,alpha)
-        QQPlot(NBpval,significant,pvalDir,sample,res,svg,alpha)
+        pvalHist(pval,pval0,pvalDir,sample,res,svg)
+        VolcanoPlot(fc,pval,significant,pvalDir,ScreenType,sample,res,svg,alpha)
+        QQPlot(pval,significant,pvalDir,sample,res,svg,alpha)
         zScorePlot(fc,significant,pvalDir,ScreenType,sample,res,svg,alpha)
 
                
@@ -161,8 +175,8 @@ def PrepareHitList(sample):
                                      'control mean': [mu[k] for k in range(L)],
                                      'control stdev': [numpy.sqrt(sigma2[k]) for k in range(L)],
                                      'fold change': [fc[k] for k in range(L)],   
-                                     'p-value': [NBpval[k] for k in range(L)],
-                                     'p-value (adj.)': [NBpval_0[k] for k in range(L)],                                                 
+                                     'p-value': [pval[k] for k in range(L)],
+                                     'p-value (adj.)': [pval0[k] for k in range(L)],                                                 
                                      'significant': [str(significant[k]) for k in range(L)]},
                             columns = ['sgRNA','gene','counts','control mean',\
                             'control stdev','fold change','p-value','p-value (adj.)','significant'])
diff --git a/Scripts/PinAPL.py b/Scripts/PinAPL.py
@@ -92,7 +92,10 @@
 # Trim Adapters
 StatMsg = 'Trimming reads ...'
 os.system('python -u PrintStatus.py SubHeader "'+StatMsg+'" 2>&1 | tee -a PinAPL-Py.log')
-os.system('python -u '+TrimScript+'.py 2>&1 | tee -a PinAPL-Py.log')
+if os.path.exists(AlignDir):
+    os.system('python -u PrintStatus.py SkipTrim blank 2>&1 | tee -a PinAPL-Py.log')
+else:
+    os.system('python -u '+TrimScript+'.py 2>&1 | tee -a PinAPL-Py.log')
 DoneMsg = 'Read trimming completed.'
 os.system('python -u PrintStatus.py Done "'+DoneMsg+'" 2>&1 | tee -a PinAPL-Py.log')
   
diff --git a/Scripts/PrintStatus.py b/Scripts/PrintStatus.py
@@ -12,7 +12,7 @@
 
 def PrintStatus_Header():
     print('**************************************************')
-    print('Launching PinAPL-Py v2.7.6..')
+    print('Launching PinAPL-Py v2.7.7..')
     print('P. Spahn et al., UC San Diego (09/2017)')
     print('**************************************************')
     
@@ -29,6 +29,9 @@ def PrintStatus_Done(msg):
 def PrintStatus_ProcessSample(sample):
     print('Processing sample '+sample+' ... ')
 
+def PrintStatus_SkipTrim():
+    print('Alignment data found. Skipping read trimming ... ')
+
 def PrintStatus_SkipSample(sample):
     print('Alignment data found for sample '+sample+'. Skipping alignment ... ')
 
@@ -56,6 +59,8 @@ def PrintStatus_TimeStamp(msg):
         PrintStatus_Done(input2)
     elif input1 == 'ProcessSample':
         PrintStatus_ProcessSample(input2)
+    elif input1 == 'SkipTrim':
+        PrintStatus_SkipTrim()           
     elif input1 == 'SkipSample':
         PrintStatus_SkipSample(input2)   
     elif input1 == 'SkipSeqQC':
diff --git a/Scripts/pvalPlots.py b/Scripts/pvalPlots.py
diff --git a/configuration.yaml b/configuration.yaml