p-value should not be required

karmel · karmel · commit 7f376ba0fdeb · 2015-01-23T11:03:19.000-08:00
diff --git a/idr/run_idr.py b/idr/run_idr.py
@@ -14,12 +14,12 @@
 https://sites.google.com/site/anshulkundaje/projects/idr 
 
 '''
-import os
 from argparse import ArgumentParser
-from idr.utils import IdrUtilities
-from idr.idr_caller import IdrCaller
 import math
+import os
 
+from idr.idr_caller import IdrCaller
+from idr.utils import IdrUtilities
 class IdrArgumentParser(ArgumentParser):
     def __init__(self):
         description = '''Functions for running Irreproducibility Discovery Rate
@@ -105,7 +105,8 @@ def homer2narrow(self, options, peak_files, output_dir=None):
         
         Returns the set of filenames for generated narrowPeak files.
         '''
-        self.check_output_dir(output_dir or options.output_dir)
+        output_dir = output_dir or options.output_dir
+        self.check_output_dir(output_dir)
              
         idrutils = IdrUtilities()
         output_files = []
diff --git a/idr/utils.py b/idr/utils.py
@@ -131,6 +131,15 @@ def homer_to_narrow_peaks(self, data, output_file):
         
         '''
 
+        # We don't want to require p-value, as Homer doesn't always output it.
+        # Prep it here if it exists, or substitute tag count.
+        pval_col = self.get_first_column(data,
+            self.p_value_columns, required=False)
+        if pval_col:
+            pvals = -np.log10(pval_col)
+        else: 
+            pvals = pvals = [-1]*data.shape[0]
+            
         columns = OrderedDict((
             ('chrom', self.get_first_column(data, ['chr','chrom', 'chromosome'])),
             ('chromStart', self.get_first_column(data, ['chromStart','start'])),
@@ -139,9 +148,7 @@ def homer_to_narrow_peaks(self, data, output_file):
             ('score', Series([0]*data.shape[0])), # Leave zero so that signalValue column is used
             ('strand', self.get_first_column(data, ['strand'])),       
             ('signalValue', self.get_first_column(data, self.tag_count_columns)),
-            ('pValue', (-np.log10(self.get_first_column(data,
-                self.p_value_columns, required=False))
-                or self.get_first_column(data, self.tag_count_columns))), # P-value if it exists, or tag count
+            ('pValue', pvals), # P-value if it exists, or tag count
             ('qValue', Series([-1]*data.shape[0])), # Leave -1 as no individual FDR is called for each peak
             ('peak', Series([-1]*data.shape[0])), # Leave -1 as no point-source is called for each peak
             ))