Merge pull request #16 from kipoi/fix_remove_use_strand

Avsecz · web-flow · commit 47a4d4e0f0a9 · 2018-10-27T13:45:53.000+02:00
don't allow use_strand
diff --git a/kipoiseq/datasets/sequence.py b/kipoiseq/datasets/sequence.py
@@ -112,8 +112,12 @@ def __init__(self, tsv_file,
                                 header=None,
                                 nrows=1,
                                 sep='\t')
-        self.n_tasks = df_peek.shape[1] - self.bed_columns
-        assert self.n_tasks >= 0
+        found_columns = df_peek.shape[1]
+        self.n_tasks = found_columns - self.bed_columns
+        if self.n_tasks < 0:
+            raise ValueError("BedDataset requires at least {} bed columns. Found only {} columns".
+                             format(self.bed_columns, found_columns))
+
         self.df = pd.read_table(self.tsv_file,
                                 header=None,
                                 dtype={i: d
@@ -181,8 +185,8 @@ class SeqStringDataset(Dataset):
             doc: None, required sequence length.
         # max_seq_len:
         #     doc: maximum allowed sequence length
-        use_strand:
-            doc: reverse-complement fasta sequence if bed file defines negative strand
+        # use_strand:
+        #     doc: reverse-complement fasta sequence if bed file defines negative strand
         force_upper:
             doc: Force uppercase output of sequences
         ignore_targets:
@@ -214,20 +218,27 @@ def __init__(self,
                  label_dtype=None,
                  auto_resize_len=None,
                  # max_seq_len=None,
-                 use_strand=False,
+                 # use_strand=False,
                  force_upper=True,
                  ignore_targets=False):
 
         self.num_chr_fasta = num_chr_fasta
         self.intervals_file = intervals_file
         self.fasta_file = fasta_file
         self.auto_resize_len = auto_resize_len
-        self.use_strand = use_strand
+        # self.use_strand = use_strand
         self.force_upper = force_upper
         # self.max_seq_len = max_seq_len
 
+        # if use_strand:
+        #     # require a 6-column bed-file if strand is used
+        #     bed_columns = 6
+        # else:
+        #     bed_columns = 3
+
         self.bed = BedDataset(self.intervals_file,
                               num_chr=self.num_chr_fasta,
+                              bed_columns=3,
                               label_dtype=parse_dtype(label_dtype),
                               ignore_targets=ignore_targets)
         self.fasta_extractors = None
@@ -237,7 +248,7 @@ def __len__(self):
 
     def __getitem__(self, idx):
         if self.fasta_extractors is None:
-            self.fasta_extractors = FastaStringExtractor(self.fasta_file, use_strand=self.use_strand,
+            self.fasta_extractors = FastaStringExtractor(self.fasta_file, use_strand=False,  # self.use_strand,
                                                          force_upper=self.force_upper)
 
         interval, labels = self.bed[idx]
@@ -303,8 +314,8 @@ class SeqDataset(Dataset):
             doc: None, datatype of the task labels taken from the intervals_file. Allowed - string', 'int', 'float', 'bool'
         auto_resize_len:
             doc: None, required sequence length.
-        use_strand:
-            doc: reverse-complement fasta sequence if bed file defines negative strand
+        # use_strand:
+        #     doc: reverse-complement fasta sequence if bed file defines negative strand
         alphabet_axis:
             doc: axis along which the alphabet runs (e.g. A,C,G,T for DNA)
         dummy_axis:
@@ -345,7 +356,7 @@ def __init__(self,
                  label_dtype=None,
                  auto_resize_len=None,
                  # max_seq_len=None,
-                 use_strand=False,
+                 # use_strand=False,
                  alphabet_axis=1,
                  dummy_axis=None,
                  alphabet="ACGT",
@@ -366,7 +377,7 @@ def __init__(self,
         # core dataset
         self.seq_string_dataset = SeqStringDataset(intervals_file, fasta_file, num_chr_fasta=num_chr_fasta,
                                                    label_dtype=label_dtype, auto_resize_len=auto_resize_len,
-                                                   use_strand=use_strand, force_upper=True,
+                                                   # use_strand=use_strand,
                                                    ignore_targets=ignore_targets)
 
         if dummy_axis is not None and alphabet_axis == dummy_axis:
diff --git a/tests/test_2_datasets.py b/tests/test_2_datasets.py
@@ -37,4 +37,3 @@ def test_seq_dataset_reshape(alphabet_axis, dummy_axis, example_kwargs):
             assert reshaped.shape[i] == alphabet_len
         else:
             assert reshaped.shape[i] == seq_len
-