[TDTIO] Switch to pathlib and permit to load single block

sprenger · sprenger · commit 758dc079fdf7 · 2022-01-20T17:16:18.000+01:00
diff --git a/neo/rawio/tdtrawio.py b/neo/rawio/tdtrawio.py
@@ -28,49 +28,73 @@
 import numpy as np
 import os
 import re
+import warnings
 from collections import OrderedDict
+from pathlib import Path
 
 
 class TdtRawIO(BaseRawIO):
     rawmode = 'one-dir'
 
     def __init__(self, dirname='', sortname=''):
         """
-        'sortname' is used to specify the external sortcode generated by offline spike sorting.
-        if sortname=='PLX', there should be a ./sort/PLX/*.SortResult file in the tdt block,
-        which stores the sortcode for every spike; defaults to '',
-        which uses the original online sort.
+        Initialize reader for one or multiple TDT data blocks.
+
+        dirname (str, pathlib.Path):
+            tank-directory of a dataset to be read as multiple segments OR single file of dataset.
+            In the latter case only the corresponding segment will considered.
+        sortname (str):
+            'sortname' is used to specify the external sortcode generated by offline spike sorting.
+            if sortname=='PLX', there should be a ./sort/PLX/*.SortResult file in the tdt block,
+            which stores the sortcode for every spike
+            Default: '', uses the original online sort.
+
+
         """
         BaseRawIO.__init__(self)
-        dirname = str(dirname)
-        if dirname.endswith('/'):
-            dirname = dirname[:-1]
-        self.dirname = dirname
+        dirname = Path(dirname)
+        if dirname.is_dir():
+            self.dirname = Path(dirname)
+            self.tdt_block_mode = 'multi'
+        elif dirname.is_file():
+            # in single tdt block mode the dirname also contains the block prefix
+            self.dirname = dirname.with_suffix('')
+            self.tdt_block_mode = 'single'
 
         self.sortname = sortname
 
     def _source_name(self):
         return self.dirname
 
-    def _parse_header(self):
-
-        tankname = os.path.basename(self.dirname)
+    def _get_filestem(self, segment_name=''):
+        if self.tdt_block_mode == 'multi':
+            return self.dirname / segment_name / f'{self.dirname.name}_{segment_name}'
+        else:
+            return self.dirname
 
+    def _parse_header(self):
         segment_names = []
-        for segment_name in os.listdir(self.dirname):
-            path = os.path.join(self.dirname, segment_name)
-            if is_tdtblock(path):
-                segment_names.append(segment_name)
+        if self.tdt_block_mode == 'multi':
+            tankname = self.dirname.stem
+            for path in self.dirname.iterdir():
+                if is_tdtblock(path):
+                    segment_names.append(path.stem)
+
+        # if no block structure was detected, check if current dir contains a set of data
+        elif is_tdtblock(self.dirname.parent):
+            segment_names.append(str(self.dirname.stem))
+            tankname = None
 
         nb_segment = len(segment_names)
+        if nb_segment == 0:
+            warnings.warn(f'Could not find any data set belonging to {self.dirname}')
 
         # TBK (channel info)
         info_channel_groups = None
         for seg_index, segment_name in enumerate(segment_names):
-            path = os.path.join(self.dirname, segment_name)
 
             # TBK contain channels
-            tbk_filename = os.path.join(path, tankname + '_' + segment_name + '.Tbk')
+            tbk_filename = self._get_filestem(segment_name).with_suffix('.Tbk')
             _info_channel_groups = read_tbk(tbk_filename)
             if info_channel_groups is None:
                 info_channel_groups = _info_channel_groups
@@ -81,9 +105,8 @@ def _parse_header(self):
         # TEV (mixed data)
         self._tev_datas = []
         for seg_index, segment_name in enumerate(segment_names):
-            path = os.path.join(self.dirname, segment_name)
-            tev_filename = os.path.join(path, tankname + '_' + segment_name + '.tev')
-            if os.path.exists(tev_filename):
+            tev_filename = self._get_filestem(segment_name).with_suffix('.tev')
+            if tev_filename.exists():
                 tev_data = np.memmap(tev_filename, mode='r', offset=0, dtype='uint8')
             else:
                 tev_data = None
@@ -94,8 +117,7 @@ def _parse_header(self):
         self._seg_t_starts = []
         self._seg_t_stops = []
         for seg_index, segment_name in enumerate(segment_names):
-            path = os.path.join(self.dirname, segment_name)
-            tsq_filename = os.path.join(path, tankname + '_' + segment_name + '.tsq')
+            tsq_filename = self._get_filestem(segment_name).with_suffix('.tsq')
             tsq = np.fromfile(tsq_filename, dtype=tsq_dtype)
             self._tsq.append(tsq)
             # Start and stop times are only found in the second
@@ -115,9 +137,13 @@ def _parse_header(self):
             #  (generated after offline sorting)
             if self.sortname != '':
                 try:
-                    for file in os.listdir(os.path.join(path, 'sort', sortname)):
+                    if self.tdt_block_mode == 'multi':
+                        path = self.dirname
+                    else:
+                        path = self.dirname.parent
+                    for file in os.listdir(path / 'sort' / self.sortname):
                         if file.endswith(".SortResult"):
-                            sortresult_filename = os.path.join(path, 'sort', sortname, file)
+                            sortresult_filename = path / 'sort' / self.sortname / file
                             # get new sortcode
                             newsortcode = np.fromfile(sortresult_filename, 'int8')[
                                 1024:]  # first 1024 bytes are header
@@ -181,15 +207,22 @@ def _parse_header(self):
                         assert self._sigs_lengths[seg_index][stream_index] == size
 
                     # signal start time, relative to start of segment
-                    t_start = data_index['timestamp'][0]
+                    if len(data_index['timestamp']):
+                        t_start = data_index['timestamp'][0]
+                    else:
+                        t_start = None
                     if stream_index not in self._sigs_t_start[seg_index]:
                         self._sigs_t_start[seg_index][stream_index] = t_start
                     else:
                         assert self._sigs_t_start[seg_index][stream_index] == t_start
 
                     # sampling_rate and dtype
-                    _sampling_rate = float(data_index['frequency'][0])
-                    _dtype = data_formats[data_index['dataformat'][0]]
+                    if len(data_index):
+                        _sampling_rate = float(data_index['frequency'][0])
+                        _dtype = data_formats[data_index['dataformat'][0]]
+                    else:
+                        _sampling_rate = np.nan
+                        _dtype = type(None)
                     if sampling_rate is None:
                         sampling_rate = _sampling_rate
                         dtype = _dtype
@@ -202,11 +235,23 @@ def _parse_header(self):
                         assert dtype == _dtype, 'sampling is changing!!!'
 
                     # data buffer test if SEV file exists otherwise TEV
-                    path = os.path.join(self.dirname, segment_name)
-                    sev_filename = os.path.join(path, tankname + '_' + segment_name + '_'
-                                                + info['StoreName'].decode('ascii')
-                                                + '_ch' + str(chan_id) + '.sev')
-                    if os.path.exists(sev_filename):
+                    # path = self.dirname / segment_name
+                    if self.tdt_block_mode == 'multi':
+                        # for multi block datasets the names of sev files are fixed
+                        store = info['StoreName'].decode('ascii')
+                        sev_stem = tankname + '_' + segment_name + '_' + store + '_ch' + str(chan_id)
+                        sev_filename = (path / sev_stem).with_suffix('.sev')
+                    else:
+                        # for single block datasets the exact name of sev files in not known
+                        sev_regex = f".*_ch{chan_id}.sev"
+                        sev_filename = list(self.dirname.parent.glob(str(sev_regex)))
+
+                        # in case non or multiple sev files are found for current stream + channel
+                        if len(sev_filename) != 1:
+                            warnings.warn(f'Could not identify sev file for channel {chan_id}.')
+                            sev_filename = None
+
+                    if (sev_filename is not None) and sev_filename.exists():
                         data = np.memmap(sev_filename, mode='r', offset=0, dtype='uint8')
                     else:
                         data = self._tev_datas[seg_index]
@@ -526,10 +571,10 @@ def read_tbk(tbk_filename):
 def is_tdtblock(blockpath):
     """Is tha path a  TDT block (=neo.Segment) ?"""
     file_ext = list()
-    if os.path.isdir(blockpath):
+    if blockpath.is_dir():
         # for every file, get extension, convert to lowercase and append
-        for file in os.listdir(blockpath):
-            file_ext.append(os.path.splitext(file)[1].lower())
+        for file in blockpath.iterdir():
+            file_ext.append(file.suffix.lower())
 
     file_ext = set(file_ext)
     tdt_ext = {'.tbk', '.tdx', '.tev', '.tsq'}
diff --git a/neo/test/rawiotest/test_tdtrawio.py b/neo/test/rawiotest/test_tdtrawio.py
@@ -10,7 +10,8 @@ class TestTdtRawIO(BaseTestRawIO, unittest.TestCase, ):
         'tdt'
     ]
     entities_to_test = [
-        'tdt/aep_05'
+        'tdt/aep_05',
+        'tdt/aep_05/Block-1/aep_05_Block-1.Tdx'
     ]
 
 

Original file line number	Diff line number	Diff line change
`@@ -10,7 +10,8 @@ class TestTdtRawIO(BaseTestRawIO, unittest.TestCase, ):`
`10`	`10`	`'tdt'`
`11`	`11`	`]`
`12`	`12`	`entities_to_test = [`
`13`		`- 'tdt/aep_05'`
	`13`	`+ 'tdt/aep_05',`
	`14`	`+ 'tdt/aep_05/Block-1/aep_05_Block-1.Tdx'`
`14`	`15`	`]`
`15`	`16`
`16`	`17`