Working example

BrianMichell · BrianMichell · commit 81662c78f67b · 2025-09-11T15:15:21.000Z
diff --git a/src/mdio/segy/_disaster_recovery_wrapper.py b/src/mdio/segy/_disaster_recovery_wrapper.py
@@ -0,0 +1,227 @@
+"""Consumer-side utility to get both raw and transformed header data with single filesystem read."""
+
+from __future__ import annotations
+
+import numpy as np
+from typing import TYPE_CHECKING
+from segy.transforms import ByteSwapTransform
+from segy.transforms import IbmFloatTransform
+
+if TYPE_CHECKING:
+    from segy.file import SegyFile
+    from segy.indexing import HeaderIndexer
+    from segy.transforms import Transform, TransformPipeline, ByteSwapTransform, IbmFloatTransform
+    from numpy.typing import NDArray
+
+
+def debug_compare_raw_vs_processed(segy_file, trace_index=0):
+    """Debug function to compare raw filesystem data vs processed data."""
+    from segy.indexing import HeaderIndexer
+
+    # Create a fresh indexer to get raw data
+    indexer = HeaderIndexer(
+        segy_file.fs,
+        segy_file.url,
+        segy_file.spec.trace,
+        segy_file.num_traces,
+        transform_pipeline=None  # No transforms = raw data
+    )
+
+    # Get raw data directly from filesystem
+    raw_data = indexer[trace_index]
+
+    # Get processed data with transforms
+    processed_data = segy_file.header[trace_index]
+
+    print("=== Raw vs Processed Comparison ===")
+    print(f"Raw data shape: {raw_data.shape}")
+    print(f"Processed data shape: {processed_data.shape}")
+
+    if hasattr(raw_data, 'dtype') and raw_data.dtype.names:
+        if 'inline_number' in raw_data.dtype.names:
+            print(f"Raw inline_number: {raw_data['inline_number']}")
+            print(f"Raw inline_number (hex): {raw_data['inline_number']:08x}")
+            print(f"Processed inline_number: {processed_data['inline_number']}")
+            print(f"Processed inline_number (hex): {processed_data['inline_number']:08x}")
+            print(f"Are they equal? {raw_data['inline_number'] == processed_data['inline_number']}")
+
+    return raw_data, processed_data
+
+
+class HeaderRawTransformedAccessor:
+    """Utility class to access both raw and transformed header data with single filesystem read.
+
+    This class works as a consumer of SegyFile objects without modifying the package.
+    It achieves the goal by:
+    1. Reading raw data from filesystem once
+    2. Applying transforms to get transformed data
+    3. Keeping both versions available
+
+    The transforms used in SEG-Y processing are reversible:
+    - ByteSwapTransform: Self-inverse (swapping twice returns to original)
+    - IbmFloatTransform: Can be reversed by swapping direction
+    """
+
+    def __init__(self, segy_file: SegyFile):
+        """Initialize with a SegyFile instance.
+
+        Args:
+            segy_file: The SegyFile instance to work with
+        """
+        self.segy_file = segy_file
+        self.header_indexer = segy_file.header
+        self.transform_pipeline = self.header_indexer.transform_pipeline
+
+        # Debug: Print transform pipeline information
+        import sys
+        print(f"Debug: System endianness: {sys.byteorder}")
+        print(f"Debug: File endianness: {self.segy_file.spec.endianness}")
+        print(f"Debug: Transform pipeline has {len(self.transform_pipeline.transforms)} transforms:")
+        for i, transform in enumerate(self.transform_pipeline.transforms):
+            print(f"  Transform {i}: {type(transform).__name__}")
+            if hasattr(transform, 'target_order'):
+                print(f"    Target order: {transform.target_order}")
+            if hasattr(transform, 'direction'):
+                print(f"    Direction: {transform.direction}")
+            if hasattr(transform, 'keys'):
+                print(f"    Keys: {transform.keys}")
+
+    def get_raw_and_transformed(
+        self, indices: int | list[int] | np.ndarray | slice
+    ) -> tuple[NDArray, NDArray]:
+        """Get both raw and transformed header data with single filesystem read.
+
+        Args:
+            indices: Which headers to retrieve (int, list, ndarray, or slice)
+
+        Returns:
+            Tuple of (raw_headers, transformed_headers)
+        """
+        # Get the transformed data using the normal API
+        # This reads from filesystem and applies transforms
+        transformed_data = self.header_indexer[indices]
+
+        print(f"Debug: Transformed data shape: {transformed_data.shape}")
+        if hasattr(transformed_data, 'dtype') and transformed_data.dtype.names:
+            print(f"Debug: Transformed data dtype names: {transformed_data.dtype.names[:5]}...")  # First 5 fields
+            if 'inline_number' in transformed_data.dtype.names:
+                print(f"Debug: First transformed inline_number: {transformed_data['inline_number'][0]}")
+                print(f"Debug: First transformed inline_number (hex): {transformed_data['inline_number'][0]:08x}")
+
+        # Now reverse the transforms to get back to raw data
+        raw_data = self._reverse_transforms(transformed_data)
+
+        print(f"Debug: Raw data shape: {raw_data.shape}")
+        if hasattr(raw_data, 'dtype') and raw_data.dtype.names:
+            if 'inline_number' in raw_data.dtype.names:
+                print(f"Debug: First raw inline_number: {raw_data['inline_number'][0]}")
+                print(f"Debug: First raw inline_number (hex): {raw_data['inline_number'][0]:08x}")
+
+        return raw_data, transformed_data
+
+    def _reverse_transforms(self, transformed_data: NDArray) -> NDArray:
+        """Reverse the transform pipeline to get raw data from transformed data.
+
+        Args:
+            transformed_data: Data that has been processed through the transform pipeline
+
+        Returns:
+            Raw data equivalent to what was read directly from filesystem
+        """
+        # Start with the transformed data
+        raw_data = transformed_data.copy() if hasattr(transformed_data, 'copy') else transformed_data
+
+        print(f"Debug: Starting reversal with {len(self.transform_pipeline.transforms)} transforms")
+
+        # Apply transforms in reverse order with reversed operations
+        for i, transform in enumerate(reversed(self.transform_pipeline.transforms)):
+            print(f"Debug: Reversing transform {len(self.transform_pipeline.transforms)-1-i}: {type(transform).__name__}")
+            if 'inline_number' in raw_data.dtype.names:
+                print(f"Debug: Before reversal - inline_number: {raw_data['inline_number'][0]:08x}")
+            raw_data = self._reverse_single_transform(raw_data, transform)
+            if 'inline_number' in raw_data.dtype.names:
+                print(f"Debug: After reversal - inline_number: {raw_data['inline_number'][0]:08x}")
+
+        return raw_data
+
+    def _reverse_single_transform(self, data: NDArray, transform: Transform) -> NDArray:
+        """Reverse a single transform operation.
+
+        Args:
+            data: The data to reverse transform
+            transform: The transform to reverse
+
+        Returns:
+            Data with the transform reversed
+        """
+        # Import here to avoid circular imports
+        from segy.transforms import get_endianness
+        from segy.schema import Endianness
+
+        if isinstance(transform, ByteSwapTransform):
+            # For byte swap, we need to reverse the endianness conversion
+            # If the transform was converting to little-endian, we need to convert back to big-endian
+            print(f"Debug: Reversing byte swap (target was: {transform.target_order})")
+
+            # Get current data endianness
+            current_endianness = get_endianness(data)
+            print(f"Debug: Current data endianness: {current_endianness}")
+
+            # If transform was converting TO little-endian, we need to convert TO big-endian
+            if transform.target_order == Endianness.LITTLE:
+                reverse_target = Endianness.BIG
+            else:
+                reverse_target = Endianness.LITTLE
+
+            print(f"Debug: Reversing to target: {reverse_target}")
+            reverse_transform = ByteSwapTransform(reverse_target)
+            result = reverse_transform.apply(data)
+
+            if 'inline_number' in data.dtype.names:
+                print(f"Debug: Byte swap reversal - before: {data['inline_number'][0]:08x}, after: {result['inline_number'][0]:08x}")
+            return result
+
+        elif isinstance(transform, IbmFloatTransform):
+            # Reverse IBM float conversion by swapping direction
+            reverse_direction = "to_ibm" if transform.direction == "to_ieee" else "to_ieee"
+            print(f"Debug: Applying IBM float reversal (direction: {transform.direction} -> {reverse_direction})")
+            reverse_transform = IbmFloatTransform(reverse_direction, transform.keys)
+            return reverse_transform.apply(data)
+
+        else:
+            # For unknown transforms, return data unchanged
+            # This maintains compatibility if new transforms are added
+            print(f"Warning: Unknown transform type {type(transform).__name__}, cannot reverse")
+            return data
+
+
+def get_header_raw_and_transformed(
+    segy_file: SegyFile,
+    indices: int | list[int] | np.ndarray | slice
+) -> tuple[NDArray, NDArray]:
+    """Convenience function to get both raw and transformed header data.
+
+    This is a drop-in replacement that provides the functionality you requested
+    without modifying the segy package.
+
+    Args:
+        segy_file: The SegyFile instance
+        indices: Which headers to retrieve
+
+    Returns:
+        Tuple of (raw_headers, transformed_headers)
+
+    Example:
+        from header_raw_transformed_accessor import get_header_raw_and_transformed
+
+        # Single header
+        raw_hdr, transformed_hdr = get_header_raw_and_transformed(segy_file, 0)
+
+        # Multiple headers
+        raw_hdrs, transformed_hdrs = get_header_raw_and_transformed(segy_file, [0, 1, 2])
+
+        # Slice of headers
+        raw_hdrs, transformed_hdrs = get_header_raw_and_transformed(segy_file, slice(0, 10))
+    """
+    accessor = HeaderRawTransformedAccessor(segy_file)
+    return accessor.get_raw_and_transformed(indices)
diff --git a/src/mdio/segy/_workers.py b/src/mdio/segy/_workers.py
@@ -13,6 +13,7 @@
 
 from mdio.api.io import to_mdio
 from mdio.builder.schemas.dtype import ScalarType
+from mdio.segy._disaster_recovery_wrapper import get_header_raw_and_transformed
 
 if TYPE_CHECKING:
     from segy.arrays import HeaderArray
@@ -81,7 +82,7 @@ def header_scan_worker(
 
     return cast("HeaderArray", trace_header)
 
-
+@profile
 def trace_worker(  # noqa: PLR0913
     segy_kw: SegyFileArguments,
     output_path: UPath,
@@ -134,12 +135,13 @@ def trace_worker(  # noqa: PLR0913
         worker_variables.append(raw_header_key)
 
     ds_to_write = dataset[worker_variables]
+    raw_headers, transformed_headers = get_header_raw_and_transformed(segy_file, live_trace_indexes)
 
     if header_key in worker_variables:
         # Create temporary array for headers with the correct shape
         # TODO(BrianMichell): Implement this better so that we can enable fill values without changing the code. #noqa: TD003
         tmp_headers = np.zeros_like(dataset[header_key])
-        tmp_headers[not_null] = traces.header
+        tmp_headers[not_null] = transformed_headers
         # Create a new Variable object to avoid copying the temporary array
         # The ideal solution is to use `ds_to_write[header_key][:] = tmp_headers`
         # but Xarray appears to be copying memory instead of doing direct assignment.
@@ -150,40 +152,17 @@ def trace_worker(  # noqa: PLR0913
             attrs=ds_to_write[header_key].attrs,
             encoding=ds_to_write[header_key].encoding,  # Not strictly necessary, but safer than not doing it.
         )
+        del transformed_headers  # Manage memory
     if raw_header_key in worker_variables:
         tmp_raw_headers = np.zeros_like(dataset[raw_header_key])
-
-        # Get the indices where we need to place results
-        live_mask = not_null
-        live_positions = np.where(live_mask.ravel())[0]
-
-        if len(live_positions) > 0:
-            # Calculate byte ranges for headers
-            header_size = 240
-            trace_offset = segy_file.spec.trace.offset
-            trace_itemsize = segy_file.spec.trace.itemsize
-
-            starts = []
-            ends = []
-            for global_trace_idx in live_trace_indexes:
-                header_start = trace_offset + global_trace_idx * trace_itemsize
-                header_end = header_start + header_size
-                starts.append(header_start)
-                ends.append(header_end)
-
-            # Capture raw bytes
-            raw_header_bytes = merge_cat_file(segy_file.fs, segy_file.url, starts, ends)
-
-            # Convert and place results
-            raw_headers_array = np.frombuffer(bytes(raw_header_bytes), dtype="|V240")
-            tmp_raw_headers.ravel()[live_positions] = raw_headers_array
-
+        tmp_raw_headers[not_null] = raw_headers.view("|V240")
         ds_to_write[raw_header_key] = Variable(
             ds_to_write[raw_header_key].dims,
             tmp_raw_headers,
             attrs=ds_to_write[raw_header_key].attrs,
-            encoding=ds_to_write[raw_header_key].encoding,
+            encoding=ds_to_write[raw_header_key].encoding,  # Not strictly necessary, but safer than not doing it.
         )
+        del raw_headers  # Manage memory
 
     data_variable = ds_to_write[data_variable_name]
     fill_value = _get_fill_value(ScalarType(data_variable.dtype.name))
diff --git a/src/mdio/segy/blocked_io.py b/src/mdio/segy/blocked_io.py
@@ -2,10 +2,7 @@
 
 from __future__ import annotations
 
-import multiprocessing as mp
 import os
-from concurrent.futures import ProcessPoolExecutor
-from concurrent.futures import as_completed
 from pathlib import Path
 from typing import TYPE_CHECKING
 
@@ -80,37 +77,20 @@ def to_zarr(  # noqa: PLR0913, PLR0915
     chunk_iter = ChunkIterator(shape=data.shape, chunks=worker_chunks, dim_names=data.dims)
     num_chunks = chunk_iter.num_chunks
 
-    # For Unix async writes with s3fs/fsspec & multiprocessing, use 'spawn' instead of default
-    # 'fork' to avoid deadlocks on cloud stores. Slower but necessary. Default on Windows.
-    num_cpus = int(os.getenv("MDIO__IMPORT__CPU_COUNT", default_cpus))
-    num_workers = min(num_chunks, num_cpus)
-    context = mp.get_context("spawn")
-    executor = ProcessPoolExecutor(max_workers=num_workers, mp_context=context)
-
     segy_kw = {
         "url": segy_file.fs.unstrip_protocol(segy_file.url),
         "spec": segy_file.spec,
         "settings": segy_file.settings,
     }
-    with executor:
-        futures = []
-        common_args = (segy_kw, output_path, data_variable_name)
-        for region in chunk_iter:
-            subset_args = (region, grid_map, dataset.isel(region))
-            future = executor.submit(trace_worker, *common_args, *subset_args)
-            futures.append(future)
-
-        iterable = tqdm(
-            as_completed(futures),
-            total=num_chunks,
-            unit="block",
-            desc="Ingesting traces",
-        )
 
-        for future in iterable:
-            result = future.result()
-            if result is not None:
-                _update_stats(final_stats, result)
+    common_args = (segy_kw, output_path, data_variable_name)
+
+    # Execute trace_worker serially for profiling
+    for region in tqdm(chunk_iter, total=num_chunks, unit="block", desc="Ingesting traces"):
+        subset_args = (region, grid_map, dataset.isel(region))
+        result = trace_worker(*common_args, *subset_args)
+        if result is not None:
+            _update_stats(final_stats, result)
 
     # Xarray doesn't directly support incremental attribute updates when appending to an existing Zarr store.
     # HACK: We will update the array attribute using zarr's API directly.