Merge pull request #41 from ArcanaFramework/identify-siemens-raw-data

tclose · web-flow · commit e95870bfa282 · 2025-04-14T23:09:48.000+10:00
implemented dicom header reading of image type for siemens raw data
diff --git a/.flake8 b/.flake8
@@ -12,6 +12,6 @@ exclude =
     docs/source/conf.py
 max-line-length = 88
 select = C,E,F,W,B,B950
-extend-ignore = E203,E501,E129
+extend-ignore = E203,E501,E129,W503
 per-file-ignores =
     setup.py:F401
diff --git a/extras/fileformats/extras/medimage/raw.py b/extras/fileformats/extras/medimage/raw.py
@@ -12,9 +12,10 @@
 from fileformats.core import extra_implementation, FileSet
 from fileformats.medimage.dicom import DicomImage
 from fileformats.medimage.raw import (
-    Vnd_Siemens_Biograph128Vision_Vr20b_PetRawData,
+    Vnd_Siemens_Biograph128Vision_Vr20b_LargePetRawData,
     Vnd_Siemens_Biograph128Vision_Vr20b_PetCountRate,
     Vnd_Siemens_Biograph128Vision_Vr20b_PetListMode,
+    Vnd_Siemens_Biograph128Vision_Vr20b_PetCtRawData,
 )
 from fileformats.core.io import BinaryIOWindow
 
@@ -33,7 +34,7 @@
 
 @extra_implementation(FileSet.read_metadata)
 def siemens_pet_raw_data_read_metadata(
-    pet_raw_data: Vnd_Siemens_Biograph128Vision_Vr20b_PetRawData,
+    pet_raw_data: Vnd_Siemens_Biograph128Vision_Vr20b_LargePetRawData,
     specific_tags: ty.Optional[TagListType] = None,
     **kwargs: ty.Any,
 ) -> ty.Mapping[str, ty.Any]:
@@ -48,6 +49,22 @@ def siemens_pet_raw_data_read_metadata(
     return DicomImage.pydicom_to_dict(dcm)
 
 
+@extra_implementation(FileSet.read_metadata)
+def siemens_petct_raw_data_read_metadata(
+    pet_raw_data: Vnd_Siemens_Biograph128Vision_Vr20b_PetCtRawData,
+    specific_tags: ty.Optional[TagListType] = None,
+    **kwargs: ty.Any,
+) -> ty.Mapping[str, ty.Any]:
+
+    with pet_raw_data.open() as f:
+        window = BinaryIOWindow(
+            f,  # type: ignore[arg-type]
+            *pet_raw_data.dicom_header_limits,
+        )
+        dcm = pydicom.dcmread(window, specific_tags=specific_tags)
+    return DicomImage.pydicom_to_dict(dcm)
+
+
 @extra_implementation(FileSet.generate_sample_data)
 def siemens_pet_listmode_generate_sample_data(
     pet_raw_data: Vnd_Siemens_Biograph128Vision_Vr20b_PetListMode,
diff --git a/extras/fileformats/extras/medimage/tests/test_deidentify.py b/extras/fileformats/extras/medimage/tests/test_deidentify.py
@@ -36,6 +36,7 @@ def test_nifti_deidentify():
     assert nifti.hash_files() == deidentified.hash_files()
 
 
+@pytest.mark.xfail(reason="Need to generate more realistic Siemens raw pet data")
 def test_raw_pet_data_deidentify():
     raw_pet = Vnd_Siemens_Biograph128Vision_Vr20b_PetSinogram.sample()
     with pytest.raises(FileFormatsExtrasError):
diff --git a/extras/fileformats/extras/medimage/tests/test_generators.py b/extras/fileformats/extras/medimage/tests/test_generators.py
@@ -1,3 +1,4 @@
+import pytest
 from fileformats.medimage import (
     NiftiGzX,
     NiftiGzXBvec,
@@ -24,11 +25,13 @@ def test_dmri_generator():
     assert len(img.dims()) == 4
 
 
+@pytest.mark.xfail(reason="Need to generate more realistic Siemens raw pet data")
 def test_siemens_pet_listmode_generator():
     img = Vnd_Siemens_Biograph128Vision_Vr20b_PetListMode.sample()
     assert img.metadata["PatientName"] == "FirstName^LastName"
 
 
+@pytest.mark.xfail(reason="Need to generate more realistic Siemens raw pet data")
 def test_siemens_pet_countrate_generator():
     img = Vnd_Siemens_Biograph128Vision_Vr20b_PetCountRate.sample()
     assert img.metadata["PatientName"] == "FirstName^LastName"
diff --git a/fileformats/medimage/__init__.py b/fileformats/medimage/__init__.py
@@ -45,6 +45,7 @@
     Vnd_Siemens_Biograph128Vision_Vr20b_PetSinogram,
     Vnd_Siemens_Biograph128Vision_Vr20b_PetCountRate,
     Vnd_Siemens_Biograph128Vision_Vr20b_PetNormalisation,
+    Vnd_Siemens_Biograph128Vision_Vr20b_PetCtRawData,
 )
 from .surface import Gifti
 from .contents.imaging.modality import (
@@ -162,6 +163,7 @@
     "Vnd_Siemens_Biograph128Vision_Vr20b_PetSinogram",
     "Vnd_Siemens_Biograph128Vision_Vr20b_PetCountRate",
     "Vnd_Siemens_Biograph128Vision_Vr20b_PetNormalisation",
+    "Vnd_Siemens_Biograph128Vision_Vr20b_PetCtRawData",
     "Gifti",
     "ImagingModality",
     "CombinedModalities",
diff --git a/fileformats/medimage/dicom.py b/fileformats/medimage/dicom.py
@@ -1,4 +1,5 @@
 import sys
+import os
 import typing as ty
 from collections import defaultdict, Counter
 from pathlib import Path
@@ -149,6 +150,73 @@ def dicom_collection_read_metadata(
     return collated
 
 
+def get_dicom_tag(
+    file: ty.Union[str, os.PathLike[ty.Any], ty.BinaryIO],
+    target_tag: ty.Tuple[int, int],
+) -> ty.Union[str, bytes, None]:
+    """A basic function to read a DICOM file and extract the value of a specific tag.
+    This is a low-level function that does not use any external libraries.
+    It is not a replacement for pydicom, but can be used to extract specific tags
+    without loading the entire DICOM file into memory.
+
+    Parameters
+    ----------
+    filepath : str or os.PathLike
+        The path to the DICOM file.
+    target_tag : tuple[int, int]
+        The DICOM tag to extract, specified as a tuple of (group, element).
+        For example, (0x0010, 0x0010) for PatientName.
+
+    Returns
+    -------
+    str or bytes or None
+        The value of the specified DICOM tag, decoded as a string if possible.
+        If the tag is not found or cannot be decoded, returns None.
+    """
+    if isinstance(file, (str, os.PathLike)):
+        filepath = file
+        file_stream = open(filepath, "rb")
+        close_stream = True
+    elif hasattr(file, "read"):
+        file_stream = file  # type: ignore[assignment]
+        close_stream = False
+    else:
+        raise TypeError("file must be a path-like object or a binary stream")
+
+    try:
+        file_stream.seek(132)  # Skip preamble and 'DICM' if at file start
+
+        while True:
+            tag_bytes = file_stream.read(4)
+            if len(tag_bytes) < 4:
+                break
+
+            group = int.from_bytes(tag_bytes[:2], "little")
+            element = int.from_bytes(tag_bytes[2:], "little")
+            tag = (group, element)
+
+            vr = file_stream.read(2).decode()
+
+            if vr in {"OB", "OW", "OF", "SQ", "UT", "UN"}:
+                file_stream.read(2)  # reserved
+                length = int.from_bytes(file_stream.read(4), "little")
+            else:
+                length = int.from_bytes(file_stream.read(2), "little")
+
+            value = file_stream.read(length)
+
+            if tag == target_tag:
+                try:
+                    return value.decode().strip()
+                except UnicodeDecodeError:
+                    return value
+    finally:
+        if close_stream:
+            file_stream.close()
+
+    return None  # Not found
+
+
 # class Vnd_Siemens_Vision(DicomImage):
 #     ext = ".ima"
 
diff --git a/fileformats/medimage/raw/__init__.py b/fileformats/medimage/raw/__init__.py
@@ -9,10 +9,12 @@
     PetCountRate,
     PetNormalisation,
     Vnd_Siemens_Biograph128Vision_Vr20b_PetRawData,
+    Vnd_Siemens_Biograph128Vision_Vr20b_LargePetRawData,
     Vnd_Siemens_Biograph128Vision_Vr20b_PetListMode,
     Vnd_Siemens_Biograph128Vision_Vr20b_PetSinogram,
     Vnd_Siemens_Biograph128Vision_Vr20b_PetCountRate,
     Vnd_Siemens_Biograph128Vision_Vr20b_PetNormalisation,
+    Vnd_Siemens_Biograph128Vision_Vr20b_PetCtRawData,
 )
 
 __all__ = [
@@ -24,8 +26,10 @@
     "PetCountRate",
     "PetNormalisation",
     "Vnd_Siemens_Biograph128Vision_Vr20b_PetRawData",
+    "Vnd_Siemens_Biograph128Vision_Vr20b_LargePetRawData",
     "Vnd_Siemens_Biograph128Vision_Vr20b_PetListMode",
     "Vnd_Siemens_Biograph128Vision_Vr20b_PetSinogram",
     "Vnd_Siemens_Biograph128Vision_Vr20b_PetCountRate",
     "Vnd_Siemens_Biograph128Vision_Vr20b_PetNormalisation",
+    "Vnd_Siemens_Biograph128Vision_Vr20b_PetCtRawData",
 ]
diff --git a/fileformats/medimage/raw/pet/__init__.py b/fileformats/medimage/raw/pet/__init__.py
@@ -7,10 +7,12 @@
 )
 from .siemens import (
     Vnd_Siemens_Biograph128Vision_Vr20b_PetRawData,
+    Vnd_Siemens_Biograph128Vision_Vr20b_LargePetRawData,
     Vnd_Siemens_Biograph128Vision_Vr20b_PetListMode,
     Vnd_Siemens_Biograph128Vision_Vr20b_PetSinogram,
     Vnd_Siemens_Biograph128Vision_Vr20b_PetCountRate,
     Vnd_Siemens_Biograph128Vision_Vr20b_PetNormalisation,
+    Vnd_Siemens_Biograph128Vision_Vr20b_PetCtRawData,
 )
 
 
@@ -21,8 +23,10 @@
     "PetCountRate",
     "PetNormalisation",
     "Vnd_Siemens_Biograph128Vision_Vr20b_PetRawData",
+    "Vnd_Siemens_Biograph128Vision_Vr20b_LargePetRawData",
     "Vnd_Siemens_Biograph128Vision_Vr20b_PetListMode",
     "Vnd_Siemens_Biograph128Vision_Vr20b_PetSinogram",
     "Vnd_Siemens_Biograph128Vision_Vr20b_PetCountRate",
     "Vnd_Siemens_Biograph128Vision_Vr20b_PetNormalisation",
+    "Vnd_Siemens_Biograph128Vision_Vr20b_PetCtRawData",
 ]
diff --git a/fileformats/medimage/raw/pet/siemens.py b/fileformats/medimage/raw/pet/siemens.py
diff --git a/scripts/debug_ptd_read.py b/scripts/debug_ptd_read.py