refactor: enhance validation logic for UNB segments and introduce detailed schema checks in segment definitions

nerdoc · nerdoc · commit 2a4dfe4268c6 · 2025-12-22T13:25:27.000+01:00
diff --git a/pydifact/segmentcollection.py b/pydifact/segmentcollection.py
@@ -25,7 +25,7 @@
 from collections.abc import Callable, Iterable, Iterator, Sequence
 from typing import Type, TypeVar
 
-from pydifact.exceptions import EDISyntaxError
+from pydifact.exceptions import EDISyntaxError, ValidationError
 from pydifact.control import Characters
 from pydifact.parser import Parser
 from pydifact.segments import Segment
@@ -284,6 +284,9 @@ class RawSegmentCollection(AbstractSegmentsContainer):
     If you are handling an Interchange or a Message, you may want to prefer
     those classes to RawSegmentCollection, as they offer more features and
     checks.
+
+    There are no header and footer segments in this collection, and validation is
+    omitted.
     """
 
     def get_header_segment(self) -> Segment | None:
@@ -513,33 +516,73 @@ def from_segments(
             unb = first_segment
         else:
             raise EDISyntaxError("An interchange must start with UNB or UNA and UNB")
-        # Loosy syntax check :
-        if len(unb.elements) < 4:
-            raise EDISyntaxError("Missing elements in UNB header")
 
-        # In syntax version 3 the year is formatted using two digits, while in version 4 four digits are used.
+        # extract syntax identifier to know which version to validate against
+        if (
+            not isinstance(unb.elements[0], list)
+            or len(unb.elements[0]) < 2
+            or not unb.elements[0][1].isdecimal()
+        ):
+            raise EDISyntaxError("Syntax identifier malformed.")
+
+        syntax_version = unb.elements[0][1]
+
+        # Validate UNB segment according to the applicable syntax version
+        try:
+            unb.validate(syntax_version=syntax_version, directory="")
+        except (ValidationError, FileNotFoundError) as e:
+            raise EDISyntaxError(f"Invalid UNB header: {e}") from e
+
+        # In syntax version 3 and earlier the year is formatted using two digits,
+        # while in version 4 four digits are used.
         # Since some EDIFACT files in the wild don't adhere to this specification, we just use whatever format seems
         # more appropriate according to the length of the date string.
-        if isinstance(unb.elements[3], list) and len(unb.elements[3]) > 0:
-            if len(unb.elements[3][0]) == 6:
-                datetime_fmt = "%y%m%d-%H%M"
-            elif len(unb.elements[3][0]) == 8:
-                datetime_fmt = "%Y%m%d-%H%M"
-            else:
-                raise EDISyntaxError("Timestamp of file-creation malformed.")
-        else:
-            raise EDISyntaxError("Timestamp of file-creation malformed.")
-
+        # Element 3 of UNB is the date/time of preparation.
+        # In syntax v4 it's a composite S004 (0017 date, 0019 time)
+        # In syntax v3 it's also a composite S004 (0017 date, 0019 time)
+        # Note that Segment.elements might contain strings or lists of strings.
+        preparation_datetime = unb.elements[3]
         if (
-            isinstance(unb.elements[0], list)
-            and len(unb.elements[0]) == 2
-            and unb.elements[0][1].isdecimal()
+            isinstance(preparation_datetime, (list, tuple))
+            and len(preparation_datetime) > 0
         ):
-            syntax_identifier = (unb.elements[0][0], int(unb.elements[0][1]))
+            date_str = preparation_datetime[0]
+            if len(date_str) == 6:
+                datetime_fmt = "%y%m%d"
+            elif len(date_str) == 8:
+                datetime_fmt = "%Y%m%d"
+            else:
+                raise EDISyntaxError(
+                    f"Timestamp of file-creation malformed: {date_str}"
+                )
+
+            if len(preparation_datetime) > 1:
+                time_str = preparation_datetime[1]
+                datetime_fmt += "-%H%M"
+                datetime_str = f"{date_str}-{time_str}"
+            else:
+                datetime_str = date_str
+        elif isinstance(preparation_datetime, str) and preparation_datetime:
+            # Fallback if it's not a composite but a single string
+            if len(preparation_datetime) == 6:
+                datetime_fmt = "%y%m%d"
+                datetime_str = preparation_datetime
+            elif len(preparation_datetime) == 8:
+                datetime_fmt = "%Y%m%d"
+                datetime_str = preparation_datetime
+            elif len(preparation_datetime) == 10:
+                datetime_fmt = "%y%m%d%H%M"
+                datetime_str = preparation_datetime
+            elif len(preparation_datetime) == 12:
+                datetime_fmt = "%Y%m%d%H%M"
+                datetime_str = preparation_datetime
+            else:
+                raise EDISyntaxError(
+                    f"Timestamp of file-creation malformed: {preparation_datetime}"
+                )
         else:
-            raise EDISyntaxError("Syntax identifier malformed.")
-
-        datetime_str = "-".join(unb.elements[3])
+            raise EDISyntaxError("Timestamp of file-creation malformed.")
+        syntax_identifier = (unb.elements[0][0], int(unb.elements[0][1]))
         timestamp = datetime.datetime.strptime(datetime_str, datetime_fmt)
         interchange = Interchange(
             syntax_identifier=syntax_identifier,
diff --git a/pydifact/segments.py b/pydifact/segments.py
@@ -188,114 +188,162 @@ def validate(self, syntax_version: str, directory: str) -> None:
         if not directory and self.tag in service_segments:
             directory = f"service/v{release_version}"
 
-        if directory:
-            try:
-                # load segments xml (or cache it)
-                xml_root = _load_segments_xml(directory)
-
-                # Find the segment definition in XML
-                segment_def = xml_root.find(f".//segment[@id='{self.tag}']")
-
-                if segment_def is None:
-                    logger.warning(f"No definition found for segment {self.tag}")
-                else:
-                    # Validate against XML schema
-
-                    # get sub elements (data_element or composite_data_element)
-                    xml_elements = segment_def.findall("./*")
-                    # get count of required elements
-                    required_element_count = len(
-                        [
-                            e
-                            for e in xml_elements
-                            if e.get("required", "false").lower() == "true"
-                        ]
+        if not directory:
+            # no directory given to compare against
+            return
+
+        try:
+            # load segments xml (or cache it)
+            xml_root = _load_segments_xml(directory)
+
+            if self.tag == "UNA":
+                # UNA is special
+                return
+
+            # Find the segment definition in XML
+            segment_def = xml_root.find(f".//segment[@id='{self.tag}']")
+
+            if segment_def is None:
+                logger.warning(f"No definition found for segment {self.tag}")
+                raise ValidationError(
+                    f"No definition found for segment "
+                    f"{self.tag} in directory {directory}."
+                )
+
+            # Validate against XML schema
+            # first get sub elements (data_element or composite_data_element)
+            xml_elements = segment_def.findall("./*")
+            # get count of required elements
+            required_element_count = len(
+                [
+                    e
+                    for e in xml_elements
+                    if e.get("required", "false").lower() == "true"
+                ]
+            )
+
+            # check if we have less than the required number of elements
+            # defined in XML
+            if len(self.elements) < required_element_count:
+                raise ValidationError(
+                    f"{self.tag}: Too few elements. Expected at least {required_element_count}, "
+                    f"got {len(self.elements)}"
+                )
+
+            # check if we have more elements than defined in XML
+            if len(self.elements) > len(xml_elements):
+                raise ValidationError(
+                    f"{self.tag}: Too many elements. Expected {len(xml_elements)}, "
+                    f"got {len(self.elements)}: {self.elements}"
+                )
+
+            for index, xml_element in enumerate(xml_elements):
+                element = self.elements[index] if index < len(self.elements) else None
+                is_mandatory = xml_element.get("required", "false").lower() == "true"
+                # repeat = int(xml_element.get("repeat", "1")) # not used yet
+
+                if is_mandatory and (element is None or element == ""):
+                    raise ValidationError(
+                        f"{self.tag} Segment, pos. {index}: "
+                        f"element {xml_element.get('id')} ({xml_element.get('name')}) "
+                        f"is required."
                     )
 
-                    # check if we have less than the required number of elements
-                    # defined in XML
-                    if len(self.elements) < required_element_count:
-                        raise ValidationError(
-                            f"{self.tag}: Too few elements. Expected at least {required_element_count}, "
-                            f"got {len(self.elements)}"
-                        )
-
-                    # check if we have more elements than defined in XML
-                    if len(self.elements) > len(xml_elements):
-                        raise ValidationError(
-                            f"{self.tag}: Too many elements. Expected {len(xml_elements)}, "
-                            f"got {len(self.elements)}: {self.elements}"
-                        )
-
-                    for index, xml_element in enumerate(xml_elements):
-                        element = (
-                            self.elements[index] if index < len(self.elements) else None
-                        )
-                        is_mandatory = (
-                            xml_element.get("required", "false").lower() == "true"
-                        )
-                        # repeat = int(xml_element.get("repeat", "1")) # not used yet
-
-                        if is_mandatory and (element is None or element == ""):
+                if element:
+                    if xml_element.tag == "data_element":
+                        if not isinstance(element, str):
                             raise ValidationError(
                                 f"{self.tag} Segment, pos. {index}: "
                                 f"element {xml_element.get('id')} ({xml_element.get('name')}) "
-                                f"is required."
+                                f"should be a simple data element, but got: "
+                                f"{element}"
                             )
-
-                        if element:
-                            if xml_element.tag == "composite_data_element":
-                                if not isinstance(element, (list, str)):
-                                    raise ValidationError(
-                                        f"{self.tag} Segment, pos. {index}: "
-                                        f"Element {xml_element.get('id')} must be a "
-                                        f"composite data element (list or str), "
-                                        f"but got '{type(element).__name__}': '{element}'"
-                                    )
-                                # TODO: validate internal structure of composite
-                            elif xml_element.tag == "data_element":
-                                if isinstance(element, list):
+                        repeat = xml_element.get("repeat", "")
+                        if not repeat.isdigit():
+                            logger.warning(
+                                "'repeat' attribute missing for "
+                                f"element {directory}."
+                                f"{xml_element.get('id')}"
+                            )
+                            repeat = "1"
+                        # TODO: validate repeats
+
+                        # validate data element (length, type)
+                        # convert type and maxlength/minlength to repr string (e.g. "an..3")
+                        type_code = xml_element.get("type")
+                        length = int(xml_element.get("length", "0"))
+                        maxlength = int(xml_element.get("maxlength", "0"))
+                        match type_code:
+                            case "an":
+                                # no validation necessary, all is allowed.
+
+                                # this is dangerous, as supposedly many EDIFACT
+                                # senders do not comply to standards and send all
+                                # types of chars...
+
+                                # for char in element:
+                                #     if not char.isalnum():
+                                #         raise ValidationError(
+                                #             f"{self.tag} Segment, pos. {index}: "
+                                #             f"element {xml_element.get('id')} ({xml_element.get('name')}) "
+                                #             f"contains invalid character: {char}"
+                                #         )
+                                pass
+                            case "n":
+                                # make sure the element only consists of numbers
+                                if not element.strip().isdigit():
                                     raise ValidationError(
                                         f"{self.tag} Segment, pos. {index}: "
                                         f"element {xml_element.get('id')} ({xml_element.get('name')}) "
-                                        f"must be a data element, but got a list:"
-                                        f" {element}"
+                                        f"should only contain numbers, but got: "
+                                        f"{element}"
                                     )
-
-                                # validate data element (length, type)
-                                # convert type and maxlength/minlength to repr string (e.g. "an..3")
-                                type_code = xml_element.get("type", "an")
-                                maxlength = xml_element.get("maxlength")
-                                minlength = xml_element.get("minlength")
-                                if maxlength:
-                                    if minlength and minlength == maxlength:
-                                        repr_str = f"{type_code}{maxlength}"
-                                    else:
-                                        repr_str = f"{type_code}..{maxlength}"
-
-                                    # we use the DataElement class from common.py to validate
-                                    # but we don't want to create an instance if we don't have to
-                                    # however, DataElement.validate is an instance method.
-                                    # Since we have the value as a string (or Element), we can use it.
-                                    from pydifact.syntax.common import DataElement
-
-                                    de = DataElement(str(element))
-                                    # provide a fake code and title for better error messages
-                                    de.code = xml_element.get("id")
-                                    de.title = xml_element.get("name")
-                                    de.validate(mandatory=is_mandatory, repr=repr_str)
-
-            except FileNotFoundError:
-                warnings.warn(
-                    f"segments.xml not found for directory '{directory}'. "
-                    f"Falling back to schema-based validation.",
-                    category=MissingImplementationWarning,
-                )
-            except ET.ParseError as e:
-                warnings.warn(
-                    f"Failed to parse segments.xml: {e}. ",
-                    category=MissingImplementationWarning,
-                )
+                            case "a":
+                                # Data element can include any letters, special
+                                # characters, and control characters but no digits.
+                                # make sure all chars are in SYNTAX_CHARACTERS
+                                for char in element:
+                                    if not char.isalpha():
+                                        raise ValidationError(
+                                            f"{self.tag} Segment, pos. {index}: "
+                                            f"element {xml_element.get('id')} ({xml_element.get('name')}) "
+                                            f"contains invalid character: {char}"
+                                        )
+
+                        if maxlength:
+                            if len(element) > maxlength:
+                                raise ValidationError(
+                                    f"{self.tag} Segment, pos. {index}: "
+                                    f"element {xml_element.get('id')} "
+                                    f"({xml_element.get('name')}) "
+                                    f"exceeds maximum length of {maxlength}: {element}"
+                                )
+                        elif length:
+                            if len(element) != length:
+                                raise ValidationError(
+                                    f"{self.tag} Segment, pos. {index}: "
+                                    f"element {xml_element.get('id')} "
+                                    f"({xml_element.get('name')}) "
+                                    f"should be {length} characters long, but is {len(
+                                        element)}: {element}"
+                                )
+
+        except FileNotFoundError as e:
+            warnings.warn(
+                f"segments.xml not found for directory '{directory}'. "
+                f"Falling back to schema-based validation.",
+                category=MissingImplementationWarning,
+            )
+            if self.tag in service_segments:
+                raise ValidationError(
+                    f"Schema for service segment {self.tag} not found "
+                    f"(directory '{directory}')"
+                ) from e
+        except ET.ParseError as e:
+            warnings.warn(
+                f"Failed to parse segments.xml: {e}. ",
+                category=MissingImplementationWarning,
+            )
 
 
 class SegmentFactory: