airbytehq
diff --git a/‎airbyte/_processors/sql/base.py‎
Lines changed: 27 additions & 17 deletions b/‎airbyte/_processors/sql/base.py‎
Lines changed: 27 additions & 17 deletions
diff --git a/‎airbyte/_processors/sql/duckdb.py‎
Lines changed: 9 additions & 3 deletions b/‎airbyte/_processors/sql/duckdb.py‎
Lines changed: 9 additions & 3 deletions
diff --git a/‎airbyte/_processors/sql/snowflake.py‎
Lines changed: 4 additions & 2 deletions b/‎airbyte/_processors/sql/snowflake.py‎
Lines changed: 4 additions & 2 deletions
diff --git a/‎airbyte/_util/name_normalizers.py‎
Lines changed: 205 additions & 0 deletions b/‎airbyte/_util/name_normalizers.py‎
Lines changed: 205 additions & 0 deletions
diff --git a/‎airbyte/_util/text_util.py‎
Lines changed: 0 additions & 15 deletions b/‎airbyte/_util/text_util.py‎
Lines changed: 0 additions & 15 deletions
@@ -13,6 +13,7 @@
 import sqlalchemy
 import ulid
 from overrides import overrides
+from pandas import Index
 from sqlalchemy import (
     Column,
     Table,
@@ -29,7 +30,7 @@
 
 from airbyte import exceptions as exc
 from airbyte._processors.base import RecordProcessor
-from airbyte._util.text_util import lower_case_set
+from airbyte._util.name_normalizers import LowerCaseNormalizer
 from airbyte.caches._catalog_manager import CatalogManager
 from airbyte.datasets._sql import CachedDataset
 from airbyte.progress import progress
@@ -73,9 +74,17 @@ class SqlProcessorBase(RecordProcessor):
     """A base class to be used for SQL Caches."""
 
     type_converter_class: type[SQLTypeConverter] = SQLTypeConverter
+    """The type converter class to use for converting JSON schema types to SQL types."""
+
+    normalizer = LowerCaseNormalizer
+    """The name normalizer to user for table and column name normalization."""
+
     file_writer_class: type[FileWriterBase]
+    """The file writer class to use for writing files to the cache."""
 
     supports_merge_insert = False
+    """True if the database supports the MERGE INTO syntax."""
+
     use_singleton_connection = False  # If true, the same connection is used for all operations.
 
     # Constructor:
@@ -197,7 +206,7 @@ def get_sql_table_name(
 
         # TODO: Add default prefix based on the source name.
 
-        return self._normalize_table_name(
+        return self.normalizer.normalize(
             f"{table_prefix}{stream_name}{self.cache.table_suffix}",
         )
 
@@ -324,7 +333,7 @@ def _get_temp_table_name(
     ) -> str:
         """Return a new (unique) temporary table name."""
         batch_id = batch_id or str(ulid.ULID())
-        return self._normalize_table_name(f"{stream_name}_{batch_id}")
+        return self.normalizer.normalize(f"{stream_name}_{batch_id}")
 
     def _fully_qualified(
         self,
@@ -414,11 +423,11 @@ def _ensure_compatible_table_schema(
         stream_column_names: list[str] = json_schema["properties"].keys()
         table_column_names: list[str] = self.get_sql_table(stream_name).columns.keys()
 
-        lower_case_table_column_names = lower_case_set(table_column_names)
+        lower_case_table_column_names = self.normalizer.normalize_set(table_column_names)
         missing_columns = [
             stream_col
             for stream_col in stream_column_names
-            if stream_col.lower() not in lower_case_table_column_names
+            if self.normalizer.normalize(stream_col) not in lower_case_table_column_names
         ]
         if missing_columns:
             if raise_on_error:
@@ -452,17 +461,12 @@ def _create_table(
         """
         _ = self._execute_sql(cmd)
 
-    def _normalize_column_name(
-        self,
-        raw_name: str,
-    ) -> str:
-        return raw_name.lower().replace(" ", "_").replace("-", "_")
-
-    def _normalize_table_name(
+    def _get_stream_properties(
         self,
-        raw_name: str,
-    ) -> str:
-        return raw_name.lower().replace(" ", "_").replace("-", "_")
+        stream_name: str,
+    ) -> dict[str, dict]:
+        """Return the names of the top-level properties for the given stream."""
+        return self._get_stream_json_schema(stream_name)["properties"]
 
     @final
     def _get_sql_column_definitions(
@@ -471,9 +475,9 @@ def _get_sql_column_definitions(
     ) -> dict[str, sqlalchemy.types.TypeEngine]:
         """Return the column definitions for the given stream."""
         columns: dict[str, sqlalchemy.types.TypeEngine] = {}
-        properties = self._get_stream_json_schema(stream_name)["properties"]
+        properties = self._get_stream_properties(stream_name)
         for property_name, json_schema_property_def in properties.items():
-            clean_prop_name = self._normalize_column_name(property_name)
+            clean_prop_name = self.normalizer.normalize(property_name)
             columns[clean_prop_name] = self.type_converter.to_sql_type(
                 json_schema_property_def,
             )
@@ -635,6 +639,12 @@ def _write_files_to_new_table(
                     },
                 )
 
+            # Normalize all column names to lower case.
+            dataframe.columns = Index(
+                [LowerCaseNormalizer.normalize(col) for col in dataframe.columns]
+            )
+
+            # Write the data to the table.
             dataframe.to_sql(
                 temp_table_name,
                 self.get_sql_alchemy_url(),
 
@@ -84,6 +84,7 @@ def _write_files_to_new_table(
             stream_name=stream_name,
             batch_id=batch_id,
         )
+        properties_list = list(self._get_stream_properties(stream_name).keys())
         columns_list = list(self._get_sql_column_definitions(stream_name=stream_name).keys())
         columns_list_str = indent(
             "\n, ".join([self._quote_identifier(c) for c in columns_list]),
@@ -93,9 +94,14 @@ def _write_files_to_new_table(
         columns_type_map = indent(
             "\n, ".join(
                 [
-                    f"{self._quote_identifier(c)}: "
-                    f"{self._get_sql_column_definitions(stream_name)[c]!s}"
-                    for c in columns_list
+                    self._quote_identifier(prop_name)
+                    + ": "
+                    + str(
+                        self._get_sql_column_definitions(stream_name)[
+                            self.normalizer.normalize(prop_name)
+                        ]
+                    )
+                    for prop_name in properties_list
                 ]
             ),
             "    ",
 
@@ -67,14 +67,16 @@ def _write_files_to_new_table(
             ]
         )
         self._execute_sql(put_files_statements)
-
+        properties_list: list[str] = list(self._get_stream_properties(stream_name).keys())
         columns_list = [
             self._quote_identifier(c)
             for c in list(self._get_sql_column_definitions(stream_name).keys())
         ]
         files_list = ", ".join([f"'{f.name}'" for f in files])
         columns_list_str: str = indent("\n, ".join(columns_list), " " * 12)
-        variant_cols_str: str = ("\n" + " " * 21 + ", ").join([f"$1:{col}" for col in columns_list])
+        variant_cols_str: str = ("\n" + " " * 21 + ", ").join(
+            [f"$1:{col}" for col in properties_list]
+        )
         copy_statement = dedent(
             f"""
             COPY INTO {temp_table_name}
 
@@ -0,0 +1,205 @@
+# Copyright (c) 2023 Airbyte, Inc., all rights reserved.
+"""Name normalizer classes."""
+
+from __future__ import annotations
+
+import abc
+from typing import TYPE_CHECKING, Any
+
+
+if TYPE_CHECKING:
+    from collections.abc import Iterable, Iterator
+
+
+class NameNormalizerBase(abc.ABC):
+    """Abstract base class for name normalizers."""
+
+    @staticmethod
+    @abc.abstractmethod
+    def normalize(name: str) -> str:
+        """Return the normalized name."""
+        ...
+
+    @classmethod
+    def normalize_set(cls, str_iter: Iterable[str]) -> set[str]:
+        """Converts string iterable to a set of lower case strings."""
+        return {cls.normalize(s) for s in str_iter}
+
+    @classmethod
+    def normalize_list(cls, str_iter: Iterable[str]) -> list[str]:
+        """Converts string iterable to a list of lower case strings."""
+        return [cls.normalize(s) for s in str_iter]
+
+    @classmethod
+    def check_matched(cls, name1: str, name2: str) -> bool:
+        """Return True if the two names match after each is normalized."""
+        return cls.normalize(name1) == cls.normalize(name2)
+
+    @classmethod
+    def check_normalized(cls, name: str) -> bool:
+        """Return True if the name is already normalized."""
+        return cls.normalize(name) == name
+
+
+class LowerCaseNormalizer(NameNormalizerBase):
+    """A name normalizer that converts names to lower case."""
+
+    @staticmethod
+    def normalize(name: str) -> str:
+        """Return the normalized name."""
+        return name.lower().replace(" ", "_").replace("-", "_")
+
+
+class CaseInsensitiveDict(dict[str, Any]):
+    """A case-aware, case-insensitive dictionary implementation.
+
+    It has these behaviors:
+    - When a key is retrieved, deleted, or checked for existence, it is always checked in a
+      case-insensitive manner.
+    - The original case is stored in a separate dictionary, so that the original case can be
+      retrieved when needed.
+
+    There are two ways to store keys internally:
+    - If normalize_keys is True, the keys are normalized using the given normalizer.
+    - If normalize_keys is False, the original case of the keys is stored.
+
+    In regards to missing values, the dictionary accepts an 'expected_keys' input. When set, the
+    dictionary will be initialized with the given keys. If a key is not found in the input data, it
+    will be initialized with a value of None. When provided, the 'expected_keys' input will also
+    determine the original case of the keys.
+    """
+
+    def _display_case(self, key: str) -> str:
+        """Return the original case of the key."""
+        return self._pretty_case_keys[self._normalizer.normalize(key)]
+
+    def _index_case(self, key: str) -> str:
+        """Return the internal case of the key.
+
+        If normalize_keys is True, return the normalized key.
+        Otherwise, return the original case of the key.
+        """
+        if self._normalize_keys:
+            return self._normalizer.normalize(key)
+
+        return self._display_case(key)
+
+    def __init__(
+        self,
+        from_dict: dict,
+        *,
+        normalize_keys: bool = True,
+        normalizer: type[NameNormalizerBase] | None = None,
+        expected_keys: list[str] | None = None,
+    ) -> None:
+        """Initialize the dictionary with the given data.
+
+        If normalize_keys is True, the keys will be normalized using the given normalizer.
+        If expected_keys is provided, the dictionary will be initialized with the given keys.
+        """
+        # If no normalizer is provided, use LowerCaseNormalizer.
+        self._normalize_keys = normalize_keys
+        self._normalizer: type[NameNormalizerBase] = normalizer or LowerCaseNormalizer
+
+        # If no expected keys are provided, use all keys from the input dictionary.
+        if not expected_keys:
+            expected_keys = list(from_dict.keys())
+
+        # Store a lookup from normalized keys to pretty cased (originally cased) keys.
+        self._pretty_case_keys: dict[str, str] = {
+            self._normalizer.normalize(pretty_case.lower()): pretty_case
+            for pretty_case in expected_keys
+        }
+
+        if normalize_keys:
+            index_keys = [self._normalizer.normalize(key) for key in expected_keys]
+        else:
+            index_keys = expected_keys
+
+        self.update({k: None for k in index_keys})  # Start by initializing all values to None
+        for k, v in from_dict.items():
+            self[self._index_case(k)] = v
+
+    def __getitem__(self, key: str) -> Any:  # noqa: ANN401
+        if super().__contains__(key):
+            return super().__getitem__(key)
+
+        if super().__contains__(self._index_case(key)):
+            return super().__getitem__(self._index_case(key))
+
+        raise KeyError(key)
+
+    def __setitem__(self, key: str, value: Any) -> None:  # noqa: ANN401
+        if super().__contains__(key):
+            super().__setitem__(key, value)
+            return
+
+        if super().__contains__(self._index_case(key)):
+            super().__setitem__(self._index_case(key), value)
+            return
+
+        # Store the pretty cased (originally cased) key:
+        self._pretty_case_keys[self._normalizer.normalize(key)] = key
+
+        # Store the data with the normalized key:
+        super().__setitem__(self._index_case(key), value)
+
+    def __delitem__(self, key: str) -> None:
+        if super().__contains__(key):
+            super().__delitem__(key)
+            return
+
+        if super().__contains__(self._index_case(key)):
+            super().__delitem__(self._index_case(key))
+            return
+
+        raise KeyError(key)
+
+    def __contains__(self, key: object) -> bool:
+        assert isinstance(key, str), "Key must be a string."
+        return super().__contains__(key) or super().__contains__(self._index_case(key))
+
+    def __iter__(self) -> Any:  # noqa: ANN401
+        return iter(super().__iter__())
+
+    def __len__(self) -> int:
+        return super().__len__()
+
+    def __eq__(self, other: object) -> bool:
+        if isinstance(other, CaseInsensitiveDict):
+            return dict(self) == dict(other)
+
+        if isinstance(other, dict):
+            return {k.lower(): v for k, v in self.items()} == {
+                k.lower(): v for k, v in other.items()
+            }
+        return False
+
+
+def normalize_records(
+    records: Iterable[dict[str, Any]],
+    expected_keys: list[str],
+) -> Iterator[CaseInsensitiveDict]:
+    """Add missing columns to the record with null values.
+
+    Also conform the column names to the case in the catalog.
+
+    This is a generator that yields CaseInsensitiveDicts, which allows for case-insensitive
+    lookups of columns. This is useful because the case of the columns in the records may
+    not match the case of the columns in the catalog.
+    """
+    yield from (
+        CaseInsensitiveDict(
+            from_dict=record,
+            expected_keys=expected_keys,
+        )
+        for record in records
+    )
+
+
+__all__ = [
+    "NameNormalizerBase",
+    "LowerCaseNormalizer",
+    "CaseInsensitiveDict",
+    "normalize_records",
+]
Original file line number	Diff line number	Diff line change
`@@ -67,14 +67,16 @@ def _write_files_to_new_table(`
`67`	`67`	`]`
`68`	`68`	`)`
`69`	`69`	`self._execute_sql(put_files_statements)`
`70`		`-`
	`70`	`+ properties_list: list[str] = list(self._get_stream_properties(stream_name).keys())`
`71`	`71`	`columns_list = [`
`72`	`72`	`self._quote_identifier(c)`
`73`	`73`	`for c in list(self._get_sql_column_definitions(stream_name).keys())`
`74`	`74`	`]`
`75`	`75`	`files_list = ", ".join([f"'{f.name}'" for f in files])`
`76`	`76`	`columns_list_str: str = indent("\n, ".join(columns_list), " " * 12)`
`77`		`- variant_cols_str: str = ("\n" + " " * 21 + ", ").join([f"$1:{col}" for col in columns_list])`
	`77`	`+ variant_cols_str: str = ("\n" + " " * 21 + ", ").join(`
	`78`	`+ [f"$1:{col}" for col in properties_list]`
	`79`	`+ )`
`78`	`80`	`copy_statement = dedent(`
`79`	`81`	`f"""`
`80`	`82`	`COPY INTO {temp_table_name}`