Handling eventual consistency for Aurora postgres load

igorborgest · igorborgest · commit 2f1cab6a290a · 2020-01-11T11:56:00.000-03:00
diff --git a/awswrangler/aurora.py b/awswrangler/aurora.py
@@ -1,12 +1,14 @@
 from typing import TYPE_CHECKING, Union, List, Dict, Tuple, Any
-from logging import getLogger, Logger
+from logging import getLogger, Logger, INFO
 import json
 import warnings
 
 import pg8000  # type: ignore
+from pg8000 import ProgrammingError  # type: ignore
 import pymysql  # type: ignore
 import pandas as pd  # type: ignore
 from boto3 import client  # type: ignore
+import tenacity  # type: ignore
 
 from awswrangler import data_types
 from awswrangler.exceptions import InvalidEngine, InvalidDataframeType, AuroraLoadError
@@ -134,7 +136,7 @@ def load_table(dataframe: pd.DataFrame,
                    schema_name: str,
                    table_name: str,
                    connection: Any,
-                   num_files,
+                   num_files: int,
                    mode: str = "append",
                    preserve_index: bool = False,
                    engine: str = "mysql",
@@ -156,6 +158,54 @@ def load_table(dataframe: pd.DataFrame,
         :param region: AWS S3 bucket region (Required only for postgres engine)
         :return: None
         """
+        if "postgres" in engine.lower():
+            Aurora.load_table_postgres(dataframe=dataframe,
+                                       dataframe_type=dataframe_type,
+                                       load_paths=load_paths,
+                                       schema_name=schema_name,
+                                       table_name=table_name,
+                                       connection=connection,
+                                       mode=mode,
+                                       preserve_index=preserve_index,
+                                       region=region)
+        elif "mysql" in engine.lower():
+            Aurora.load_table_mysql(dataframe=dataframe,
+                                    dataframe_type=dataframe_type,
+                                    manifest_path=load_paths[0],
+                                    schema_name=schema_name,
+                                    table_name=table_name,
+                                    connection=connection,
+                                    mode=mode,
+                                    preserve_index=preserve_index,
+                                    num_files=num_files)
+        else:
+            raise InvalidEngine(f"{engine} is not a valid engine. Please use 'mysql' or 'postgres'!")
+
+    @staticmethod
+    def load_table_postgres(dataframe: pd.DataFrame,
+                            dataframe_type: str,
+                            load_paths: List[str],
+                            schema_name: str,
+                            table_name: str,
+                            connection: Any,
+                            mode: str = "append",
+                            preserve_index: bool = False,
+                            region: str = "us-east-1"):
+        """
+        Load text/CSV files into a Aurora table using a manifest file.
+        Creates the table if necessary.
+
+        :param dataframe: Pandas or Spark Dataframe
+        :param dataframe_type: "pandas" or "spark"
+        :param load_paths: S3 paths to be loaded (E.g. S3://...)
+        :param schema_name: Aurora schema
+        :param table_name: Aurora table name
+        :param connection: A PEP 249 compatible connection (Can be generated with Aurora.generate_connection())
+        :param mode: append or overwrite
+        :param preserve_index: Should we preserve the Dataframe index? (ONLY for Pandas Dataframe)
+        :param region: AWS S3 bucket region (Required only for postgres engine)
+        :return: None
+        """
         with connection.cursor() as cursor:
             if mode == "overwrite":
                 Aurora._create_table(cursor=cursor,
@@ -164,30 +214,94 @@ def load_table(dataframe: pd.DataFrame,
                                      schema_name=schema_name,
                                      table_name=table_name,
                                      preserve_index=preserve_index,
-                                     engine=engine)
-            for path in load_paths:
-                sql = Aurora._get_load_sql(path=path,
-                                           schema_name=schema_name,
-                                           table_name=table_name,
-                                           engine=engine,
-                                           region=region)
-                logger.debug(sql)
+                                     engine="postgres")
+                connection.commit()
+                logger.debug("CREATE TABLE committed.")
+        for path in load_paths:
+            Aurora._load_object_postgres_with_retry(connection=connection,
+                                                    schema_name=schema_name,
+                                                    table_name=table_name,
+                                                    path=path,
+                                                    region=region)
+
+    @staticmethod
+    @tenacity.retry(retry=tenacity.retry_if_exception_type(exception_types=ProgrammingError),
+                    wait=tenacity.wait_random_exponential(multiplier=0.5),
+                    stop=tenacity.stop_after_attempt(max_attempt_number=5),
+                    reraise=True,
+                    after=tenacity.after_log(logger, INFO))
+    def _load_object_postgres_with_retry(connection: Any, schema_name: str, table_name: str, path: str,
+                                         region: str) -> None:
+        with connection.cursor() as cursor:
+            sql = Aurora._get_load_sql(path=path,
+                                       schema_name=schema_name,
+                                       table_name=table_name,
+                                       engine="postgres",
+                                       region=region)
+            logger.debug(sql)
+            try:
                 cursor.execute(sql)
+            except ProgrammingError as ex:
+                if "The file has been modified" in str(ex):
+                    connection.rollback()
+                    raise ex
+            connection.commit()
+            logger.debug(f"Load committed for: {path}.")
 
-        connection.commit()
-        logger.debug("Load committed.")
+    @staticmethod
+    def load_table_mysql(dataframe: pd.DataFrame,
+                         dataframe_type: str,
+                         manifest_path: str,
+                         schema_name: str,
+                         table_name: str,
+                         connection: Any,
+                         num_files: int,
+                         mode: str = "append",
+                         preserve_index: bool = False):
+        """
+        Load text/CSV files into a Aurora table using a manifest file.
+        Creates the table if necessary.
 
-        if "mysql" in engine.lower():
-            with connection.cursor() as cursor:
-                sql = ("-- AWS DATA WRANGLER\n"
-                       f"SELECT COUNT(*) as num_files_loaded FROM mysql.aurora_s3_load_history "
-                       f"WHERE load_prefix = '{path}'")
-                logger.debug(sql)
-                cursor.execute(sql)
-                num_files_loaded = cursor.fetchall()[0][0]
-                if num_files_loaded != (num_files + 1):
-                    raise AuroraLoadError(
-                        f"Missing files to load. {num_files_loaded} files counted. {num_files + 1} expected.")
+        :param dataframe: Pandas or Spark Dataframe
+        :param dataframe_type: "pandas" or "spark"
+        :param manifest_path: S3 manifest path to be loaded (E.g. S3://...)
+        :param schema_name: Aurora schema
+        :param table_name: Aurora table name
+        :param connection: A PEP 249 compatible connection (Can be generated with Aurora.generate_connection())
+        :param num_files: Number of files to be loaded
+        :param mode: append or overwrite
+        :param preserve_index: Should we preserve the Dataframe index? (ONLY for Pandas Dataframe)
+        :return: None
+        """
+        with connection.cursor() as cursor:
+            if mode == "overwrite":
+                Aurora._create_table(cursor=cursor,
+                                     dataframe=dataframe,
+                                     dataframe_type=dataframe_type,
+                                     schema_name=schema_name,
+                                     table_name=table_name,
+                                     preserve_index=preserve_index,
+                                     engine="mysql")
+            sql = Aurora._get_load_sql(path=manifest_path,
+                                       schema_name=schema_name,
+                                       table_name=table_name,
+                                       engine="mysql")
+            logger.debug(sql)
+            cursor.execute(sql)
+            logger.debug(f"Load done for: {manifest_path}")
+            connection.commit()
+            logger.debug("Load committed.")
+
+        with connection.cursor() as cursor:
+            sql = ("-- AWS DATA WRANGLER\n"
+                   f"SELECT COUNT(*) as num_files_loaded FROM mysql.aurora_s3_load_history "
+                   f"WHERE load_prefix = '{manifest_path}'")
+            logger.debug(sql)
+            cursor.execute(sql)
+            num_files_loaded = cursor.fetchall()[0][0]
+            if num_files_loaded != (num_files + 1):
+                raise AuroraLoadError(
+                    f"Missing files to load. {num_files_loaded} files counted. {num_files + 1} expected.")
 
     @staticmethod
     def _parse_path(path):
diff --git a/awswrangler/pandas.py b/awswrangler/pandas.py
@@ -688,7 +688,7 @@ def to_csv(self,
             raise InvalidSerDe(f"{serde} in not in the valid SerDe list ({Pandas.VALID_CSV_SERDES})")
         if (database is not None) and (serde is None):
             raise InvalidParameters(f"It is not possible write to a Glue Database without a SerDe.")
-        extra_args: Dict[str, Optional[str]] = {
+        extra_args: Dict[str, Optional[Union[str, int]]] = {
             "sep": sep,
             "na_rep": na_rep,
             "serde": serde,
@@ -779,7 +779,7 @@ def to_s3(self,
               procs_cpu_bound=None,
               procs_io_bound=None,
               cast_columns=None,
-              extra_args: Optional[Dict[str, Optional[str]]] = None,
+              extra_args: Optional[Dict[str, Optional[Union[str, int]]]] = None,
               inplace: bool = True,
               description: Optional[str] = None,
               parameters: Optional[Dict[str, str]] = None,
diff --git a/awswrangler/s3.py b/awswrangler/s3.py
@@ -308,7 +308,12 @@ def get_objects_sizes(self, objects_paths: List[str], procs_io_bound: Optional[i
             receive_pipes[i].close()
         return objects_sizes
 
-    def copy_listed_objects(self, objects_paths: List[str], source_path: str, target_path: str, mode: str = "append", procs_io_bound: Optional[int] = None):
+    def copy_listed_objects(self,
+                            objects_paths: List[str],
+                            source_path: str,
+                            target_path: str,
+                            mode: str = "append",
+                            procs_io_bound: Optional[int] = None):
         if procs_io_bound is None:
             procs_io_bound = self._session.procs_io_bound
         logger.debug(f"procs_io_bound: {procs_io_bound}")
diff --git a/testing/test_awswrangler/test_pandas.py b/testing/test_awswrangler/test_pandas.py
@@ -1937,7 +1937,7 @@ def test_aurora_postgres_load_special(bucket, postgres_parameters):
             Decimal((0, (1, 9, 9), -2)),
             Decimal((0, (1, 9, 9), -2)),
             Decimal((0, (1, 9, 0), -2)),
-            Decimal((0, (3, 1, 2), -2))
+            None
         ]
     })
 
@@ -1978,7 +1978,7 @@ def test_aurora_postgres_load_special(bucket, postgres_parameters):
         assert rows[0][4] == Decimal((0, (1, 9, 9), -2))
         assert rows[1][4] == Decimal((0, (1, 9, 9), -2))
         assert rows[2][4] == Decimal((0, (1, 9, 0), -2))
-        assert rows[3][4] == Decimal((0, (3, 1, 2), -2))
+        assert rows[3][4] is None
     conn.close()
 
 
@@ -1992,7 +1992,7 @@ def test_aurora_mysql_load_special(bucket, mysql_parameters):
             Decimal((0, (1, 9, 9), -2)),
             Decimal((0, (1, 9, 9), -2)),
             Decimal((0, (1, 9, 0), -2)),
-            Decimal((0, (3, 1, 2), -2))
+            None
         ]
     })
 
@@ -2004,7 +2004,7 @@ def test_aurora_mysql_load_special(bucket, mysql_parameters):
                         mode="overwrite",
                         temp_s3_path=path,
                         engine="mysql",
-                        procs_cpu_bound=1)
+                        procs_cpu_bound=4)
     conn = Aurora.generate_connection(database="mysql",
                                       host=mysql_parameters["MysqlAddress"],
                                       port=3306,
@@ -2033,7 +2033,7 @@ def test_aurora_mysql_load_special(bucket, mysql_parameters):
         assert rows[0][4] == Decimal((0, (1, 9, 9), -2))
         assert rows[1][4] == Decimal((0, (1, 9, 9), -2))
         assert rows[2][4] == Decimal((0, (1, 9, 0), -2))
-        assert rows[3][4] == Decimal((0, (3, 1, 2), -2))
+        assert rows[3][4] is None
     conn.close()
 
 
@@ -2073,7 +2073,7 @@ def test_read_sql_athena_empty(ctas_approach):
 
 
 def test_aurora_postgres_load_special2(bucket, postgres_parameters):
-    dt = lambda x: datetime.strptime(x, "%Y-%m-%d %H:%M:%S.%f")
+    dt = lambda x: datetime.strptime(x, "%Y-%m-%d %H:%M:%S.%f")  # noqa
     df = pd.DataFrame({
         "integer1": [0, 1, np.NaN, 3],
         "integer2": [8986, 9735, 9918, 9150],
@@ -2084,11 +2084,17 @@ def test_aurora_postgres_load_special2(bucket, postgres_parameters):
         "float1": [0.0, 1800000.0, np.NaN, 0.0],
         "string5": ["0000296722", "0000199396", "0000298592", "0000196380"],
         "string6": [None, "C", "C", None],
-        "timestamp1": [dt("2020-01-07 00:00:00.000"), None, dt("2020-01-07 00:00:00.000"),
-                       dt("2020-01-07 00:00:00.000")],
+        "timestamp1":
+        [dt("2020-01-07 00:00:00.000"), None,
+         dt("2020-01-07 00:00:00.000"),
+         dt("2020-01-07 00:00:00.000")],
         "string7": ["XXX", "XXX", "XXX", "XXX"],
-        "timestamp2": [dt("2020-01-10 10:34:55.863"), dt("2020-01-10 10:34:55.864"), dt("2020-01-10 10:34:55.865"),
-                       dt("2020-01-10 10:34:55.866")],
+        "timestamp2": [
+            dt("2020-01-10 10:34:55.863"),
+            dt("2020-01-10 10:34:55.864"),
+            dt("2020-01-10 10:34:55.865"),
+            dt("2020-01-10 10:34:55.866")
+        ],
     })
     df = pd.concat([df for _ in range(10_000)])
     path = f"s3://{bucket}/test_aurora_postgres_special"
@@ -2098,8 +2104,7 @@ def test_aurora_postgres_load_special2(bucket, postgres_parameters):
                         table="test_aurora_postgres_load_special2",
                         mode="overwrite",
                         temp_s3_path=path,
-                        engine="postgres",
-                        procs_cpu_bound=1)
+                        engine="postgres")
     conn = Aurora.generate_connection(database="postgres",
                                       host=postgres_parameters["PostgresAddress"],
                                       port=3306,
@@ -2115,7 +2120,8 @@ def test_aurora_postgres_load_special2(bucket, postgres_parameters):
         assert rows[1][0] == dt("2020-01-10 10:34:55.864")
         assert rows[2][0] == dt("2020-01-10 10:34:55.865")
         assert rows[3][0] == dt("2020-01-10 10:34:55.866")
-        cursor.execute("SELECT integer1, float1, string6, timestamp1 FROM public.test_aurora_postgres_load_special2 limit 4")
+        cursor.execute(
+            "SELECT integer1, float1, string6, timestamp1 FROM public.test_aurora_postgres_load_special2 limit 4")
         rows = cursor.fetchall()
         assert rows[2][0] is None
         assert rows[2][1] is None
@@ -2125,7 +2131,7 @@ def test_aurora_postgres_load_special2(bucket, postgres_parameters):
 
 
 def test_aurora_mysql_load_special2(bucket, mysql_parameters):
-    dt = lambda x: datetime.strptime(x, "%Y-%m-%d %H:%M:%S.%f")
+    dt = lambda x: datetime.strptime(x, "%Y-%m-%d %H:%M:%S.%f")  # noqa
     df = pd.DataFrame({
         "integer1": [0, 1, np.NaN, 3],
         "integer2": [8986, 9735, 9918, 9150],
@@ -2136,11 +2142,17 @@ def test_aurora_mysql_load_special2(bucket, mysql_parameters):
         "float1": [0.0, 1800000.0, np.NaN, 0.0],
         "string5": ["0000296722", "0000199396", "0000298592", "0000196380"],
         "string6": [None, "C", "C", None],
-        "timestamp1": [dt("2020-01-07 00:00:00.000"), None, dt("2020-01-07 00:00:00.000"),
-                       dt("2020-01-07 00:00:00.000")],
+        "timestamp1":
+        [dt("2020-01-07 00:00:00.000"), None,
+         dt("2020-01-07 00:00:00.000"),
+         dt("2020-01-07 00:00:00.000")],
         "string7": ["XXX", "XXX", "XXX", "XXX"],
-        "timestamp2": [dt("2020-01-10 10:34:55.863"), dt("2020-01-10 10:34:55.864"), dt("2020-01-10 10:34:55.865"),
-                       dt("2020-01-10 10:34:55.866")],
+        "timestamp2": [
+            dt("2020-01-10 10:34:55.863"),
+            dt("2020-01-10 10:34:55.864"),
+            dt("2020-01-10 10:34:55.865"),
+            dt("2020-01-10 10:34:55.866")
+        ],
     })
     df = pd.concat([df for _ in range(10_000)])
     path = f"s3://{bucket}/test_aurora_mysql_load_special2"
@@ -2150,8 +2162,7 @@ def test_aurora_mysql_load_special2(bucket, mysql_parameters):
                         table="test_aurora_mysql_load_special2",
                         mode="overwrite",
                         temp_s3_path=path,
-                        engine="mysql",
-                        procs_cpu_bound=1)
+                        engine="mysql")
     conn = Aurora.generate_connection(database="mysql",
                                       host=mysql_parameters["MysqlAddress"],
                                       port=3306,
@@ -2161,8 +2172,7 @@ def test_aurora_mysql_load_special2(bucket, mysql_parameters):
     with conn.cursor() as cursor:
         cursor.execute("SELECT count(*) FROM test.test_aurora_mysql_load_special2")
         assert cursor.fetchall()[0][0] == len(df.index)
-        cursor.execute(
-            "SELECT integer1, float1, string6, timestamp1 FROM test.test_aurora_mysql_load_special2 limit 4")
+        cursor.execute("SELECT integer1, float1, string6, timestamp1 FROM test.test_aurora_mysql_load_special2 limit 4")
         rows = cursor.fetchall()
         assert rows[2][0] is None
         assert rows[2][1] is None