Handling null values for Pandas.to_aurora()

igorborgest · igorborgest · commit 43c720ccfe62 · 2020-01-10T17:21:09.000-03:00
diff --git a/awswrangler/pandas.py b/awswrangler/pandas.py
@@ -644,9 +644,11 @@ def _apply_dates_to_generator(generator, parse_dates):
     def to_csv(self,
                dataframe: pd.DataFrame,
                path: str,
-               sep: str = ",",
+               sep: Optional[str] = None,
+               na_rep: Optional[str] = None,
+               quoting: Optional[int] = None,
                escapechar: Optional[str] = None,
-               serde: str = "OpenCSVSerDe",
+               serde: Optional[str] = "OpenCSVSerDe",
                database: Optional[str] = None,
                table: Optional[str] = None,
                partition_cols: Optional[List[str]] = None,
@@ -665,8 +667,10 @@ def to_csv(self,
         :param dataframe: Pandas Dataframe
         :param path: AWS S3 path (E.g. s3://bucket-name/folder_name/
         :param sep: Same as pandas.to_csv()
+        :param na_rep: Same as pandas.to_csv()
+        :param quoting: Same as pandas.to_csv()
         :param escapechar: Same as pandas.to_csv()
-        :param serde: SerDe library name (e.g. OpenCSVSerDe, LazySimpleSerDe)
+        :param serde: SerDe library name (e.g. OpenCSVSerDe, LazySimpleSerDe) (For Athena/Glue Catalog only)
         :param database: AWS Glue Database name
         :param table: AWS Glue table name
         :param partition_cols: List of columns names that will be partitions on S3
@@ -680,9 +684,17 @@ def to_csv(self,
         :param columns_comments: Columns names and the related comments (Optional[Dict[str, str]])
         :return: List of objects written on S3
         """
-        if serde not in Pandas.VALID_CSV_SERDES:
+        if (serde is not None) and (serde not in Pandas.VALID_CSV_SERDES):
             raise InvalidSerDe(f"{serde} in not in the valid SerDe list ({Pandas.VALID_CSV_SERDES})")
-        extra_args: Dict[str, Optional[str]] = {"sep": sep, "serde": serde, "escapechar": escapechar}
+        if (database is not None) and (serde is None):
+            raise InvalidParameters(f"It is not possible write to a Glue Database without a SerDe.")
+        extra_args: Dict[str, Optional[str]] = {
+            "sep": sep,
+            "na_rep": na_rep,
+            "serde": serde,
+            "escapechar": escapechar,
+            "quoting": quoting
+        }
         return self.to_s3(dataframe=dataframe,
                           path=path,
                           file_format="csv",
@@ -1053,17 +1065,24 @@ def write_csv_dataframe(dataframe, path, preserve_index, compression, fs, extra_
 
         serde = extra_args.get("serde")
         if serde is None:
-            escapechar = extra_args.get("escapechar")
+            escapechar: Optional[str] = extra_args.get("escapechar")
             if escapechar is not None:
                 csv_extra_args["escapechar"] = escapechar
+            quoting: Optional[str] = extra_args.get("quoting")
+            if escapechar is not None:
+                csv_extra_args["quoting"] = quoting
+            na_rep: Optional[str] = extra_args.get("na_rep")
+            if na_rep is not None:
+                csv_extra_args["na_rep"] = na_rep
         else:
             if serde == "OpenCSVSerDe":
                 csv_extra_args["quoting"] = csv.QUOTE_ALL
                 csv_extra_args["escapechar"] = "\\"
             elif serde == "LazySimpleSerDe":
                 csv_extra_args["quoting"] = csv.QUOTE_NONE
                 csv_extra_args["escapechar"] = "\\"
-        csv_buffer = bytes(
+        logger.debug(f"csv_extra_args: {csv_extra_args}")
+        csv_buffer: bytes = bytes(
             dataframe.to_csv(None, header=False, index=preserve_index, compression=compression, **csv_extra_args),
             "utf-8")
         Pandas._write_csv_to_s3_retrying(fs=fs, path=path, buffer=csv_buffer)
@@ -1554,9 +1573,13 @@ def to_aurora(self,
                     temp_s3_path = self._session.athena.create_athena_bucket() + temp_directory + "/"
             temp_s3_path = temp_s3_path if temp_s3_path[-1] == "/" else temp_s3_path + "/"
             logger.debug(f"temp_s3_path: {temp_s3_path}")
+            na_rep: str = "NULL" if "mysql" in engine.lower() else ""
             paths: List[str] = self.to_csv(dataframe=dataframe,
                                            path=temp_s3_path,
+                                           serde=None,
                                            sep=",",
+                                           na_rep=na_rep,
+                                           quoting=csv.QUOTE_MINIMAL,
                                            escapechar="\"",
                                            preserve_index=preserve_index,
                                            mode="overwrite",
diff --git a/awswrangler/s3.py b/awswrangler/s3.py
@@ -308,8 +308,8 @@ def get_objects_sizes(self, objects_paths: List[str], procs_io_bound: Optional[i
             receive_pipes[i].close()
         return objects_sizes
 
-    def copy_listed_objects(self, objects_paths, source_path, target_path, mode="append", procs_io_bound=None):
-        if not procs_io_bound:
+    def copy_listed_objects(self, objects_paths: List[str], source_path: str, target_path: str, mode: str = "append", procs_io_bound: Optional[int] = None):
+        if procs_io_bound is None:
             procs_io_bound = self._session.procs_io_bound
         logger.debug(f"procs_io_bound: {procs_io_bound}")
         logger.debug(f"len(objects_paths): {len(objects_paths)}")
diff --git a/testing/test_awswrangler/test_pandas.py b/testing/test_awswrangler/test_pandas.py
@@ -1417,7 +1417,9 @@ def test_read_parquet_dataset(session, bucket):
                               preserve_index=False,
                               procs_cpu_bound=4,
                               partition_cols=["partition"])
+    sleep(15)
     df2 = session.pandas.read_parquet(path=path)
+    wr.s3.delete_objects(path=path)
     assert len(list(df.columns)) == len(list(df2.columns))
     assert len(df.index) == len(df2.index)
 
@@ -2068,3 +2070,102 @@ def test_read_sql_athena_empty(ctas_approach):
     """
     df = wr.pandas.read_sql_athena(sql=sql, ctas_approach=ctas_approach)
     print(df)
+
+
+def test_aurora_postgres_load_special2(bucket, postgres_parameters):
+    dt = lambda x: datetime.strptime(x, "%Y-%m-%d %H:%M:%S.%f")
+    df = pd.DataFrame({
+        "integer1": [0, 1, np.NaN, 3],
+        "integer2": [8986, 9735, 9918, 9150],
+        "string1": ["O", "P", "P", "O"],
+        "string2": ["050100", "010101", "010101", "050100"],
+        "string3": ["A", "R", "A", "R"],
+        "string4": ["SGD", "SGD", "SGD", "SGD"],
+        "float1": [0.0, 1800000.0, np.NaN, 0.0],
+        "string5": ["0000296722", "0000199396", "0000298592", "0000196380"],
+        "string6": [None, "C", "C", None],
+        "timestamp1": [dt("2020-01-07 00:00:00.000"), None, dt("2020-01-07 00:00:00.000"),
+                       dt("2020-01-07 00:00:00.000")],
+        "string7": ["XXX", "XXX", "XXX", "XXX"],
+        "timestamp2": [dt("2020-01-10 10:34:55.863"), dt("2020-01-10 10:34:55.864"), dt("2020-01-10 10:34:55.865"),
+                       dt("2020-01-10 10:34:55.866")],
+    })
+    df = pd.concat([df for _ in range(10_000)])
+    path = f"s3://{bucket}/test_aurora_postgres_special"
+    wr.pandas.to_aurora(dataframe=df,
+                        connection="aws-data-wrangler-postgres",
+                        schema="public",
+                        table="test_aurora_postgres_load_special2",
+                        mode="overwrite",
+                        temp_s3_path=path,
+                        engine="postgres",
+                        procs_cpu_bound=1)
+    conn = Aurora.generate_connection(database="postgres",
+                                      host=postgres_parameters["PostgresAddress"],
+                                      port=3306,
+                                      user="test",
+                                      password=postgres_parameters["Password"],
+                                      engine="postgres")
+    with conn.cursor() as cursor:
+        cursor.execute("SELECT count(*) FROM public.test_aurora_postgres_load_special2")
+        assert cursor.fetchall()[0][0] == len(df.index)
+        cursor.execute("SELECT timestamp2 FROM public.test_aurora_postgres_load_special2 limit 4")
+        rows = cursor.fetchall()
+        assert rows[0][0] == dt("2020-01-10 10:34:55.863")
+        assert rows[1][0] == dt("2020-01-10 10:34:55.864")
+        assert rows[2][0] == dt("2020-01-10 10:34:55.865")
+        assert rows[3][0] == dt("2020-01-10 10:34:55.866")
+        cursor.execute("SELECT integer1, float1, string6, timestamp1 FROM public.test_aurora_postgres_load_special2 limit 4")
+        rows = cursor.fetchall()
+        assert rows[2][0] is None
+        assert rows[2][1] is None
+        assert rows[0][2] is None
+        assert rows[1][3] is None
+    conn.close()
+
+
+def test_aurora_mysql_load_special2(bucket, mysql_parameters):
+    dt = lambda x: datetime.strptime(x, "%Y-%m-%d %H:%M:%S.%f")
+    df = pd.DataFrame({
+        "integer1": [0, 1, np.NaN, 3],
+        "integer2": [8986, 9735, 9918, 9150],
+        "string1": ["O", "P", "P", "O"],
+        "string2": ["050100", "010101", "010101", "050100"],
+        "string3": ["A", "R", "A", "R"],
+        "string4": ["SGD", "SGD", "SGD", "SGD"],
+        "float1": [0.0, 1800000.0, np.NaN, 0.0],
+        "string5": ["0000296722", "0000199396", "0000298592", "0000196380"],
+        "string6": [None, "C", "C", None],
+        "timestamp1": [dt("2020-01-07 00:00:00.000"), None, dt("2020-01-07 00:00:00.000"),
+                       dt("2020-01-07 00:00:00.000")],
+        "string7": ["XXX", "XXX", "XXX", "XXX"],
+        "timestamp2": [dt("2020-01-10 10:34:55.863"), dt("2020-01-10 10:34:55.864"), dt("2020-01-10 10:34:55.865"),
+                       dt("2020-01-10 10:34:55.866")],
+    })
+    df = pd.concat([df for _ in range(10_000)])
+    path = f"s3://{bucket}/test_aurora_mysql_load_special2"
+    wr.pandas.to_aurora(dataframe=df,
+                        connection="aws-data-wrangler-mysql",
+                        schema="test",
+                        table="test_aurora_mysql_load_special2",
+                        mode="overwrite",
+                        temp_s3_path=path,
+                        engine="mysql",
+                        procs_cpu_bound=1)
+    conn = Aurora.generate_connection(database="mysql",
+                                      host=mysql_parameters["MysqlAddress"],
+                                      port=3306,
+                                      user="test",
+                                      password=mysql_parameters["Password"],
+                                      engine="mysql")
+    with conn.cursor() as cursor:
+        cursor.execute("SELECT count(*) FROM test.test_aurora_mysql_load_special2")
+        assert cursor.fetchall()[0][0] == len(df.index)
+        cursor.execute(
+            "SELECT integer1, float1, string6, timestamp1 FROM test.test_aurora_mysql_load_special2 limit 4")
+        rows = cursor.fetchall()
+        assert rows[2][0] is None
+        assert rows[2][1] is None
+        assert rows[0][2] is None
+        assert rows[1][3] is None
+    conn.close()