Add Description, parameters and column's comments as args to Glue tables

igorborgest · igorborgest · commit 54823ad44bcf · 2020-01-01T22:59:30.000-03:00
diff --git a/awswrangler/glue.py b/awswrangler/glue.py
@@ -58,7 +58,29 @@ def metadata_to_glue(self,
                          mode="append",
                          compression=None,
                          cast_columns=None,
-                         extra_args=None):
+                         extra_args=None,
+                         description: Optional[str] = None,
+                         parameters: Optional[Dict[str, str]] = None,
+                         columns_comments: Optional[Dict[str, str]] = None) -> None:
+        """
+
+        :param dataframe: Pandas Dataframe
+        :param objects_paths: Files paths on S3
+        :param preserve_index: Should preserve index on S3?
+        :param partition_cols: partitions names
+        :param mode: "append", "overwrite", "overwrite_partitions"
+        :param cast_columns: Dictionary of columns names and Athena/Glue types to be casted. (E.g. {"col name": "bigint", "col2 name": "int"}) (Only for "parquet" file_format)
+        :param database: AWS Glue Database name
+        :param table: AWS Glue table name
+        :param path: AWS S3 path (E.g. s3://bucket-name/folder_name/
+        :param file_format: "csv" or "parquet"
+        :param compression: None, gzip, snappy, etc
+        :param extra_args: Extra arguments specific for each file formats (E.g. "sep" for CSV)
+        :param description: Table description
+        :param parameters: Key/value pairs to tag the table (Optional[Dict[str, str]])
+        :param columns_comments: Columns names and the related comments (Optional[Dict[str, str]])
+        :return: None
+        """
         indexes_position = "left" if file_format == "csv" else "right"
         schema, partition_cols_schema = Glue._build_schema(dataframe=dataframe,
                                                            partition_cols=partition_cols,
@@ -78,7 +100,10 @@ def metadata_to_glue(self,
                               path=path,
                               file_format=file_format,
                               compression=compression,
-                              extra_args=extra_args)
+                              extra_args=extra_args,
+                              description=description,
+                              parameters=parameters,
+                              columns_comments=columns_comments)
         if partition_cols:
             partitions_tuples = Glue._parse_partitions_tuples(objects_paths=objects_paths,
                                                               partition_cols=partition_cols)
@@ -114,7 +139,26 @@ def create_table(self,
                      file_format,
                      compression,
                      partition_cols_schema=None,
-                     extra_args=None):
+                     extra_args=None,
+                     description: Optional[str] = None,
+                     parameters: Optional[Dict[str, str]] = None,
+                     columns_comments: Optional[Dict[str, str]] = None) -> None:
+        """
+        Create Glue table (Catalog)
+
+        :param database: AWS Glue Database name
+        :param table: AWS Glue table name
+        :param schema: Table schema
+        :param path: AWS S3 path (E.g. s3://bucket-name/folder_name/
+        :param file_format: "csv" or "parquet"
+        :param compression: None, gzip, snappy, etc
+        :param partition_cols_schema: Partitions schema
+        :param extra_args: Extra arguments specific for each file formats (E.g. "sep" for CSV)
+        :param description: Table description
+        :param parameters: Key/value pairs to tag the table (Optional[Dict[str, str]])
+        :param columns_comments: Columns names and the related comments (Optional[Dict[str, str]])
+        :return: None
+        """
         if file_format == "parquet":
             table_input = Glue.parquet_table_definition(table, partition_cols_schema, schema, path, compression)
         elif file_format == "csv":
@@ -126,6 +170,20 @@ def create_table(self,
                                                     extra_args=extra_args)
         else:
             raise UnsupportedFileFormat(file_format)
+        if description is not None:
+            table_input["Description"] = description
+        if parameters is not None:
+            for k, v in parameters.items():
+                table_input["Parameters"][k] = v
+        if columns_comments is not None:
+            for col in table_input["StorageDescriptor"]["Columns"]:
+                name = col["Name"]
+                if name in columns_comments:
+                    col["Comment"] = columns_comments[name]
+            for par in table_input["PartitionKeys"]:
+                name = par["Name"]
+                if name in columns_comments:
+                    par["Comment"] = columns_comments[name]
         self._client_glue.create_table(DatabaseName=database, TableInput=table_input)
 
     def add_partitions(self, database, table, partition_paths, file_format, compression, extra_args=None):
diff --git a/awswrangler/pandas.py b/awswrangler/pandas.py
@@ -627,21 +627,22 @@ def _apply_dates_to_generator(generator, parse_dates):
                     df[col] = df[col].dt.date.replace(to_replace={pd.NaT: None})
             yield df
 
-    def to_csv(
-        self,
-        dataframe,
-        path,
-        sep=",",
-        serde="OpenCSVSerDe",
-        database: Optional[str] = None,
-        table=None,
-        partition_cols=None,
-        preserve_index=True,
-        mode="append",
-        procs_cpu_bound=None,
-        procs_io_bound=None,
-        inplace=True,
-    ):
+    def to_csv(self,
+               dataframe,
+               path,
+               sep=",",
+               serde="OpenCSVSerDe",
+               database: Optional[str] = None,
+               table=None,
+               partition_cols=None,
+               preserve_index=True,
+               mode="append",
+               procs_cpu_bound=None,
+               procs_io_bound=None,
+               inplace=True,
+               description: Optional[str] = None,
+               parameters: Optional[Dict[str, str]] = None,
+               columns_comments: Optional[Dict[str, str]] = None):
         """
         Write a Pandas Dataframe as CSV files on S3
         Optionally writes metadata on AWS Glue.
@@ -658,6 +659,9 @@ def to_csv(
         :param procs_cpu_bound: Number of cores used for CPU bound tasks
         :param procs_io_bound: Number of cores used for I/O bound tasks
         :param inplace: True is cheapest (CPU and Memory) but False leaves your DataFrame intact
+        :param description: Table description
+        :param parameters: Key/value pairs to tag the table (Optional[Dict[str, str]])
+        :param columns_comments: Columns names and the related comments (Optional[Dict[str, str]])
         :return: List of objects written on S3
         """
         if serde not in Pandas.VALID_CSV_SERDES:
@@ -675,7 +679,10 @@ def to_csv(
                           procs_cpu_bound=procs_cpu_bound,
                           procs_io_bound=procs_io_bound,
                           extra_args=extra_args,
-                          inplace=inplace)
+                          inplace=inplace,
+                          description=description,
+                          parameters=parameters,
+                          columns_comments=columns_comments)
 
     def to_parquet(self,
                    dataframe,
@@ -689,7 +696,10 @@ def to_parquet(self,
                    procs_cpu_bound=None,
                    procs_io_bound=None,
                    cast_columns=None,
-                   inplace=True):
+                   inplace=True,
+                   description: Optional[str] = None,
+                   parameters: Optional[Dict[str, str]] = None,
+                   columns_comments: Optional[Dict[str, str]] = None):
         """
         Write a Pandas Dataframe as parquet files on S3
         Optionally writes metadata on AWS Glue.
@@ -706,6 +716,9 @@ def to_parquet(self,
         :param procs_io_bound: Number of cores used for I/O bound tasks
         :param cast_columns: Dictionary of columns names and Athena/Glue types to be casted (E.g. {"col name": "bigint", "col2 name": "int"})
         :param inplace: True is cheapest (CPU and Memory) but False leaves your DataFrame intact
+        :param description: Table description
+        :param parameters: Key/value pairs to tag the table (Optional[Dict[str, str]])
+        :param columns_comments: Columns names and the related comments (Optional[Dict[str, str]])
         :return: List of objects written on S3
         """
         return self.to_s3(dataframe=dataframe,
@@ -720,7 +733,10 @@ def to_parquet(self,
                           procs_cpu_bound=procs_cpu_bound,
                           procs_io_bound=procs_io_bound,
                           cast_columns=cast_columns,
-                          inplace=inplace)
+                          inplace=inplace,
+                          description=description,
+                          parameters=parameters,
+                          columns_comments=columns_comments)
 
     def to_s3(self,
               dataframe: pd.DataFrame,
@@ -736,7 +752,10 @@ def to_s3(self,
               procs_io_bound=None,
               cast_columns=None,
               extra_args=None,
-              inplace: bool = True) -> List[str]:
+              inplace: bool = True,
+              description: Optional[str] = None,
+              parameters: Optional[Dict[str, str]] = None,
+              columns_comments: Optional[Dict[str, str]] = None) -> List[str]:
         """
         Write a Pandas Dataframe on S3
         Optionally writes metadata on AWS Glue.
@@ -755,6 +774,9 @@ def to_s3(self,
         :param cast_columns: Dictionary of columns names and Athena/Glue types to be casted. (E.g. {"col name": "bigint", "col2 name": "int"}) (Only for "parquet" file_format)
         :param extra_args: Extra arguments specific for each file formats (E.g. "sep" for CSV)
         :param inplace: True is cheapest (CPU and Memory) but False leaves your DataFrame intact
+        :param description: Table description
+        :param parameters: Key/value pairs to tag the table (Optional[Dict[str, str]])
+        :param columns_comments: Columns names and the related comments (Optional[Dict[str, str]])
         :return: List of objects written on S3
         """
         if partition_cols is None:
@@ -810,7 +832,10 @@ def to_s3(self,
                                                 mode=mode,
                                                 compression=compression,
                                                 cast_columns=cast_columns,
-                                                extra_args=extra_args)
+                                                extra_args=extra_args,
+                                                description=description,
+                                                parameters=parameters,
+                                                columns_comments=columns_comments)
         return objects_paths
 
     def data_to_s3(self,
diff --git a/awswrangler/spark.py b/awswrangler/spark.py
@@ -164,7 +164,10 @@ def create_glue_table(self,
                           sep=",",
                           partition_by=None,
                           load_partitions=True,
-                          replace_if_exists=True):
+                          replace_if_exists=True,
+                          description: Optional[str] = None,
+                          parameters: Optional[Dict[str, str]] = None,
+                          columns_comments: Optional[Dict[str, str]] = None):
         """
         Create a Glue metadata table pointing for some dataset stored on AWS S3.
 
@@ -179,6 +182,9 @@ def create_glue_table(self,
         :param table: Glue table name. If not passed, extracted from the path
         :param load_partitions: Load partitions after the table creation
         :param replace_if_exists: Drop table and recreates that if already exists
+        :param description: Table description
+        :param parameters: Key/value pairs to tag the table (Optional[Dict[str, str]])
+        :param columns_comments: Columns names and the related comments (Optional[Dict[str, str]])
         :return: None
         """
         file_format = file_format.lower()
@@ -210,7 +216,10 @@ def create_glue_table(self,
                                         path=path,
                                         file_format=file_format,
                                         compression=compression,
-                                        extra_args=extra_args)
+                                        extra_args=extra_args,
+                                        description=description,
+                                        parameters=parameters,
+                                        columns_comments=columns_comments)
         if load_partitions:
             self._session.athena.repair_table(database=database, table=table)
 
diff --git a/testing/test_awswrangler/test_glue.py b/testing/test_awswrangler/test_glue.py
@@ -130,9 +130,9 @@ def test_get_tables_suffix(session, table):
 
 
 def test_glue_utils(session, database, table):
-    assert len(session.glue.databases().index) > 1
-    assert len(session.glue.tables().index) > 1
-    assert len(session.glue.table(database=database, name=table).index) > 1
+    assert len(session.glue.databases().index) > 0
+    assert len(session.glue.tables().index) > 0
+    assert len(session.glue.table(database=database, name=table).index) > 0
 
 
 def test_glue_tables_full(session, database, table):
@@ -141,4 +141,4 @@ def test_glue_tables_full(session, database, table):
                             search_text="parquet",
                             name_contains=table[1:-1],
                             name_prefix=table[0],
-                            name_suffix=table[-1]).index) > 1
+                            name_suffix=table[-1]).index) > 0
diff --git a/testing/test_awswrangler/test_pandas.py b/testing/test_awswrangler/test_pandas.py
@@ -1777,3 +1777,40 @@ def test_read_csv_list_iterator(bucket, sample, row_num):
         total_count += count
     wr.s3.delete_listed_objects(objects_paths=paths)
     assert total_count == row_num * n
+
+
+def test_to_csv_metadata(
+    session,
+    bucket,
+    database,
+):
+    session.glue.delete_table_if_exists(table="test_to_csv_metadata", database=database)
+    assert len(session.glue.tables(database=database, search_text="boo bar").index) == 0
+    dataframe = pd.read_csv("data_samples/nano.csv")
+    session.pandas.to_csv(dataframe=dataframe,
+                          database=database,
+                          path=f"s3://{bucket}/test_to_csv_metadata/",
+                          preserve_index=False,
+                          mode="overwrite",
+                          sep="|",
+                          description="foo boo bar",
+                          parameters={
+                              "123": "345",
+                              "678": "910"
+                          },
+                          columns_comments={
+                              "name": "zoo",
+                              "value": "zaa"
+                          })
+    dataframe2 = None
+    for counter in range(10):
+        sleep(1)
+        dataframe2 = session.pandas.read_sql_athena(ctas_approach=False,
+                                                    sql="select * from test_to_csv_metadata",
+                                                    database=database)
+        if len(dataframe.index) == len(dataframe2.index):
+            break
+    assert len(dataframe.index) == len(dataframe2.index)
+    assert len(list(dataframe.columns)) == len(list(dataframe2.columns))
+    assert len(session.glue.tables(database=database, search_text="boo bar").index) == 1
+    assert len(session.glue.tables(database=database, search_text="value").index) > 0