ENH (string dtype): convert string_view columns to future string dtype instead of object dtype in Parquet IO

jorisvandenbossche · jorisvandenbossche · commit 2f0272c4ea86 · 2024-11-07T23:23:11.000+01:00
diff --git a/pandas/io/_util.py b/pandas/io/_util.py
@@ -4,6 +4,7 @@
 
 import numpy as np
 
+from pandas.compat import pa_version_under18p0
 from pandas.compat._optional import import_optional_dependency
 
 import pandas as pd
@@ -35,7 +36,11 @@ def _arrow_dtype_mapping() -> dict:
 def arrow_string_types_mapper() -> Callable:
     pa = import_optional_dependency("pyarrow")
 
-    return {
+    mapping = {
         pa.string(): pd.StringDtype(na_value=np.nan),
         pa.large_string(): pd.StringDtype(na_value=np.nan),
-    }.get
+    }
+    if not pa_version_under18p0:
+        mapping[pa.string_view()] = pd.StringDtype(na_value=np.nan)
+
+    return mapping.get
diff --git a/pandas/tests/io/test_parquet.py b/pandas/tests/io/test_parquet.py
@@ -17,6 +17,7 @@
     pa_version_under13p0,
     pa_version_under15p0,
     pa_version_under17p0,
+    pa_version_under18p0,
 )
 
 import pandas as pd
@@ -1144,6 +1145,26 @@ def test_infer_string_large_string_type(self, tmp_path, pa):
         )
         tm.assert_frame_equal(result, expected)
 
+    @pytest.mark.skipif(pa_version_under18p0, reason="not supported before 18.0")
+    def test_infer_string_string_view_type(self, tmp_path, pa):
+        # GH#54798
+        import pyarrow as pa
+        import pyarrow.parquet as pq
+
+        path = tmp_path / "string_view.parquet"
+
+        table = pa.table({"a": pa.array([None, "b", "c"], pa.string_view())})
+        pq.write_table(table, path)
+
+        with pd.option_context("future.infer_string", True):
+            result = read_parquet(path)
+        expected = pd.DataFrame(
+            data={"a": [None, "b", "c"]},
+            dtype=pd.StringDtype(na_value=np.nan),
+            columns=pd.Index(["a"], dtype=pd.StringDtype(na_value=np.nan)),
+        )
+        tm.assert_frame_equal(result, expected)
+
     # NOTE: this test is not run by default, because it requires a lot of memory (>5GB)
     # @pytest.mark.slow
     # def test_string_column_above_2GB(self, tmp_path, pa):