Merge pull request #1037 from Altinity/backports/25.6.5/87515_and_87621_do_not_put_hive_partition_columns_in_format_header

Enmk · web-flow · commit 1ee7da1b469b · 2025-09-30T15:11:49.000+02:00
Antalya 25.6.5 - Backport of ClickHouse#87515 and ClickHouse#87621 - Never not put hive columns in format_header / Do not read hive columns as LC by default
diff --git a/src/Storages/HivePartitioningUtils.cpp b/src/Storages/HivePartitioningUtils.cpp
@@ -9,6 +9,7 @@
 #include <Formats/EscapingRuleUtils.h>
 #include <Formats/FormatFactory.h>
 #include <Processors/Chunk.h>
+#include <DataTypes/IDataType.h>
 
 namespace DB
 {
@@ -85,7 +86,7 @@ NamesAndTypesList extractHivePartitionColumnsFromPath(
         {
             if (const auto type = tryInferDataTypeByEscapingRule(value, format_settings ? *format_settings : getFormatSettings(context), FormatSettings::EscapingRule::Raw))
             {
-                if (type->canBeInsideLowCardinality())
+                if (type->canBeInsideLowCardinality() && isStringOrFixedString(type))
                 {
                     hive_partition_columns_to_read_from_file_path.emplace_back(key, std::make_shared<DataTypeLowCardinality>(type));
                 }
diff --git a/src/Storages/prepareReadingFromFormat.cpp b/src/Storages/prepareReadingFromFormat.cpp
@@ -86,7 +86,13 @@ ReadFromFormatInfo prepareReadingFromFormat(
     }
 
     /// Create header for InputFormat with columns that will be read from the data.
-    info.format_header = storage_snapshot->getSampleBlockForColumns(info.columns_description.getNamesOfPhysical());
+    for (const auto & column : info.columns_description)
+    {
+        /// Never read hive partition columns from the data file. This fixes https://github.com/ClickHouse/ClickHouse/issues/87515
+        if (!hive_parameters.hive_partition_columns_to_read_from_file_path_map.contains(column.name))
+            info.format_header.insert(ColumnWithTypeAndName{column.type, column.name});
+    }
+
     info.serialization_hints = getSerializationHintsForFileLikeStorage(storage_snapshot->metadata, context);
     return info;
 }
diff --git a/tests/queries/0_stateless/03203_hive_style_partitioning.reference b/tests/queries/0_stateless/03203_hive_style_partitioning.reference
@@ -31,7 +31,7 @@ Elizabeth	Delgado
 Elizabeth	Cross
 42	2020-01-01
 [1,2,3]	42.42
-Array(Int64)	LowCardinality(Float64)
+Array(Int64)	Float64
 101
 2071
 2071
diff --git a/tests/queries/0_stateless/03631_hive_columns_not_in_format_header.reference b/tests/queries/0_stateless/03631_hive_columns_not_in_format_header.reference
@@ -0,0 +1,2 @@
+1
+raw_blob	String					
diff --git a/tests/queries/0_stateless/03631_hive_columns_not_in_format_header.sql b/tests/queries/0_stateless/03631_hive_columns_not_in_format_header.sql
@@ -0,0 +1,13 @@
+-- Tags: no-parallel, no-fasttest, no-random-settings
+
+INSERT INTO FUNCTION s3(
+    s3_conn,
+    filename='03631',
+    format=Parquet,
+    partition_strategy='hive',
+    partition_columns_in_data_file=1) PARTITION BY (year, country) SELECT 'Brazil' as country, 2025 as year, 1 as id;
+
+-- distinct because minio isn't cleaned up
+SELECT count(distinct year) FROM s3(s3_conn, filename='03631/**.parquet', format=RawBLOB) SETTINGS use_hive_partitioning=1;
+
+DESCRIBE s3(s3_conn, filename='03631/**.parquet', format=RawBLOB) SETTINGS use_hive_partitioning=1;

Original file line number	Diff line number	Diff line change
`@@ -9,6 +9,7 @@`
`9`	`9`	`#include <Formats/EscapingRuleUtils.h>`
`10`	`10`	`#include <Formats/FormatFactory.h>`
`11`	`11`	`#include <Processors/Chunk.h>`
	`12`	`+#include <DataTypes/IDataType.h>`
`12`	`13`
`13`	`14`	`namespace DB`
`14`	`15`	`{`
`@@ -85,7 +86,7 @@ NamesAndTypesList extractHivePartitionColumnsFromPath(`
`85`	`86`	`{`
`86`	`87`	`if (const auto type = tryInferDataTypeByEscapingRule(value, format_settings ? *format_settings : getFormatSettings(context), FormatSettings::EscapingRule::Raw))`
`87`	`88`	`{`
`88`		`- if (type->canBeInsideLowCardinality())`
	`89`	`+ if (type->canBeInsideLowCardinality() && isStringOrFixedString(type))`
`89`	`90`	`{`
`90`	`91`	`hive_partition_columns_to_read_from_file_path.emplace_back(key, std::make_shared<DataTypeLowCardinality>(type));`
`91`	`92`	`}`
Original file line number	Diff line number	Diff line change
`@@ -86,7 +86,13 @@ ReadFromFormatInfo prepareReadingFromFormat(`
`86`	`86`	`}`
`87`	`87`
`88`	`88`	`/// Create header for InputFormat with columns that will be read from the data.`
`89`		`- info.format_header = storage_snapshot->getSampleBlockForColumns(info.columns_description.getNamesOfPhysical());`
	`89`	`+ for (const auto & column : info.columns_description)`
	`90`	`+ {`
	`91`	`+ /// Never read hive partition columns from the data file. This fixes https://github.com/ClickHouse/ClickHouse/issues/87515`
	`92`	`+ if (!hive_parameters.hive_partition_columns_to_read_from_file_path_map.contains(column.name))`
	`93`	`+ info.format_header.insert(ColumnWithTypeAndName{column.type, column.name});`
	`94`	`+ }`
	`95`	`+`
`90`	`96`	`info.serialization_hints = getSerializationHintsForFileLikeStorage(storage_snapshot->metadata, context);`
`91`	`97`	`return info;`
`92`	`98`	`}`
Original file line number	Diff line number	Diff line change
`@@ -31,7 +31,7 @@ Elizabeth Delgado`
`31`	`31`	`Elizabeth Cross`
`32`	`32`	`42 2020-01-01`
`33`	`33`	`[1,2,3] 42.42`
`34`		`-Array(Int64) LowCardinality(Float64)`
	`34`	`+Array(Int64) Float64`
`35`	`35`	`101`
`36`	`36`	`2071`
`37`	`37`	`2071`