Fix column indexes

ianton-ru · ianton-ru · commit 8fb2aa232b27 · 2025-09-18T14:58:54.000+02:00
diff --git a/src/Storages/ObjectStorage/DataLakes/IDataLakeMetadata.cpp b/src/Storages/ObjectStorage/DataLakes/IDataLakeMetadata.cpp
@@ -92,12 +92,12 @@ DataFileMetaInfo::DataFileMetaInfo(Poco::JSON::Object::Ptr file_info)
         {
             auto column = columns->getObject(static_cast<UInt32>(i));
 
-            Int32 id;
-            if (column->has("id"))
-                id = column->get("id");
+            std::string name;
+            if (column->has("name"))
+                name = column->get("name").toString();
             else
             {
-                LOG_WARNING(log, "Can't read column id, ignored");
+                LOG_WARNING(log, "Can't read column name, ignored");
                 continue;
             }
 
@@ -117,20 +117,38 @@ DataFileMetaInfo::DataFileMetaInfo(Poco::JSON::Object::Ptr file_info)
                 }
                 catch (const Exception & e)
                 {
-                    LOG_WARNING(log, "Can't read range for column {}, range '{}' ignored, error: {}", id, r, e.what());
+                    LOG_WARNING(log, "Can't read range for column {}, range '{}' ignored, error: {}", name, r, e.what());
                 }
             }
 
-            columns_info[id] = column_info;
+            columns_info[name] = column_info;
         }
     }
 }
 
-DataFileMetaInfo::DataFileMetaInfo(const std::unordered_map<Int32, Iceberg::ColumnInfo> & columns_info_)
+DataFileMetaInfo::DataFileMetaInfo(
+    const IcebergSchemaProcessor & schema_processor,
+    Int32 schema_id,
+    const std::unordered_map<Int32, Iceberg::ColumnInfo> & columns_info_)
 {
+    std::vector<Int32> column_ids;
     for (const auto & column : columns_info_)
+        column_ids.push_back(column.first);
+    auto name_and_types = schema_processor.tryGetFieldsCharacteristics(schema_id, column_ids);
+    std::unordered_map<Int32, std::string> name_by_index;
+    for (const auto & name_and_type : name_and_types)
     {
-        columns_info[column.first] = {column.second.rows_count, column.second.nulls_count, column.second.hyperrectangle};
+        const auto name = name_and_type.getNameInStorage();
+        auto index = schema_processor.tryGetColumnIDByName(schema_id, name);
+        if (index.has_value())
+            name_by_index[index.value()] = name;
+    }
+
+    for (const auto & column : columns_info_)
+    {
+        auto i_name = name_by_index.find(column.first);
+        if (i_name != name_by_index.end())
+            columns_info[i_name->second] = {column.second.rows_count, column.second.nulls_count, column.second.hyperrectangle};
     }
 }
 
@@ -145,7 +163,7 @@ Poco::JSON::Object::Ptr DataFileMetaInfo::toJson() const
         for (const auto & column : columns_info)
         {
             Poco::JSON::Object::Ptr column_info = new Poco::JSON::Object();
-            column_info->set("id", column.first);
+            column_info->set("name", column.first);
             if (column.second.rows_count.has_value())
                 column_info->set("rows", column.second.rows_count.value());
             if (column.second.nulls_count.has_value())
diff --git a/src/Storages/ObjectStorage/DataLakes/IDataLakeMetadata.h b/src/Storages/ObjectStorage/DataLakes/IDataLakeMetadata.h
@@ -8,6 +8,8 @@
 #include <Storages/prepareReadingFromFormat.h>
 #include <Poco/JSON/Object.h>
 
+#include <Storages/ObjectStorage/DataLakes/Iceberg/SchemaProcessor.h>
+
 namespace Iceberg
 {
 
@@ -29,7 +31,10 @@ class DataFileMetaInfo
     DataFileMetaInfo() = default;
 
     // Extract metadata from Iceberg structure
-    explicit DataFileMetaInfo(const std::unordered_map<Int32, Iceberg::ColumnInfo> & columns_info_);
+    explicit DataFileMetaInfo(
+        const IcebergSchemaProcessor & schema_processor,
+        Int32 schema_id,
+        const std::unordered_map<Int32, Iceberg::ColumnInfo> & columns_info_);
 
     // Deserialize from json in distributed requests
     explicit DataFileMetaInfo(const Poco::JSON::Object::Ptr file_info);
@@ -44,7 +49,7 @@ class DataFileMetaInfo
         std::optional<DB::Range> hyperrectangle;
     };
 
-    std::unordered_map<Int32, ColumnInfo> columns_info;
+    std::unordered_map<std::string, ColumnInfo> columns_info;
 };
 
 using DataFileMetaInfoPtr = std::shared_ptr<DataFileMetaInfo>;
diff --git a/src/Storages/ObjectStorage/DataLakes/Iceberg/IcebergMetadata.cpp b/src/Storages/ObjectStorage/DataLakes/Iceberg/IcebergMetadata.cpp
@@ -1125,7 +1125,10 @@ DataFileInfos IcebergMetadata::getDataFilesImpl(const ActionsDAG * filter_dag, C
                         {
                             data_files.push_back(DataFileInfo(std::get<DataFileEntry>(manifest_file_entry.file).file_name));
                             if (use_iceberg_read_optimization)
-                                data_files.back().file_meta_info = std::make_shared<DataFileMetaInfo>(manifest_file_entry.columns_infos);
+                                data_files.back().file_meta_info = std::make_shared<DataFileMetaInfo>(
+                                    schema_processor,
+                                    relevant_snapshot_schema_id,
+                                    manifest_file_entry.columns_infos);
                         }
                     }
                 }
diff --git a/src/Storages/ObjectStorage/StorageObjectStorageSource.cpp b/src/Storages/ObjectStorage/StorageObjectStorageSource.cpp
@@ -340,6 +340,11 @@ Chunk StorageObjectStorageSource::generate()
             {
                 for (const auto & constant_column : reader.constant_columns_with_values)
                 {
+                    LOG_DEBUG(log, "Restore constant column '{}' index {} with value '{}'",
+                        constant_column.second.name_and_type.name,
+                        constant_column.first,
+                        constant_column.second.value
+                    );
                     chunk.addColumn(constant_column.first,
                         constant_column.second.name_and_type.type->createColumnConst(
                             chunk.getNumRows(), constant_column.second.value)->convertToFullColumnIfConst());
@@ -543,77 +548,64 @@ StorageObjectStorageSource::ReaderHolder StorageObjectStorageSource::createReade
     std::map<size_t, ConstColumnWithValue> constant_columns_with_values;
     std::unordered_set<String> constant_columns;
 
+    NamesAndTypesList requested_columns_copy = read_from_format_info.requested_columns;
+
     std::unordered_map<String, std::pair<size_t, NameAndTypePair>> requested_columns_list;
     {
         size_t column_index = 0;
-        for (const auto & column : read_from_format_info.requested_columns)
+        for (const auto & column : requested_columns_copy)
             requested_columns_list[column.getNameInStorage()] = std::make_pair(column_index++, column);
     }
 
-    std::unordered_map<Int32, String> physical_columns_names;
-    Int32 column_counter = 0;
-    /// In Iceberg metadata columns' numbers starts from 1, so preincrement used
-    for (const auto & column : read_from_format_info.physical_columns)
-        physical_columns_names[++column_counter] = column.getNameInStorage();
-    /// now column_counter contains maximum column index
-
-    NamesAndTypesList requested_columns_copy = read_from_format_info.requested_columns;
-
     if (context_->getSettingsRef()[Setting::allow_experimental_iceberg_read_optimization])
     {
-        auto file_meta_data = object_info->getFileMetaInfo();
-        if (file_meta_data.has_value())
+        auto schema = configuration->tryGetTableStructureFromMetadata();
+        if (schema.has_value())
         {
-            for (const auto & column : file_meta_data.value()->columns_info)
+            auto file_meta_data = object_info->getFileMetaInfo();
+            if (file_meta_data.has_value())
             {
-                if (column.second.hyperrectangle.has_value())
+                for (const auto & column : file_meta_data.value()->columns_info)
                 {
-                    if (column.second.hyperrectangle.value().isPoint())
+                    if (column.second.hyperrectangle.has_value())
                     {
-                        auto column_id = column.first;
-
-                        if (column_id <= 0 || column_id > column_counter)
-                        { /// Something wrong, ignore file metadata
-                            LOG_WARNING(log, "Incorrect column ID: {}, ignoring file metadata", column_id);
-                            constant_columns.clear();
-                            break;
+                        if (column.second.hyperrectangle.value().isPoint())
+                        {
+                            auto column_name = column.first;
+
+                            auto i_column = requested_columns_list.find(column_name);
+                            if (i_column == requested_columns_list.end())
+                                continue;
+
+                            /// isPoint() method checks that left==right
+                            constant_columns_with_values[i_column->second.first] =
+                                ConstColumnWithValue{
+                                    i_column->second.second,
+                                    column.second.hyperrectangle.value().left
+                                };
+                            constant_columns.insert(column_name);
+
+                            LOG_DEBUG(log, "In file {} constant column '{}' id {} type '{}' with value '{}'",
+                                object_info->getPath(),
+                                column_name,
+                                i_column->second.first,
+                                i_column->second.second.type,
+                                column.second.hyperrectangle.value().left.dump());
                         }
-
-                        const auto & column_name = physical_columns_names[column_id];
-
-                        auto i_column = requested_columns_list.find(column_name);
-                        if (i_column == requested_columns_list.end())
-                            continue;
-
-                        /// isPoint() method checks that left==right
-                        constant_columns_with_values[i_column->second.first] =
-                            ConstColumnWithValue{
-                                i_column->second.second,
-                                column.second.hyperrectangle.value().left
-                            };
-                        constant_columns.insert(column_name);
-
-                        LOG_DEBUG(log, "In file {} constant column {} with value {}",
-                            object_info->getPath(), column_name, column.second.hyperrectangle.value().left.dump());
                     }
                 }
             }
-        }
 
-        if (!constant_columns.empty())
-        {
-            size_t original_columns = requested_columns_copy.size();
-            requested_columns_copy = requested_columns_copy.eraseNames(constant_columns);
-            if (requested_columns_copy.size() + constant_columns.size() != original_columns)
+            if (!constant_columns.empty())
             {
-                LOG_WARNING(log, "Can't remove constant columns for file {} correct, fallback to read. Founded constant columns: [{}]",
-                    object_info->getPath(), constant_columns);
-                requested_columns_copy = read_from_format_info.requested_columns;
-                constant_columns.clear();
-                constant_columns_with_values.clear();
+                size_t original_columns = requested_columns_copy.size();
+                requested_columns_copy = requested_columns_copy.eraseNames(constant_columns);
+                if (requested_columns_copy.size() + constant_columns.size() != original_columns)
+                    throw Exception(ErrorCodes::LOGICAL_ERROR, "Can't remove constant columns for file {} correct, fallback to read. Founded constant columns: [{}]",
+                        object_info->getPath(), constant_columns);
+                if (requested_columns_copy.empty())
+                    need_only_count = true;
             }
-            else if (requested_columns_copy.empty())
-                need_only_count = true;
         }
     }
 
diff --git a/src/Storages/prepareReadingFromFormat.cpp b/src/Storages/prepareReadingFromFormat.cpp
@@ -88,7 +88,6 @@ ReadFromFormatInfo prepareReadingFromFormat(
     /// Create header for InputFormat with columns that will be read from the data.
     info.format_header = storage_snapshot->getSampleBlockForColumns(info.columns_description.getNamesOfPhysical());
     info.serialization_hints = getSerializationHintsForFileLikeStorage(storage_snapshot->metadata, context);
-    info.physical_columns = storage_snapshot->metadata->getColumns().getAllPhysical();
     return info;
 }
 
diff --git a/src/Storages/prepareReadingFromFormat.h b/src/Storages/prepareReadingFromFormat.h
@@ -26,8 +26,6 @@ namespace DB
         SerializationInfoByName serialization_hints;
         /// The list of hive partition columns. It shall be read from the path regardless if it is present in the file
         NamesAndTypesList hive_partition_columns_to_read_from_file_path;
-        /// The list of all physical columns is source. Required sometimes for some read optimization.
-        NamesAndTypesList physical_columns;
     };
 
     struct PrepareReadingFromFormatHiveParams

Original file line number	Diff line number	Diff line change
`@@ -92,12 +92,12 @@ DataFileMetaInfo::DataFileMetaInfo(Poco::JSON::Object::Ptr file_info)`
`92`	`92`	`{`
`93`	`93`	`auto column = columns->getObject(static_cast<UInt32>(i));`
`94`	`94`
`95`		`- Int32 id;`
`96`		`- if (column->has("id"))`
`97`		`- id = column->get("id");`
	`95`	`+ std::string name;`
	`96`	`+ if (column->has("name"))`
	`97`	`+ name = column->get("name").toString();`
`98`	`98`	`else`
`99`	`99`	`{`
`100`		`- LOG_WARNING(log, "Can't read column id, ignored");`
	`100`	`+ LOG_WARNING(log, "Can't read column name, ignored");`
`101`	`101`	`continue;`
`102`	`102`	`}`
`103`	`103`
`@@ -117,20 +117,38 @@ DataFileMetaInfo::DataFileMetaInfo(Poco::JSON::Object::Ptr file_info)`
`117`	`117`	`}`
`118`	`118`	`catch (const Exception & e)`
`119`	`119`	`{`
`120`		`- LOG_WARNING(log, "Can't read range for column {}, range '{}' ignored, error: {}", id, r, e.what());`
	`120`	`+ LOG_WARNING(log, "Can't read range for column {}, range '{}' ignored, error: {}", name, r, e.what());`
`121`	`121`	`}`
`122`	`122`	`}`
`123`	`123`
`124`		`- columns_info[id] = column_info;`
	`124`	`+ columns_info[name] = column_info;`
`125`	`125`	`}`
`126`	`126`	`}`
`127`	`127`	`}`
`128`	`128`
`129`		`-DataFileMetaInfo::DataFileMetaInfo(const std::unordered_map<Int32, Iceberg::ColumnInfo> & columns_info_)`
	`129`	`+DataFileMetaInfo::DataFileMetaInfo(`
	`130`	`+ const IcebergSchemaProcessor & schema_processor,`
	`131`	`+ Int32 schema_id,`
	`132`	`+ const std::unordered_map<Int32, Iceberg::ColumnInfo> & columns_info_)`
`130`	`133`	`{`
	`134`	`+ std::vector<Int32> column_ids;`
`131`	`135`	`for (const auto & column : columns_info_)`
	`136`	`+ column_ids.push_back(column.first);`
	`137`	`+ auto name_and_types = schema_processor.tryGetFieldsCharacteristics(schema_id, column_ids);`
	`138`	`+ std::unordered_map<Int32, std::string> name_by_index;`
	`139`	`+ for (const auto & name_and_type : name_and_types)`
`132`	`140`	`{`
`133`		`- columns_info[column.first] = {column.second.rows_count, column.second.nulls_count, column.second.hyperrectangle};`
	`141`	`+ const auto name = name_and_type.getNameInStorage();`
	`142`	`+ auto index = schema_processor.tryGetColumnIDByName(schema_id, name);`
	`143`	`+ if (index.has_value())`
	`144`	`+ name_by_index[index.value()] = name;`
	`145`	`+ }`
	`146`	`+`
	`147`	`+ for (const auto & column : columns_info_)`
	`148`	`+ {`
	`149`	`+ auto i_name = name_by_index.find(column.first);`
	`150`	`+ if (i_name != name_by_index.end())`
	`151`	`+ columns_info[i_name->second] = {column.second.rows_count, column.second.nulls_count, column.second.hyperrectangle};`
`134`	`152`	`}`
`135`	`153`	`}`
`136`	`154`
`@@ -145,7 +163,7 @@ Poco::JSON::Object::Ptr DataFileMetaInfo::toJson() const`
`145`	`163`	`for (const auto & column : columns_info)`
`146`	`164`	`{`
`147`	`165`	`Poco::JSON::Object::Ptr column_info = new Poco::JSON::Object();`
`148`		`- column_info->set("id", column.first);`
	`166`	`+ column_info->set("name", column.first);`
`149`	`167`	`if (column.second.rows_count.has_value())`
`150`	`168`	`column_info->set("rows", column.second.rows_count.value());`
`151`	`169`	`if (column.second.nulls_count.has_value())`
Original file line number	Diff line number	Diff line change
`@@ -1125,7 +1125,10 @@ DataFileInfos IcebergMetadata::getDataFilesImpl(const ActionsDAG * filter_dag, C`
`1125`	`1125`	`{`
`1126`	`1126`	`data_files.push_back(DataFileInfo(std::get<DataFileEntry>(manifest_file_entry.file).file_name));`
`1127`	`1127`	`if (use_iceberg_read_optimization)`
`1128`		`- data_files.back().file_meta_info = std::make_shared<DataFileMetaInfo>(manifest_file_entry.columns_infos);`
	`1128`	`+ data_files.back().file_meta_info = std::make_shared<DataFileMetaInfo>(`
	`1129`	`+ schema_processor,`
	`1130`	`+ relevant_snapshot_schema_id,`
	`1131`	`+ manifest_file_entry.columns_infos);`
`1129`	`1132`	`}`
`1130`	`1133`	`}`
`1131`	`1134`	`}`
Original file line number	Diff line number	Diff line change
`@@ -88,7 +88,6 @@ ReadFromFormatInfo prepareReadingFromFormat(`
`88`	`88`	`/// Create header for InputFormat with columns that will be read from the data.`
`89`	`89`	`info.format_header = storage_snapshot->getSampleBlockForColumns(info.columns_description.getNamesOfPhysical());`
`90`	`90`	`info.serialization_hints = getSerializationHintsForFileLikeStorage(storage_snapshot->metadata, context);`
`91`		`- info.physical_columns = storage_snapshot->metadata->getColumns().getAllPhysical();`
`92`	`91`	`return info;`
`93`	`92`	`}`
`94`	`93`