resolve some comments

gty404 · gty404 · commit 29e886574a56 · 2025-06-30T10:26:40.000+08:00
diff --git a/src/iceberg/table.cc b/src/iceberg/table.cc
@@ -23,6 +23,7 @@
 #include "iceberg/schema.h"
 #include "iceberg/sort_order.h"
 #include "iceberg/table_metadata.h"
+#include "iceberg/table_scan.h"
 
 namespace iceberg {
 
@@ -107,4 +108,8 @@ const std::vector<SnapshotLogEntry>& Table::history() const {
 
 const std::shared_ptr<FileIO>& Table::io() const { return io_; }
 
+std::unique_ptr<TableScanBuilder> Table::NewScan() const {
+  return std::make_unique<TableScanBuilder>(*this, metadata_);
+}
+
 }  // namespace iceberg
diff --git a/src/iceberg/table.h b/src/iceberg/table.h
@@ -108,7 +108,7 @@ class ICEBERG_EXPORT Table {
   ///
   /// Once a table scan builder is created, it can be refined to project columns and
   /// filter data.
-  virtual std::unique_ptr<TableScanBuilder> NewScan() const = 0;
+  virtual std::unique_ptr<TableScanBuilder> NewScan() const;
 
   /// \brief Returns a FileIO to read and write table data and metadata files
   const std::shared_ptr<FileIO>& io() const;
diff --git a/src/iceberg/table_scan.cc b/src/iceberg/table_scan.cc
@@ -33,6 +33,58 @@
 
 namespace iceberg {
 
+namespace {
+/// \brief Use indexed data structures for efficient lookups
+struct DeleteFileIndex {
+  /// \brief Index by sequence number for quick filtering
+  std::multimap<int64_t, ManifestEntry*> sequence_index;
+
+  /// \brief Build the index from a list of manifest entries.
+  void BuildIndex(const std::vector<std::unique_ptr<ManifestEntry>>& entries) {
+    sequence_index.clear();
+
+    for (const auto& entry : entries) {
+      const int64_t seq_num =
+          entry->sequence_number.value_or(Snapshot::kInitialSequenceNumber);
+      sequence_index.emplace(seq_num, entry.get());
+    }
+  }
+
+  /// \brief Find delete files that match the sequence number of a data entry.
+  std::vector<ManifestEntry*> FindRelevantEntries(const ManifestEntry& data_entry) const {
+    std::vector<ManifestEntry*> relevant_deletes;
+
+    // Use lower_bound for efficient range search
+    auto data_sequence_number =
+        data_entry.sequence_number.value_or(Snapshot::kInitialSequenceNumber);
+    for (auto it = sequence_index.lower_bound(data_sequence_number);
+         it != sequence_index.end(); ++it) {
+      // Additional filtering logic here
+      relevant_deletes.push_back(it->second);
+    }
+
+    return relevant_deletes;
+  }
+};
+
+/// \brief Get matched delete files for a given data entry.
+std::vector<std::shared_ptr<DataFile>> GetMatchedDeletes(
+    const ManifestEntry& data_entry, const DeleteFileIndex& delete_file_index) {
+  const auto relevant_entries = delete_file_index.FindRelevantEntries(data_entry);
+  std::vector<std::shared_ptr<DataFile>> matched_deletes;
+  if (relevant_entries.empty()) {
+    return matched_deletes;
+  }
+
+  matched_deletes.reserve(relevant_entries.size());
+  for (const auto& delete_entry : relevant_entries) {
+    // TODO(gty404): check if the delete entry contains the data entry's file path
+    matched_deletes.emplace_back(delete_entry->data_file);
+  }
+  return matched_deletes;
+}
+}  // namespace
+
 // implement FileScanTask
 FileScanTask::FileScanTask(std::shared_ptr<DataFile> file,
                            std::vector<std::shared_ptr<DataFile>> delete_files,
@@ -122,43 +174,46 @@ TableScanBuilder& TableScanBuilder::WithLimit(std::optional<int64_t> limit) {
 
 Result<std::unique_ptr<TableScan>> TableScanBuilder::Build() {
   if (snapshot_id_) {
-    ICEBERG_ASSIGN_OR_RAISE(context_.snapshot, table_.snapshot(*snapshot_id_));
+    ICEBERG_ASSIGN_OR_RAISE(context_.snapshot, table_.SnapshotById(*snapshot_id_));
   } else {
-    context_.snapshot = table_.current_snapshot();
+    ICEBERG_ASSIGN_OR_RAISE(context_.snapshot, table_.current_snapshot());
   }
   if (context_.snapshot == nullptr) {
-    return InvalidArgument("No snapshot found for table {}", table_.name());
+    return InvalidArgument("No snapshot found for table {}", table_.name().name);
   }
 
   if (!context_.projected_schema) {
     std::shared_ptr<Schema> schema;
     const auto& snapshot = context_.snapshot;
     if (snapshot->schema_id) {
-      const auto& schemas = table_.schemas();
+      const auto& schemas = *table_.schemas();
       if (const auto it = schemas.find(*snapshot->schema_id); it != schemas.end()) {
         schema = it->second;
       } else {
         return InvalidArgument("Schema {} in snapshot {} is not found",
                                *snapshot->schema_id, snapshot->snapshot_id);
       }
     } else {
-      schema = table_.schema();
+      ICEBERG_ASSIGN_OR_RAISE(schema, table_.schema());
     }
 
-    // TODO(gty404): collect touched columns from filter expression
-    std::vector<SchemaField> projected_fields;
-    projected_fields.reserve(column_names_.size());
-    for (const auto& column_name : column_names_) {
-      // TODO(gty404): support case-insensitive column names
-      auto field_opt = schema->GetFieldByName(column_name);
-      if (!field_opt) {
-        return InvalidArgument("Column {} not found in schema", column_name);
+    if (column_names_.empty()) {
+      context_.projected_schema = schema;
+    } else {
+      // TODO(gty404): collect touched columns from filter expression
+      std::vector<SchemaField> projected_fields;
+      projected_fields.reserve(column_names_.size());
+      for (const auto& column_name : column_names_) {
+        // TODO(gty404): support case-insensitive column names
+        auto field_opt = schema->GetFieldByName(column_name);
+        if (!field_opt) {
+          return InvalidArgument("Column {} not found in schema", column_name);
+        }
+        projected_fields.emplace_back(field_opt.value().get());
       }
-      projected_fields.emplace_back(field_opt.value().get());
+      context_.projected_schema =
+          std::make_shared<Schema>(std::move(projected_fields), schema->schema_id());
     }
-
-    context_.projected_schema =
-        std::make_shared<Schema>(std::move(projected_fields), schema->schema_id());
   }
 
   return std::make_unique<DataScan>(std::move(context_), table_.io());
@@ -227,47 +282,4 @@ Result<std::vector<std::shared_ptr<FileScanTask>>> DataScan::PlanFiles() const {
   return tasks;
 }
 
-void DataScan::DeleteFileIndex::BuildIndex(
-    const std::vector<std::unique_ptr<ManifestEntry>>& entries) {
-  sequence_index.clear();
-
-  for (const auto& entry : entries) {
-    const int64_t seq_num =
-        entry->sequence_number.value_or(Snapshot::kInitialSequenceNumber);
-    sequence_index.emplace(seq_num, entry.get());
-  }
-}
-
-std::vector<ManifestEntry*> DataScan::DeleteFileIndex::FindRelevantEntries(
-    const ManifestEntry& data_entry) const {
-  std::vector<ManifestEntry*> relevant_deletes;
-
-  // Use lower_bound for efficient range search
-  auto data_sequence_number =
-      data_entry.sequence_number.value_or(Snapshot::kInitialSequenceNumber);
-  for (auto it = sequence_index.lower_bound(data_sequence_number);
-       it != sequence_index.end(); ++it) {
-    // Additional filtering logic here
-    relevant_deletes.push_back(it->second);
-  }
-
-  return relevant_deletes;
-}
-
-std::vector<std::shared_ptr<DataFile>> DataScan::GetMatchedDeletes(
-    const ManifestEntry& data_entry, const DeleteFileIndex& delete_file_index) {
-  const auto relevant_entries = delete_file_index.FindRelevantEntries(data_entry);
-  std::vector<std::shared_ptr<DataFile>> matched_deletes;
-  if (relevant_entries.empty()) {
-    return matched_deletes;
-  }
-
-  matched_deletes.reserve(relevant_entries.size());
-  for (const auto& delete_entry : relevant_entries) {
-    // TODO(gty404): check if the delete entry contains the data entry's file path
-    matched_deletes.emplace_back(delete_entry->data_file);
-  }
-  return matched_deletes;
-}
-
 }  // namespace iceberg
diff --git a/src/iceberg/table_scan.h b/src/iceberg/table_scan.h
@@ -27,6 +27,7 @@
 
 namespace iceberg {
 
+/// \brief Represents a task to scan a table or a portion of it.
 class ICEBERG_EXPORT ScanTask {
  public:
   virtual ~ScanTask() = default;
@@ -68,25 +69,34 @@ class ICEBERG_EXPORT FileScanTask : public ScanTask {
   int64_t estimated_row_count() const override;
 
  private:
-  std::shared_ptr<DataFile> data_file_;                  ///< Data file metadata.
-  std::vector<std::shared_ptr<DataFile>> delete_files_;  ///< Delete files metadata.
-
-  int64_t start_;   ///< Start byte offset.
-  int64_t length_;  ///< Length in bytes to scan.
-
-  std::shared_ptr<Expression> residual_;  ///< Residual expression to apply.
+  /// \brief Data file metadata.
+  std::shared_ptr<DataFile> data_file_;
+  /// \brief Delete files metadata.
+  std::vector<std::shared_ptr<DataFile>> delete_files_;
+  /// \brief Start byte offset.
+  int64_t start_;
+  /// \brief Length in bytes to scan.
+  int64_t length_;
+  /// \brief Residual expression to apply.
+  std::shared_ptr<Expression> residual_;
 };
 
 /// \brief Scan context holding snapshot and scan-specific metadata.
 struct TableScanContext {
-  std::shared_ptr<TableMetadata> table_metadata;  ///< Table metadata.
-  std::shared_ptr<Snapshot> snapshot;             ///< Snapshot to scan.
-  std::shared_ptr<Schema> projected_schema;       ///< Projected schema.
-  std::shared_ptr<Expression> filter;             ///< Filter expression to apply.
-  bool case_sensitive = false;                    ///< Whether the scan is case-sensitive.
-  std::unordered_map<std::string, std::string>
-      options;                   ///< Additional options for the scan.
-  std::optional<int64_t> limit;  ///< Optional limit on the number of rows to scan.
+  /// \brief Table metadata.
+  std::shared_ptr<TableMetadata> table_metadata;
+  /// \brief Snapshot to scan.
+  std::shared_ptr<Snapshot> snapshot;
+  /// \brief Projected schema.
+  std::shared_ptr<Schema> projected_schema;
+  /// \brief Filter expression to apply.
+  std::shared_ptr<Expression> filter;
+  /// \brief Whether the scan is case-sensitive.
+  bool case_sensitive = false;
+  /// \brief Additional options for the scan.
+  std::unordered_map<std::string, std::string> options;
+  /// \brief Optional limit on the number of rows to scan.
+  std::optional<int64_t> limit;
 };
 
 /// \brief Builder class for creating TableScan instances.
@@ -139,10 +149,14 @@ class ICEBERG_EXPORT TableScanBuilder {
   Result<std::unique_ptr<TableScan>> Build();
 
  private:
-  const Table& table_;  ///< Reference to the table to scan.
+  /// \brief Reference to the table to scan.
+  const Table& table_;
+  /// \brief column names to project in the scan.
   std::vector<std::string> column_names_;
+  /// \brief snapshot ID to scan, if specified.
   std::optional<int64_t> snapshot_id_;
-  TableScanContext context_;  ///< Context for the scan.
+  /// \brief Context for the scan, including snapshot, schema, and filter.
+  TableScanContext context_;
 };
 
 /// \brief Represents a configured scan operation on a table.
@@ -176,29 +190,21 @@ class ICEBERG_EXPORT TableScan {
   virtual Result<std::vector<std::shared_ptr<FileScanTask>>> PlanFiles() const = 0;
 
  protected:
+  /// \brief context for the scan, including snapshot, schema, and filter.
   const TableScanContext context_;
+  /// \brief File I/O instance for reading manifests and data files.
   std::shared_ptr<FileIO> file_io_;
 };
 
+/// \brief A scan that reads data files and applies delete files to filter rows.
 class ICEBERG_EXPORT DataScan : public TableScan {
  public:
+  /// \brief Constructs a DataScan with the given context and file I/O.
   DataScan(TableScanContext context, std::shared_ptr<FileIO> file_io);
 
   /// \brief Plans the scan tasks by resolving manifests and data files.
   /// \return A Result containing scan tasks or an error.
   Result<std::vector<std::shared_ptr<FileScanTask>>> PlanFiles() const override;
-
- private:
-  // Use indexed data structures for efficient lookups
-  struct DeleteFileIndex {
-    // Index by sequence number for quick filtering
-    std::multimap<int64_t, ManifestEntry*> sequence_index;
-    void BuildIndex(const std::vector<std::unique_ptr<ManifestEntry>>& entries);
-    std::vector<ManifestEntry*> FindRelevantEntries(
-        const ManifestEntry& data_entry) const;
-  };
-  static std::vector<std::shared_ptr<DataFile>> GetMatchedDeletes(
-      const ManifestEntry& data_entry, const DeleteFileIndex& delete_file_index);
 };
 
 }  // namespace iceberg