Add proper error handling to CastingGenerator

sahil1105 · IsaacWarren · commit e6881419788d · 2025-07-15T14:13:33.000-05:00
diff --git a/recipe/patches/0004-Bodo-Changes.patch b/recipe/patches/0004-Bodo-Changes.patch
@@ -1,5 +1,5 @@
 diff --git a/cpp/src/arrow/dataset/file_parquet.cc b/cpp/src/arrow/dataset/file_parquet.cc
-index 1f8b6cc488..5ad7a5f78b 100644
+index 1f8b6cc488..322d50e598 100644
 --- a/cpp/src/arrow/dataset/file_parquet.cc
 +++ b/cpp/src/arrow/dataset/file_parquet.cc
 @@ -26,16 +26,23 @@
@@ -26,7 +26,7 @@ index 1f8b6cc488..5ad7a5f78b 100644
  #include "arrow/util/tracing_internal.h"
  #include "parquet/arrow/reader.h"
  #include "parquet/arrow/schema.h"
-@@ -555,6 +562,60 @@ Future<std::shared_ptr<parquet::arrow::FileReader>> ParquetFileFormat::GetReader
+@@ -555,6 +562,59 @@ Future<std::shared_ptr<parquet::arrow::FileReader>> ParquetFileFormat::GetReader
        });
  }
  
@@ -38,45 +38,44 @@ index 1f8b6cc488..5ad7a5f78b 100644
 +        exec_ctx(std::make_shared<compute::ExecContext>(pool)) {}
 +
 +  Future<std::shared_ptr<RecordBatch>> operator()() {
-+    return this->source_().Then(
-+        [this](const std::shared_ptr<RecordBatch>& next) -> std::shared_ptr<RecordBatch> {
-+          if (IsIterationEnd(next)) {
-+            return next;
-+          }
-+          std::vector<std::shared_ptr<::arrow::Array>> out_cols;
-+          std::vector<std::shared_ptr<arrow::Field>> out_schema_fields;
++    return this->source_().Then([this](const std::shared_ptr<RecordBatch>& next)
++                                    -> Result<std::shared_ptr<RecordBatch>> {
++      if (IsIterationEnd(next) || this->final_schema_.get() == nullptr) {
++        return next;
++      }
++      std::vector<std::shared_ptr<::arrow::Array>> out_cols;
++      std::vector<std::shared_ptr<arrow::Field>> out_schema_fields;
 +
-+          bool changed = false;
-+          for (const auto& field : this->final_schema_->fields()) {
-+            FieldRef field_ref = FieldRef(field->name());
-+            auto column_st = field_ref.GetOneOrNone(*next);
-+            std::shared_ptr<Array> column = column_st.ValueUnsafe();
-+            if (column) {
-+              if (!column->type()->Equals(field->type())) {
-+                // Referenced field was present but didn't have the expected type.
-+                auto converted_st =
-+                    compute::Cast(column, field->type(), compute::CastOptions::Safe(),
-+                                  this->exec_ctx.get());
-+                auto converted = std::move(converted_st.ValueUnsafe());
-+                column = converted.make_array();
-+                changed = true;
-+              }
-+              out_cols.emplace_back(std::move(column));
-+              out_schema_fields.emplace_back(field->Copy());
-+              // XXX Do we need to handle the else case? What happens when the column
-+              // doesn't exist, e.g. all null or all the same value?
-+            }
++      bool changed = false;
++      for (const auto& field : this->final_schema_->fields()) {
++        FieldRef field_ref = FieldRef(field->name());
++        ARROW_ASSIGN_OR_RAISE(std::shared_ptr<Array> column,
++                              field_ref.GetOneOrNone(*next));
++        if (column) {
++          if (!column->type()->Equals(field->type())) {
++            // Referenced field was present but didn't have the expected type.
++            ARROW_ASSIGN_OR_RAISE(
++                auto converted,
++                compute::Cast(column, field->type(), compute::CastOptions::Safe(),
++                              this->exec_ctx.get()));
++            column = converted.make_array();
++            changed = true;
 +          }
++          out_cols.emplace_back(std::move(column));
++          out_schema_fields.emplace_back(field->Copy());
++          // XXX Do we need to handle the else case? What happens when the column
++          // doesn't exist, e.g. all null or all the same value?
++        }
++      }
 +
-+          if (changed) {
-+            return RecordBatch::Make(
-+                std::make_shared<Schema>(std::move(out_schema_fields),
-+                                         next->schema()->metadata()),
-+                next->num_rows(), std::move(out_cols));
-+          } else {
-+            return next;
-+          }
-+        });
++      if (changed) {
++        return RecordBatch::Make(std::make_shared<Schema>(std::move(out_schema_fields),
++                                                          next->schema()->metadata()),
++                                 next->num_rows(), std::move(out_cols));
++      } else {
++        return next;
++      }
++    });
 +  }
 +
 +  RecordBatchGenerator source_;
@@ -87,7 +86,7 @@ index 1f8b6cc488..5ad7a5f78b 100644
  struct SlicingGenerator {
    SlicingGenerator(RecordBatchGenerator source, int64_t batch_size)
        : state(std::make_shared<State>(source, batch_size)) {}
-@@ -617,6 +678,9 @@ Result<RecordBatchGenerator> ParquetFileFormat::ScanBatchesAsync(
+@@ -617,6 +677,9 @@ Result<RecordBatchGenerator> ParquetFileFormat::ScanBatchesAsync(
        [this, options, parquet_fragment, pre_filtered,
         row_groups](const std::shared_ptr<parquet::arrow::FileReader>& reader) mutable
        -> Result<RecordBatchGenerator> {
@@ -97,7 +96,7 @@ index 1f8b6cc488..5ad7a5f78b 100644
      // Ensure that parquet_fragment has FileMetaData
      RETURN_NOT_OK(parquet_fragment->EnsureCompleteMetadata(reader.get()));
      if (!pre_filtered) {
-@@ -633,10 +697,17 @@ Result<RecordBatchGenerator> ParquetFileFormat::ScanBatchesAsync(
+@@ -633,12 +696,19 @@ Result<RecordBatchGenerator> ParquetFileFormat::ScanBatchesAsync(
              kParquetTypeName, options.get(), default_fragment_scan_options));
      int batch_readahead = options->batch_readahead;
      int64_t rows_to_readahead = batch_readahead * options->batch_size;
@@ -114,11 +113,14 @@ index 1f8b6cc488..5ad7a5f78b 100644
 +    ARROW_ASSIGN_OR_RAISE(auto generator, reader->GetRecordBatchGenerator(
 +                                              reader, row_groups, column_projection,
 +                                              cpu_executor, rows_to_readahead));
-+    generator =
++    RecordBatchGenerator casted =
 +        CastingGenerator(std::move(generator), options->dataset_schema, options->pool);
      RecordBatchGenerator sliced =
-         SlicingGenerator(std::move(generator), options->batch_size);
+-        SlicingGenerator(std::move(generator), options->batch_size);
++        SlicingGenerator(std::move(casted), options->batch_size);
      if (batch_readahead == 0) {
+       return sliced;
+     }
 diff --git a/cpp/src/arrow/dataset/scanner.cc b/cpp/src/arrow/dataset/scanner.cc
 index a856a792a2..5c10dfc6ac 100644
 --- a/cpp/src/arrow/dataset/scanner.cc