feat: pass the sorted input data to rust scan

rluvaton · rluvaton · commit 4d0c2ab573ab · 2025-09-10T23:26:11.000+03:00
This can cause problems if spark says something is sorted while we don't sort it.

for example shuffle files in spark are sorted, but ours are not, so we should make sure that the sort is used correctly.
diff --git a/native/core/src/execution/operators/scan.rs b/native/core/src/execution/operators/scan.rs
@@ -434,6 +434,19 @@ impl ScanExec {
 
         Ok(selection_indices_arrays)
     }
+
+    pub fn with_ordering(mut self, input_sorted: Vec<PhysicalSortExpr>) -> Self {
+        assert_ne!(input_sorted.len(), 0, "input_sorted cannot be empty");
+        let mut eq_properties = self.cache.eq_properties.clone();
+
+        eq_properties.add_ordering(
+            LexOrdering::new(input_sorted).expect("Must be able to create LexOrdering"),
+        );
+
+        self.cache = self.cache.with_eq_properties(eq_properties);
+
+        self
+    }
 }
 
 fn scan_schema(input_batch: &InputBatch, data_types: &[DataType]) -> SchemaRef {
diff --git a/native/core/src/execution/planner.rs b/native/core/src/execution/planner.rs
@@ -974,29 +974,38 @@ impl PhysicalPlanner {
     /// Create a DataFusion physical sort expression from Spark physical expression
     fn create_sort_expr<'a>(
         &'a self,
-        spark_expr: &'a Expr,
+        spark_expr: &'a spark_expression::Expr,
         input_schema: SchemaRef,
     ) -> Result<PhysicalSortExpr, ExecutionError> {
         match spark_expr.expr_struct.as_ref().unwrap() {
             ExprStruct::SortOrder(expr) => {
-                let child = self.create_expr(expr.child.as_ref().unwrap(), input_schema)?;
-                let descending = expr.direction == 1;
-                let nulls_first = expr.null_ordering == 0;
-
-                let options = SortOptions {
-                    descending,
-                    nulls_first,
-                };
-
-                Ok(PhysicalSortExpr {
-                    expr: child,
-                    options,
-                })
+                self.sort_order_to_physical_sort_expr(expr, input_schema)
             }
             expr => Err(GeneralError(format!("{expr:?} isn't a SortOrder"))),
         }
     }
 
+    /// Create a DataFusion physical sort expression from Spark physical Sort Order
+    fn sort_order_to_physical_sort_expr<'a>(
+        &'a self,
+        spark_sort_order: &'a spark_expression::SortOrder,
+        input_schema: SchemaRef,
+    ) -> Result<PhysicalSortExpr, ExecutionError> {
+        let child = self.create_expr(spark_sort_order.child.as_ref().unwrap(), input_schema)?;
+        let descending = spark_sort_order.direction == 1;
+        let nulls_first = spark_sort_order.null_ordering == 0;
+
+        let options = SortOptions {
+            descending,
+            nulls_first,
+        };
+
+        Ok(PhysicalSortExpr {
+            expr: child,
+            options,
+        })
+    }
+
     fn create_binary_expr(
         &self,
         left: &Expr,
@@ -1467,15 +1476,28 @@ impl PhysicalPlanner {
                         Some(inputs.remove(0))
                     };
 
+                let input_ordering = scan.input_ordering.clone();
+
                 // The `ScanExec` operator will take actual arrays from Spark during execution
-                let scan = ScanExec::new(
+                let mut scan = ScanExec::new(
                     self.exec_context_id,
                     input_source,
                     &scan.source,
                     data_types,
                     scan.arrow_ffi_safe,
                 )?;
 
+                if !input_ordering.is_empty() {
+                    let sort_exprs: Vec<PhysicalSortExpr> = input_ordering
+                        .iter()
+                        .map(|expr| {
+                            self.sort_order_to_physical_sort_expr(expr, Arc::clone(&scan.schema()))
+                        })
+                        .collect::<Result<_, ExecutionError>>()?;
+
+                    scan = scan.with_ordering(sort_exprs)
+                }
+
                 Ok((
                     vec![scan.clone()],
                     Arc::new(SparkPlan::new(spark_plan.plan_id, Arc::new(scan), vec![])),
@@ -2844,6 +2866,7 @@ mod tests {
                 }],
                 source: "".to_string(),
                 arrow_ffi_safe: false,
+                input_ordering: vec![],
             })),
         };
 
@@ -2918,6 +2941,7 @@ mod tests {
                 }],
                 source: "".to_string(),
                 arrow_ffi_safe: false,
+                input_ordering: vec![],
             })),
         };
 
@@ -3129,6 +3153,7 @@ mod tests {
                 fields: vec![create_proto_datatype()],
                 source: "".to_string(),
                 arrow_ffi_safe: false,
+                input_ordering: vec![],
             })),
         }
     }
@@ -3172,6 +3197,7 @@ mod tests {
                 ],
                 source: "".to_string(),
                 arrow_ffi_safe: false,
+                input_ordering: vec![],
             })),
         };
 
@@ -3287,6 +3313,7 @@ mod tests {
                 ],
                 source: "".to_string(),
                 arrow_ffi_safe: false,
+                input_ordering: vec![],
             })),
         };
 
diff --git a/native/proto/src/proto/operator.proto b/native/proto/src/proto/operator.proto
@@ -79,6 +79,8 @@ message Scan {
   string source = 2;
   // Whether native code can assume ownership of batches that it receives
   bool arrow_ffi_safe = 3;
+
+  repeated spark.spark_expression.SortOrder input_ordering = 4;
 }
 
 message NativeScan {
diff --git a/spark/src/main/scala/org/apache/comet/serde/QueryPlanSerde.scala b/spark/src/main/scala/org/apache/comet/serde/QueryPlanSerde.scala
@@ -19,6 +19,7 @@
 
 package org.apache.comet.serde
 
+import scala.annotation.tailrec
 import scala.collection.JavaConverters._
 import scala.collection.mutable.ListBuffer
 
@@ -819,31 +820,18 @@ object QueryPlanSerde extends Logging with CometExprShim {
           None
         }
 
-      case SortOrder(child, direction, nullOrdering, _) =>
-        val childExpr = exprToProtoInternal(child, inputs, binding)
-
-        if (childExpr.isDefined) {
-          val sortOrderBuilder = ExprOuterClass.SortOrder.newBuilder()
-          sortOrderBuilder.setChild(childExpr.get)
-
-          direction match {
-            case Ascending => sortOrderBuilder.setDirectionValue(0)
-            case Descending => sortOrderBuilder.setDirectionValue(1)
-          }
-
-          nullOrdering match {
-            case NullsFirst => sortOrderBuilder.setNullOrderingValue(0)
-            case NullsLast => sortOrderBuilder.setNullOrderingValue(1)
-          }
+      case sortOrder @ SortOrder(child, direction, nullOrdering, _) =>
+        val sortOrderProto = sortOrderingToProto(sortOrder, inputs, binding)
 
+        if (sortOrderProto.isEmpty) {
+          withInfo(expr, child)
+          None
+        } else {
           Some(
             ExprOuterClass.Expr
               .newBuilder()
-              .setSortOrder(sortOrderBuilder)
+              .setSortOrder(sortOrderProto.get)
               .build())
-        } else {
-          withInfo(expr, child)
-          None
         }
 
       case UnaryExpression(child) if expr.prettyName == "promote_precision" =>
@@ -1363,18 +1351,16 @@ object QueryPlanSerde extends Logging with CometExprShim {
           if CometConf.COMET_EXEC_WINDOW_ENABLED.get(conf) =>
         val output = child.output
 
-        val winExprs: Array[WindowExpression] = windowExpression.flatMap { expr =>
-          expr match {
-            case alias: Alias =>
-              alias.child match {
-                case winExpr: WindowExpression =>
-                  Some(winExpr)
-                case _ =>
-                  None
-              }
-            case _ =>
-              None
-          }
+        val winExprs: Array[WindowExpression] = windowExpression.flatMap {
+          case alias: Alias =>
+            alias.child match {
+              case winExpr: WindowExpression =>
+                Some(winExpr)
+              case _ =>
+                None
+            }
+          case _ =>
+            None
         }.toArray
 
         if (winExprs.length != windowExpression.length) {
@@ -1694,6 +1680,11 @@ object QueryPlanSerde extends Logging with CometExprShim {
           scanBuilder.setSource(source)
         }
 
+        if (op.children.length == 1) {
+          scanBuilder.addAllInputOrdering(
+            QueryPlanSerde.parsePlanSortOrderAsMuchAsCan(op.children.head).asJava)
+        }
+
         val ffiSafe = op match {
           case _ if isExchangeSink(op) =>
             // Source of broadcast exchange batches is ArrowStreamReader
@@ -1927,6 +1918,79 @@ object QueryPlanSerde extends Logging with CometExprShim {
     })
     nativeScanBuilder.addFilePartitions(partitionBuilder.build())
   }
+
+  def sortOrderingToProto(
+      sortOrder: SortOrder,
+      inputs: Seq[Attribute],
+      binding: Boolean): Option[ExprOuterClass.SortOrder] = {
+    val childExpr = exprToProtoInternal(sortOrder.child, inputs, binding)
+
+    if (childExpr.isDefined) {
+      val sortOrderBuilder = ExprOuterClass.SortOrder.newBuilder()
+      sortOrderBuilder.setChild(childExpr.get)
+
+      sortOrder.direction match {
+        case Ascending => sortOrderBuilder.setDirectionValue(0)
+        case Descending => sortOrderBuilder.setDirectionValue(1)
+      }
+
+      sortOrder.nullOrdering match {
+        case NullsFirst => sortOrderBuilder.setNullOrderingValue(0)
+        case NullsLast => sortOrderBuilder.setNullOrderingValue(1)
+      }
+
+      Some(sortOrderBuilder.build())
+    } else {
+      withInfo(sortOrder, sortOrder.child)
+      None
+    }
+  }
+
+  /**
+   * Return the plan input sort order.
+   *
+   * This will not return the full sort order if it can't be fully mapped to the child (if the
+   * sort order is on an expression that is not a direct child of the input)
+   *
+   * in case this is the sort: Sort by a, b, coalesce(c, d), e
+   *
+   * We will return this sort order: a, b
+   *
+   * as it is still correct, the data IS ordered by a, b.
+   *
+   * And not: a, b, e
+   *
+   * as the data IS NOT ordered by a, b, e.
+   *
+   * This is meant to use for scan where we don't want to lose the input ordering information as
+   * it can allow certain optimization.
+   */
+  def parsePlanSortOrderAsMuchAsCan(plan: SparkPlan): Seq[ExprOuterClass.SortOrder] = {
+    if (plan.outputOrdering.isEmpty) {
+      Seq.empty
+    } else {
+      val outputAttributes = plan.output
+      val sortOrders = plan.outputOrdering.map(so => {
+        if (!isExprOneOfAttributes(so.child, outputAttributes)) {
+          None
+        } else {
+          QueryPlanSerde.sortOrderingToProto(so, outputAttributes, binding = true)
+        }
+      })
+
+      // Take the sort orders until the first None
+      sortOrders.takeWhile(_.isDefined).map(_.get)
+    }
+  }
+
+  @tailrec
+  private def isExprOneOfAttributes(expr: Expression, attrs: Seq[Attribute]): Boolean = {
+    expr match {
+      case attr: Attribute => attrs.exists(_.exprId == attr.exprId)
+      case alias: Alias => isExprOneOfAttributes(alias.child, attrs)
+      case _ => false
+    }
+  }
 }
 
 sealed trait SupportLevel
diff --git a/spark/src/main/scala/org/apache/spark/sql/comet/CometCollectLimitExec.scala b/spark/src/main/scala/org/apache/spark/sql/comet/CometCollectLimitExec.scala
@@ -77,7 +77,7 @@ case class CometCollectLimitExec(
         childRDD
       } else {
         val localLimitedRDD = if (limit >= 0) {
-          CometExecUtils.getNativeLimitRDD(childRDD, output, limit)
+          CometExecUtils.getNativeLimitRDD(child, childRDD, output, limit)
         } else {
           childRDD
         }
@@ -92,7 +92,7 @@ case class CometCollectLimitExec(
 
         new CometShuffledBatchRDD(dep, readMetrics)
       }
-      CometExecUtils.getNativeLimitRDD(singlePartitionRDD, output, limit, offset)
+      CometExecUtils.getNativeLimitRDD(child, singlePartitionRDD, output, limit, offset)
     }
   }
 
diff --git a/spark/src/main/scala/org/apache/spark/sql/comet/CometExecUtils.scala b/spark/src/main/scala/org/apache/spark/sql/comet/CometExecUtils.scala
@@ -28,7 +28,7 @@ import org.apache.spark.sql.catalyst.expressions.{Attribute, NamedExpression, So
 import org.apache.spark.sql.execution.SparkPlan
 import org.apache.spark.sql.vectorized.ColumnarBatch
 
-import org.apache.comet.serde.OperatorOuterClass
+import org.apache.comet.serde.{OperatorOuterClass, QueryPlanSerde}
 import org.apache.comet.serde.OperatorOuterClass.Operator
 import org.apache.comet.serde.QueryPlanSerde.{exprToProto, serializeDataType}
 
@@ -48,13 +48,14 @@ object CometExecUtils {
    * partition. The limit operation is performed on the native side.
    */
   def getNativeLimitRDD(
+      child: SparkPlan,
       childPlan: RDD[ColumnarBatch],
       outputAttribute: Seq[Attribute],
       limit: Int,
       offset: Int = 0): RDD[ColumnarBatch] = {
     val numParts = childPlan.getNumPartitions
     childPlan.mapPartitionsWithIndexInternal { case (idx, iter) =>
-      val limitOp = CometExecUtils.getLimitNativePlan(outputAttribute, limit, offset).get
+      val limitOp = CometExecUtils.getLimitNativePlan(child, outputAttribute, limit, offset).get
       CometExec.getCometIterator(Seq(iter), outputAttribute.length, limitOp, numParts, idx)
     }
   }
@@ -90,10 +91,15 @@ object CometExecUtils {
    * child partition
    */
   def getLimitNativePlan(
+      child: SparkPlan,
       outputAttributes: Seq[Attribute],
       limit: Int,
       offset: Int = 0): Option[Operator] = {
-    val scanBuilder = OperatorOuterClass.Scan.newBuilder().setSource("LimitInput")
+    val scanBuilder = OperatorOuterClass.Scan
+      .newBuilder()
+      .setSource("LimitInput")
+      .addAllInputOrdering(QueryPlanSerde.parsePlanSortOrderAsMuchAsCan(child).asJava)
+
     val scanOpBuilder = OperatorOuterClass.Operator.newBuilder()
 
     val scanTypes = outputAttributes.flatten { attr =>
@@ -125,7 +131,11 @@ object CometExecUtils {
       child: SparkPlan,
       limit: Int,
       offset: Int = 0): Option[Operator] = {
-    val scanBuilder = OperatorOuterClass.Scan.newBuilder().setSource("TopKInput")
+    val scanBuilder = OperatorOuterClass.Scan
+      .newBuilder()
+      .setSource("TopKInput")
+      .addAllInputOrdering(QueryPlanSerde.parsePlanSortOrderAsMuchAsCan(child).asJava)
+
     val scanOpBuilder = OperatorOuterClass.Operator.newBuilder()
 
     val scanTypes = outputAttributes.flatten { attr =>
diff --git a/spark/src/main/scala/org/apache/spark/sql/comet/CometTakeOrderedAndProjectExec.scala b/spark/src/main/scala/org/apache/spark/sql/comet/CometTakeOrderedAndProjectExec.scala
diff --git a/spark/src/test/scala/org/apache/comet/CometNativeSuite.scala b/spark/src/test/scala/org/apache/comet/CometNativeSuite.scala

Original file line number	Diff line number	Diff line change
`@@ -79,6 +79,8 @@ message Scan {`
`79`	`79`	`string source = 2;`
`80`	`80`	`// Whether native code can assume ownership of batches that it receives`
`81`	`81`	`bool arrow_ffi_safe = 3;`
	`82`	`+`
	`83`	`+ repeated spark.spark_expression.SortOrder input_ordering = 4;`
`82`	`84`	`}`
`83`	`85`
`84`	`86`	`message NativeScan {`
Original file line number	Diff line number	Diff line change
`@@ -77,7 +77,7 @@ case class CometCollectLimitExec(`
`77`	`77`	`childRDD`
`78`	`78`	`} else {`
`79`	`79`	`val localLimitedRDD = if (limit >= 0) {`
`80`		`- CometExecUtils.getNativeLimitRDD(childRDD, output, limit)`
	`80`	`+ CometExecUtils.getNativeLimitRDD(child, childRDD, output, limit)`
`81`	`81`	`} else {`
`82`	`82`	`childRDD`
`83`	`83`	`}`
`@@ -92,7 +92,7 @@ case class CometCollectLimitExec(`
`92`	`92`
`93`	`93`	`new CometShuffledBatchRDD(dep, readMetrics)`
`94`	`94`	`}`
`95`		`- CometExecUtils.getNativeLimitRDD(singlePartitionRDD, output, limit, offset)`
	`95`	`+ CometExecUtils.getNativeLimitRDD(child, singlePartitionRDD, output, limit, offset)`
`96`	`96`	`}`
`97`	`97`	`}`
`98`	`98`