apache
diff --git a/‎dev/diffs/4.0.0.diff
Lines changed: 17 additions & 6 deletions b/‎dev/diffs/4.0.0.diff
Lines changed: 17 additions & 6 deletions
diff --git a/‎native/core/src/execution/planner.rs
Lines changed: 30 additions & 8 deletions b/‎native/core/src/execution/planner.rs
Lines changed: 30 additions & 8 deletions
diff --git a/‎native/proto/src/proto/operator.proto
Lines changed: 1 addition & 0 deletions b/‎native/proto/src/proto/operator.proto
Lines changed: 1 addition & 0 deletions
diff --git a/‎spark/src/main/scala/org/apache/comet/rules/CometExecRule.scala
Lines changed: 3 additions & 5 deletions b/‎spark/src/main/scala/org/apache/comet/rules/CometExecRule.scala
Lines changed: 3 additions & 5 deletions
diff --git a/‎spark/src/main/scala/org/apache/comet/serde/QueryPlanSerde.scala
Lines changed: 2 additions & 5 deletions b/‎spark/src/main/scala/org/apache/comet/serde/QueryPlanSerde.scala
Lines changed: 2 additions & 5 deletions
diff --git a/‎spark/src/main/scala/org/apache/spark/sql/comet/CometCollectLimitExec.scala
Lines changed: 5 additions & 4 deletions b/‎spark/src/main/scala/org/apache/spark/sql/comet/CometCollectLimitExec.scala
Lines changed: 5 additions & 4 deletions
diff --git a/‎spark/src/main/scala/org/apache/spark/sql/comet/CometExecUtils.scala
Lines changed: 14 additions & 6 deletions b/‎spark/src/main/scala/org/apache/spark/sql/comet/CometExecUtils.scala
Lines changed: 14 additions & 6 deletions
diff --git a/‎spark/src/main/scala/org/apache/spark/sql/comet/CometTakeOrderedAndProjectExec.scala
Lines changed: 6 additions & 5 deletions b/‎spark/src/main/scala/org/apache/spark/sql/comet/CometTakeOrderedAndProjectExec.scala
Lines changed: 6 additions & 5 deletions
diff --git a/‎spark/src/main/scala/org/apache/spark/sql/comet/operators.scala
Lines changed: 7 additions & 3 deletions b/‎spark/src/main/scala/org/apache/spark/sql/comet/operators.scala
Lines changed: 7 additions & 3 deletions
diff --git a/‎spark/src/test/resources/tpcds-plan-stability/approved-plans-v1_4-spark3_5/q1/explain.txt
Lines changed: 1 addition & 1 deletion b/‎spark/src/test/resources/tpcds-plan-stability/approved-plans-v1_4-spark3_5/q1/explain.txt
Lines changed: 1 addition & 1 deletion
@@ -1,5 +1,5 @@
 diff --git a/pom.xml b/pom.xml
-index a4b1b2c3c9f..63ec4784625 100644
+index 443d46a4302..63ec4784625 100644
 --- a/pom.xml
 +++ b/pom.xml
@@ -148,6 +148,8 @@
@@ -1523,19 +1523,30 @@ index 418ca3430bb..eb8267192f8 100644
        withTempPath { path =>
          val dir = path.getCanonicalPath
 diff --git a/sql/core/src/test/scala/org/apache/spark/sql/execution/InsertSortForLimitAndOffsetSuite.scala b/sql/core/src/test/scala/org/apache/spark/sql/execution/InsertSortForLimitAndOffsetSuite.scala
-index d1b11a74cf3..8ea0129b3af 100644
+index d1b11a74cf3..08087c80201 100644
 --- a/sql/core/src/test/scala/org/apache/spark/sql/execution/InsertSortForLimitAndOffsetSuite.scala
 +++ b/sql/core/src/test/scala/org/apache/spark/sql/execution/InsertSortForLimitAndOffsetSuite.scala
-@@ -17,7 +17,7 @@
+@@ -17,8 +17,9 @@
 
  package org.apache.spark.sql.execution
 
 -import org.apache.spark.sql.{Dataset, QueryTest}
 +import org.apache.spark.sql.{Dataset, IgnoreComet, QueryTest}
  import org.apache.spark.sql.IntegratedUDFTestUtils._
++import org.apache.spark.sql.comet.CometCollectLimitExec
  import org.apache.spark.sql.execution.adaptive.AdaptiveSparkPlanHelper
  import org.apache.spark.sql.functions.rand
-@@ -77,7 +77,9 @@ class InsertSortForLimitAndOffsetSuite extends QueryTest
+ import org.apache.spark.sql.internal.SQLConf
+@@ -39,7 +40,7 @@ class InsertSortForLimitAndOffsetSuite extends QueryTest
+ 
+   private def assertHasCollectLimitExec(plan: SparkPlan): Unit = {
+     assert(find(plan) {
+-      case _: CollectLimitExec => true
++      case _: CollectLimitExec | _: CometCollectLimitExec => true
+       case _ => false
+     }.isDefined)
+   }
+@@ -77,7 +78,9 @@ class InsertSortForLimitAndOffsetSuite extends QueryTest
      assert(!hasLocalSort(physicalPlan))
    }
 
@@ -1546,7 +1557,7 @@ index d1b11a74cf3..8ea0129b3af 100644
      withSQLConf(SQLConf.TOP_K_SORT_FALLBACK_THRESHOLD.key -> "1") {
        val df = spark.range(10).orderBy($"id" % 8).limit(2)
        df.collect()
-@@ -88,7 +90,9 @@ class InsertSortForLimitAndOffsetSuite extends QueryTest
+@@ -88,7 +91,9 @@ class InsertSortForLimitAndOffsetSuite extends QueryTest
      }
    }
 
@@ -1557,7 +1568,7 @@ index d1b11a74cf3..8ea0129b3af 100644
      withSQLConf(
        SQLConf.TOP_K_SORT_FALLBACK_THRESHOLD.key -> "1",
        // To trigger the bug, we have to disable the coalescing optimization. Otherwise we use only
-@@ -117,7 +121,9 @@ class InsertSortForLimitAndOffsetSuite extends QueryTest
+@@ -117,7 +122,9 @@ class InsertSortForLimitAndOffsetSuite extends QueryTest
      assert(!hasLocalSort(physicalPlan))
    }
 
 
@@ -94,6 +94,7 @@ use arrow::buffer::BooleanBuffer;
 use datafusion::common::utils::SingleRowListArrayBuilder;
 use datafusion::physical_plan::coalesce_batches::CoalesceBatchesExec;
 use datafusion::physical_plan::filter::FilterExec as DataFusionFilterExec;
+use datafusion::physical_plan::limit::GlobalLimitExec;
 use datafusion_comet_proto::spark_operator::SparkFilePartition;
 use datafusion_comet_proto::{
     spark_expression::{
@@ -1283,12 +1284,30 @@ impl PhysicalPlanner {
             OpStruct::Limit(limit) => {
                 assert_eq!(children.len(), 1);
                 let num = limit.limit;
+                let offset: i32 = limit.offset;
+                if num != -1 && offset > num {
+                    return Err(GeneralError(format!(
+                        "Invalid limit/offset combination: [{num}. {offset}]"
+                    )));
+                }
                 let (scans, child) = self.create_plan(&children[0], inputs, partition_count)?;
-
-                let limit = Arc::new(LocalLimitExec::new(
-                    Arc::clone(&child.native_plan),
-                    num as usize,
-                ));
+                let limit: Arc<dyn ExecutionPlan> = if offset == 0 {
+                    Arc::new(LocalLimitExec::new(
+                        Arc::clone(&child.native_plan),
+                        num as usize,
+                    ))
+                } else {
+                    let fetch = if num == -1 {
+                        None
+                    } else {
+                        Some((num - offset) as usize)
+                    };
+                    Arc::new(GlobalLimitExec::new(
+                        Arc::clone(&child.native_plan),
+                        offset as usize,
+                        fetch,
+                    ))
+                };
                 Ok((
                     scans,
                     Arc::new(SparkPlan::new(spark_plan.plan_id, limit, vec![child])),
@@ -1305,23 +1324,26 @@ impl PhysicalPlanner {
                     .collect();
 
                 let fetch = sort.fetch.map(|num| num as usize);
-
                 // SortExec caches batches so we need to make a copy of incoming batches. Also,
                 // SortExec fails in some cases if we do not unpack dictionary-encoded arrays, and
                 // it would be more efficient if we could avoid that.
                 // https://github.com/apache/datafusion-comet/issues/963
                 let child_copied = Self::wrap_in_copy_exec(Arc::clone(&child.native_plan));
 
-                let sort = Arc::new(
+                let mut sort_exec: Arc<dyn ExecutionPlan> = Arc::new(
                     SortExec::new(LexOrdering::new(exprs?).unwrap(), Arc::clone(&child_copied))
                         .with_fetch(fetch),
                 );
 
+                if let Some(skip) = sort.skip.filter(|&n| n > 0).map(|n| n as usize) {
+                    sort_exec = Arc::new(GlobalLimitExec::new(sort_exec, skip, None));
+                }
+
                 Ok((
                     scans,
                     Arc::new(SparkPlan::new(
                         spark_plan.plan_id,
-                        sort,
+                        sort_exec,
                         vec![Arc::clone(&child)],
                     )),
                 ))
 
@@ -117,6 +117,7 @@ message Filter {
 message Sort {
   repeated spark.spark_expression.Expr sort_orders = 1;
   optional int32 fetch = 3;
+  optional int32 skip = 4;
 }
 
 message HashAggregate {
 
@@ -201,10 +201,10 @@ case class CometExecRule(session: SparkSession) extends Rule[SparkPlan] {
       case op: LocalLimitExec =>
         newPlanWithProto(op, CometLocalLimitExec(_, op, op.limit, op.child, SerializedPlan(None)))
 
-      case op: GlobalLimitExec if op.offset == 0 =>
+      case op: GlobalLimitExec =>
         newPlanWithProto(
           op,
-          CometGlobalLimitExec(_, op, op.limit, op.child, SerializedPlan(None)))
+          CometGlobalLimitExec(_, op, op.limit, op.offset, op.child, SerializedPlan(None)))
 
       case op: CollectLimitExec =>
         val fallbackReasons = new ListBuffer[String]()
@@ -214,9 +214,6 @@ case class CometExecRule(session: SparkSession) extends Rule[SparkPlan] {
         if (!isCometShuffleEnabled(conf)) {
           fallbackReasons += "Comet shuffle is not enabled"
         }
-        if (op.offset != 0) {
-          fallbackReasons += "CollectLimit with non-zero offset is not supported"
-        }
         if (fallbackReasons.nonEmpty) {
           withInfos(op, fallbackReasons.toSet)
         } else {
@@ -382,6 +379,7 @@ case class CometExecRule(session: SparkSession) extends Rule[SparkPlan] {
                 s,
                 s.output,
                 s.limit,
+                s.offset,
                 s.sortOrder,
                 s.projectList,
                 s.child)
 
@@ -1840,13 +1840,10 @@ object QueryPlanSerde extends Logging with CometExprShim {
 
       case globalLimitExec: GlobalLimitExec
           if CometConf.COMET_EXEC_GLOBAL_LIMIT_ENABLED.get(conf) =>
-        // TODO: We don't support negative limit for now.
-        if (childOp.nonEmpty && globalLimitExec.limit >= 0) {
+        if (childOp.nonEmpty) {
           val limitBuilder = OperatorOuterClass.Limit.newBuilder()
 
-          // TODO: Spark 3.3 might have negative limit (-1) for Offset usage.
-          // When we upgrade to Spark 3.3., we need to address it here.
-          limitBuilder.setLimit(globalLimitExec.limit)
+          limitBuilder.setLimit(globalLimitExec.limit).setOffset(globalLimitExec.offset)
 
           Some(builder.setLimit(limitBuilder).build())
         } else {
 
@@ -36,8 +36,6 @@ import com.google.common.base.Objects
  *
  * Similar to `CometTakeOrderedAndProjectExec`, it contains two native executions seperated by a
  * Comet shuffle.
- *
- * TODO: support offset semantics
  */
 case class CometCollectLimitExec(
     override val originalPlan: SparkPlan,
@@ -64,7 +62,10 @@ case class CometCollectLimitExec(
     new UnsafeRowSerializer(child.output.size, longMetric("dataSize"))
 
   override def executeCollect(): Array[InternalRow] = {
-    ColumnarToRowExec(child).executeTake(limit)
+    val rows =
+      if (limit >= 0) ColumnarToRowExec(child).executeTake(limit)
+      else ColumnarToRowExec(child).executeCollect()
+    if (offset > 0) rows.drop(offset) else rows
   }
 
   protected override def doExecuteColumnar(): RDD[ColumnarBatch] = {
@@ -91,7 +92,7 @@ case class CometCollectLimitExec(
 
         new CometShuffledBatchRDD(dep, readMetrics)
       }
-      CometExecUtils.getNativeLimitRDD(singlePartitionRDD, output, limit)
+      CometExecUtils.getNativeLimitRDD(singlePartitionRDD, output, limit, offset)
     }
   }
 
 
@@ -50,10 +50,11 @@ object CometExecUtils {
   def getNativeLimitRDD(
       childPlan: RDD[ColumnarBatch],
       outputAttribute: Seq[Attribute],
-      limit: Int): RDD[ColumnarBatch] = {
+      limit: Int,
+      offset: Int = 0): RDD[ColumnarBatch] = {
     val numParts = childPlan.getNumPartitions
     childPlan.mapPartitionsWithIndexInternal { case (idx, iter) =>
-      val limitOp = CometExecUtils.getLimitNativePlan(outputAttribute, limit).get
+      val limitOp = CometExecUtils.getLimitNativePlan(outputAttribute, limit, offset).get
       CometExec.getCometIterator(Seq(iter), outputAttribute.length, limitOp, numParts, idx)
     }
   }
@@ -66,8 +67,9 @@ object CometExecUtils {
       outputAttributes: Seq[Attribute],
       sortOrder: Seq[SortOrder],
       child: SparkPlan,
-      limit: Int): Option[Operator] = {
-    getTopKNativePlan(outputAttributes, sortOrder, child, limit).flatMap { topK =>
+      limit: Int,
+      offset: Int = 0): Option[Operator] = {
+    getTopKNativePlan(outputAttributes, sortOrder, child, limit, offset).flatMap { topK =>
       val exprs = projectList.map(exprToProto(_, child.output))
 
       if (exprs.forall(_.isDefined)) {
@@ -87,7 +89,10 @@ object CometExecUtils {
    * Prepare Limit native plan for Comet operators which take the first `limit` elements of each
    * child partition
    */
-  def getLimitNativePlan(outputAttributes: Seq[Attribute], limit: Int): Option[Operator] = {
+  def getLimitNativePlan(
+      outputAttributes: Seq[Attribute],
+      limit: Int,
+      offset: Int = 0): Option[Operator] = {
     val scanBuilder = OperatorOuterClass.Scan.newBuilder().setSource("LimitInput")
     val scanOpBuilder = OperatorOuterClass.Operator.newBuilder()
 
@@ -100,6 +105,7 @@ object CometExecUtils {
 
       val limitBuilder = OperatorOuterClass.Limit.newBuilder()
       limitBuilder.setLimit(limit)
+      limitBuilder.setOffset(offset)
 
       val limitOpBuilder = OperatorOuterClass.Operator
         .newBuilder()
@@ -117,7 +123,8 @@ object CometExecUtils {
       outputAttributes: Seq[Attribute],
       sortOrder: Seq[SortOrder],
       child: SparkPlan,
-      limit: Int): Option[Operator] = {
+      limit: Int,
+      offset: Int = 0): Option[Operator] = {
     val scanBuilder = OperatorOuterClass.Scan.newBuilder().setSource("TopKInput")
     val scanOpBuilder = OperatorOuterClass.Operator.newBuilder()
 
@@ -134,6 +141,7 @@ object CometExecUtils {
         val sortBuilder = OperatorOuterClass.Sort.newBuilder()
         sortBuilder.addAllSortOrders(sortOrders.map(_.get).asJava)
         sortBuilder.setFetch(limit)
+        sortBuilder.setSkip(offset)
 
         val sortOpBuilder = OperatorOuterClass.Operator
           .newBuilder()
 
@@ -43,6 +43,7 @@ case class CometTakeOrderedAndProjectExec(
     override val originalPlan: SparkPlan,
     override val output: Seq[Attribute],
     limit: Int,
+    offset: Int,
     sortOrder: Seq[SortOrder],
     projectList: Seq[NamedExpression],
     child: SparkPlan)
@@ -68,7 +69,7 @@ case class CometTakeOrderedAndProjectExec(
 
   protected override def doExecuteColumnar(): RDD[ColumnarBatch] = {
     val childRDD = child.executeColumnar()
-    if (childRDD.getNumPartitions == 0) {
+    if (childRDD.getNumPartitions == 0 || limit == 0) {
       new ParallelCollectionRDD(sparkContext, Seq.empty[ColumnarBatch], 1, Map.empty)
     } else {
       val singlePartitionRDD = if (childRDD.getNumPartitions == 1) {
@@ -101,7 +102,7 @@ case class CometTakeOrderedAndProjectExec(
 
       singlePartitionRDD.mapPartitionsInternal { iter =>
         val topKAndProjection = CometExecUtils
-          .getProjectionNativePlan(projectList, child.output, sortOrder, child, limit)
+          .getProjectionNativePlan(projectList, child.output, sortOrder, child, limit, offset)
           .get
         val it = CometExec.getCometIterator(Seq(iter), output.length, topKAndProjection, 1, 0)
         setSubqueries(it.id, this)
@@ -122,19 +123,19 @@ case class CometTakeOrderedAndProjectExec(
     val orderByString = truncatedString(sortOrder, "[", ",", "]", maxFields)
     val outputString = truncatedString(output, "[", ",", "]", maxFields)
 
-    s"CometTakeOrderedAndProjectExec(limit=$limit, orderBy=$orderByString, output=$outputString)"
+    s"CometTakeOrderedAndProjectExec(limit=$limit, offset=$offset, " +
+      s"orderBy=$orderByString, output=$outputString)"
   }
 
   override protected def withNewChildInternal(newChild: SparkPlan): SparkPlan =
     this.copy(child = newChild)
 }
 
 object CometTakeOrderedAndProjectExec {
-  // TODO: support offset for Spark 3.4
   def isSupported(plan: TakeOrderedAndProjectExec): Boolean = {
     val exprs = plan.projectList.map(exprToProto(_, plan.child.output))
     val sortOrders = plan.sortOrder.map(exprToProto(_, plan.child.output))
-    exprs.forall(_.isDefined) && sortOrders.forall(_.isDefined) && plan.offset == 0 &&
+    exprs.forall(_.isDefined) && sortOrders.forall(_.isDefined) &&
     supportedSortType(plan, plan.sortOrder)
   }
 }
@@ -577,6 +577,7 @@ case class CometGlobalLimitExec(
     override val nativeOp: Operator,
     override val originalPlan: SparkPlan,
     limit: Int,
+    offset: Int,
     child: SparkPlan,
     override val serializedPlanOpt: SerializedPlan)
     extends CometUnaryExec {
@@ -588,20 +589,23 @@ case class CometGlobalLimitExec(
   override protected def withNewChildInternal(newChild: SparkPlan): SparkPlan =
     this.copy(child = newChild)
 
-  override def stringArgs: Iterator[Any] = Iterator(limit, child)
+  override def stringArgs: Iterator[Any] = Iterator(limit, offset, child)
 
   override def equals(obj: Any): Boolean = {
     obj match {
       case other: CometGlobalLimitExec =>
         this.output == other.output &&
-        this.limit == other.limit && this.child == other.child &&
+        this.limit == other.limit &&
+        this.offset == other.offset &&
+        this.child == other.child &&
         this.serializedPlanOpt == other.serializedPlanOpt
       case _ =>
         false
     }
   }
 
-  override def hashCode(): Int = Objects.hashCode(output, limit: java.lang.Integer, child)
+  override def hashCode(): Int =
+    Objects.hashCode(output, limit: java.lang.Integer, offset: java.lang.Integer, child)
 }
 
 case class CometExpandExec(
 
@@ -227,7 +227,7 @@ Arguments: [c_customer_id#28], [c_customer_id#28]
 
 (40) CometTakeOrderedAndProject
 Input [1]: [c_customer_id#28]
-Arguments: TakeOrderedAndProject(limit=100, orderBy=[c_customer_id#28 ASC NULLS FIRST], output=[c_customer_id#28]), [c_customer_id#28], 100, [c_customer_id#28 ASC NULLS FIRST], [c_customer_id#28]
+Arguments: TakeOrderedAndProject(limit=100, orderBy=[c_customer_id#28 ASC NULLS FIRST], output=[c_customer_id#28]), [c_customer_id#28], 100, 0, [c_customer_id#28 ASC NULLS FIRST], [c_customer_id#28]
 
 (41) CometColumnarToRow [codegen id : 1]
 Input [1]: [c_customer_id#28]
Original file line number	Diff line number	Diff line change
`@@ -117,6 +117,7 @@ message Filter {`
`117`	`117`	`message Sort {`
`118`	`118`	`repeated spark.spark_expression.Expr sort_orders = 1;`
`119`	`119`	`optional int32 fetch = 3;`
	`120`	`+ optional int32 skip = 4;`
`120`	`121`	`}`
`121`	`122`
`122`	`123`	`message HashAggregate {`
Original file line number	Diff line number	Diff line change
`@@ -36,8 +36,6 @@ import com.google.common.base.Objects`
`36`	`36`	`*`
`37`	`37`	* Similar to `CometTakeOrderedAndProjectExec`, it contains two native executions seperated by a
`38`	`38`	`* Comet shuffle.`
`39`		`- *`
`40`		`- * TODO: support offset semantics`
`41`	`39`	`*/`
`42`	`40`	`case class CometCollectLimitExec(`
`43`	`41`	`override val originalPlan: SparkPlan,`
`@@ -64,7 +62,10 @@ case class CometCollectLimitExec(`
`64`	`62`	`new UnsafeRowSerializer(child.output.size, longMetric("dataSize"))`
`65`	`63`
`66`	`64`	`override def executeCollect(): Array[InternalRow] = {`
`67`		`- ColumnarToRowExec(child).executeTake(limit)`
	`65`	`+ val rows =`
	`66`	`+ if (limit >= 0) ColumnarToRowExec(child).executeTake(limit)`
	`67`	`+ else ColumnarToRowExec(child).executeCollect()`
	`68`	`+ if (offset > 0) rows.drop(offset) else rows`
`68`	`69`	`}`
`69`	`70`
`70`	`71`	`protected override def doExecuteColumnar(): RDD[ColumnarBatch] = {`
`@@ -91,7 +92,7 @@ case class CometCollectLimitExec(`
`91`	`92`
`92`	`93`	`new CometShuffledBatchRDD(dep, readMetrics)`
`93`	`94`	`}`
`94`		`- CometExecUtils.getNativeLimitRDD(singlePartitionRDD, output, limit)`
	`95`	`+ CometExecUtils.getNativeLimitRDD(singlePartitionRDD, output, limit, offset)`
`95`	`96`	`}`
`96`	`97`	`}`
`97`	`98`