chore: Create simple fuzz test as part of test suite (#1610)

andygrove · web-flow · commit 4b577f8f8926 · 2025-04-08T06:43:19.000-06:00
diff --git a/common/src/main/scala/org/apache/spark/sql/comet/util/Utils.scala b/common/src/main/scala/org/apache/spark/sql/comet/util/Utils.scala
@@ -27,8 +27,7 @@ import scala.collection.JavaConverters._
 
 import org.apache.arrow.c.CDataDictionaryProvider
 import org.apache.arrow.vector.{BigIntVector, BitVector, DateDayVector, DecimalVector, FieldVector, FixedSizeBinaryVector, Float4Vector, Float8Vector, IntVector, SmallIntVector, TimeStampMicroTZVector, TimeStampMicroVector, TinyIntVector, ValueVector, VarBinaryVector, VarCharVector, VectorSchemaRoot}
-import org.apache.arrow.vector.complex.MapVector
-import org.apache.arrow.vector.complex.StructVector
+import org.apache.arrow.vector.complex.{ListVector, MapVector, StructVector}
 import org.apache.arrow.vector.dictionary.DictionaryProvider
 import org.apache.arrow.vector.ipc.ArrowStreamWriter
 import org.apache.arrow.vector.types._
@@ -278,7 +277,7 @@ object Utils {
       case v @ (_: BitVector | _: TinyIntVector | _: SmallIntVector | _: IntVector |
           _: BigIntVector | _: Float4Vector | _: Float8Vector | _: VarCharVector |
           _: DecimalVector | _: DateDayVector | _: TimeStampMicroTZVector | _: VarBinaryVector |
-          _: FixedSizeBinaryVector | _: TimeStampMicroVector | _: StructVector) =>
+          _: FixedSizeBinaryVector | _: TimeStampMicroVector | _: StructVector | _: ListVector) =>
         v.asInstanceOf[FieldVector]
       case _ =>
         throw new SparkException(s"Unsupported Arrow Vector for $reason: ${valueVector.getClass}")
diff --git a/docs/source/user-guide/datatypes.md b/docs/source/user-guide/datatypes.md
@@ -39,3 +39,5 @@ The following Spark data types are currently available:
   - Timestamp
   - TimestampNTZ
 - Null
+- Struct
+- Array
diff --git a/docs/source/user-guide/installation.md b/docs/source/user-guide/installation.md
@@ -84,7 +84,7 @@ See the [Comet Kubernetes Guide](kubernetes.md) guide.
 
 Make sure `SPARK_HOME` points to the same Spark version as Comet was built for.
 
-```console
+```shell
 export COMET_JAR=spark/target/comet-spark-spark3.4_2.12-0.8.0-SNAPSHOT.jar
 
 $SPARK_HOME/bin/spark-shell \
@@ -95,7 +95,7 @@ $SPARK_HOME/bin/spark-shell \
     --conf spark.shuffle.manager=org.apache.spark.sql.comet.execution.shuffle.CometShuffleManager \
     --conf spark.comet.explainFallback.enabled=true \
     --conf spark.memory.offHeap.enabled=true \
-    --conf spark.memory.offHeap.size=16g \
+    --conf spark.memory.offHeap.size=16g
 ```
 
 ### Verify Comet enabled for Spark SQL query
diff --git a/spark/src/main/scala/org/apache/comet/serde/QueryPlanSerde.scala b/spark/src/main/scala/org/apache/comet/serde/QueryPlanSerde.scala
@@ -2459,6 +2459,10 @@ object QueryPlanSerde extends Logging with CometExprShim {
         }
 
         val groupingExprs = groupingExpressions.map(exprToProto(_, child.output))
+        if (groupingExprs.exists(_.isEmpty)) {
+          withInfo(op, "Not all grouping expressions are supported")
+          return None
+        }
 
         // In some of the cases, the aggregateExpressions could be empty.
         // For example, if the aggregate functions only have group by or if the aggregate
diff --git a/spark/src/main/scala/org/apache/comet/testing/ParquetGenerator.scala b/spark/src/main/scala/org/apache/comet/testing/ParquetGenerator.scala
@@ -22,6 +22,8 @@ package org.apache.comet.testing
 import java.math.{BigDecimal, RoundingMode}
 import java.nio.charset.Charset
 import java.sql.Timestamp
+import java.text.SimpleDateFormat
+import java.time.{Instant, LocalDateTime, ZoneId}
 
 import scala.collection.mutable.ListBuffer
 import scala.util.Random
@@ -31,6 +33,13 @@ import org.apache.spark.sql.types.{ArrayType, DataType, DataTypes, DecimalType,
 
 object ParquetGenerator {
 
+  /**
+   * Arbitrary date to use as base for generating temporal columns. Random integers will be added
+   * to or subtracted from this value.
+   */
+  private val baseDate =
+    new SimpleDateFormat("YYYY-MM-DD hh:mm:ss").parse("2024-05-25 12:34:56").getTime
+
   private val primitiveTypes = Seq(
     DataTypes.BooleanType,
     DataTypes.ByteType,
@@ -43,8 +52,7 @@ object ParquetGenerator {
     DataTypes.createDecimalType(36, 18),
     DataTypes.DateType,
     DataTypes.TimestampType,
-    // TimestampNTZType only in Spark 3.4+
-    // DataTypes.TimestampNTZType,
+    DataTypes.TimestampNTZType,
     DataTypes.StringType,
     DataTypes.BinaryType)
 
@@ -58,17 +66,24 @@ object ParquetGenerator {
     val dataTypes = ListBuffer[DataType]()
     dataTypes.appendAll(primitiveTypes)
 
+    val arraysOfPrimitives = primitiveTypes.map(DataTypes.createArrayType)
+
     if (options.generateStruct) {
       dataTypes += StructType(
         primitiveTypes.zipWithIndex.map(x => StructField(s"c${x._2}", x._1, true)))
+
+      if (options.generateArray) {
+        dataTypes += StructType(
+          arraysOfPrimitives.zipWithIndex.map(x => StructField(s"c${x._2}", x._1, true)))
+      }
     }
 
     if (options.generateMap) {
       dataTypes += MapType(DataTypes.IntegerType, DataTypes.StringType)
     }
 
     if (options.generateArray) {
-      dataTypes.appendAll(primitiveTypes.map(DataTypes.createArrayType))
+      dataTypes.appendAll(arraysOfPrimitives)
 
       if (options.generateStruct) {
         dataTypes += DataTypes.createArrayType(
@@ -202,9 +217,14 @@ object ParquetGenerator {
               null
           }
       case DataTypes.DateType =>
-        Range(0, numRows).map(_ => new java.sql.Date(1716645600011L + r.nextInt()))
+        Range(0, numRows).map(_ => new java.sql.Date(baseDate + r.nextInt()))
       case DataTypes.TimestampType =>
-        Range(0, numRows).map(_ => new Timestamp(1716645600011L + r.nextInt()))
+        Range(0, numRows).map(_ => new Timestamp(baseDate + r.nextInt()))
+      case DataTypes.TimestampNTZType =>
+        Range(0, numRows).map(_ =>
+          LocalDateTime.ofInstant(
+            Instant.ofEpochMilli(baseDate + r.nextInt()),
+            ZoneId.systemDefault()))
       case _ => throw new IllegalStateException(s"Cannot generate data for $dataType yet")
     }
   }
diff --git a/spark/src/test/scala/org/apache/comet/CometFuzzTestSuite.scala b/spark/src/test/scala/org/apache/comet/CometFuzzTestSuite.scala
@@ -0,0 +1,192 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one
+ * or more contributor license agreements.  See the NOTICE file
+ * distributed with this work for additional information
+ * regarding copyright ownership.  The ASF licenses this file
+ * to you under the Apache License, Version 2.0 (the
+ * "License"); you may not use this file except in compliance
+ * with the License.  You may obtain a copy of the License at
+ *
+ *   http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing,
+ * software distributed under the License is distributed on an
+ * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+ * KIND, either express or implied.  See the License for the
+ * specific language governing permissions and limitations
+ * under the License.
+ */
+
+package org.apache.comet
+
+import java.io.File
+
+import scala.util.Random
+
+import org.scalactic.source.Position
+import org.scalatest.Tag
+
+import org.apache.commons.io.FileUtils
+import org.apache.spark.sql.CometTestBase
+import org.apache.spark.sql.comet.{CometNativeScanExec, CometScanExec}
+import org.apache.spark.sql.execution.SparkPlan
+import org.apache.spark.sql.execution.adaptive.AdaptiveSparkPlanHelper
+import org.apache.spark.sql.internal.SQLConf
+
+import org.apache.comet.testing.{DataGenOptions, ParquetGenerator}
+
+class CometFuzzTestSuite extends CometTestBase with AdaptiveSparkPlanHelper {
+
+  private var filename: String = null
+
+  /**
+   * We use Asia/Kathmandu because it has a non-zero number of minutes as the offset, so is an
+   * interesting edge case. Also, this timezone tends to be different from the default system
+   * timezone.
+   *
+   * Represents UTC+5:45
+   */
+  private val defaultTimezone = "Asia/Kathmandu"
+
+  override def beforeAll(): Unit = {
+    super.beforeAll()
+    val tempDir = System.getProperty("java.io.tmpdir")
+    filename = s"$tempDir/CometFuzzTestSuite_${System.currentTimeMillis()}.parquet"
+    val random = new Random(42)
+    withSQLConf(
+      CometConf.COMET_ENABLED.key -> "false",
+      SQLConf.SESSION_LOCAL_TIMEZONE.key -> defaultTimezone) {
+      val options =
+        DataGenOptions(generateArray = true, generateStruct = true, generateNegativeZero = false)
+      ParquetGenerator.makeParquetFile(random, spark, filename, 1000, options)
+    }
+  }
+
+  protected override def afterAll(): Unit = {
+    super.afterAll()
+    FileUtils.deleteDirectory(new File(filename))
+  }
+
+  test("select *") {
+    val df = spark.read.parquet(filename)
+    df.createOrReplaceTempView("t1")
+    val sql = "SELECT * FROM t1"
+    if (CometConf.isExperimentalNativeScan) {
+      checkSparkAnswerAndOperator(sql)
+    } else {
+      checkSparkAnswer(sql)
+    }
+  }
+
+  test("select * with limit") {
+    val df = spark.read.parquet(filename)
+    df.createOrReplaceTempView("t1")
+    val sql = "SELECT * FROM t1 LIMIT 500"
+    if (CometConf.isExperimentalNativeScan) {
+      checkSparkAnswerAndOperator(sql)
+    } else {
+      checkSparkAnswer(sql)
+    }
+  }
+
+  test("order by single column") {
+    val df = spark.read.parquet(filename)
+    df.createOrReplaceTempView("t1")
+    for (col <- df.columns) {
+      val sql = s"SELECT $col FROM t1 ORDER BY $col"
+      // cannot run fully natively due to range partitioning and sort
+      val (_, cometPlan) = checkSparkAnswer(sql)
+      if (CometConf.isExperimentalNativeScan) {
+        assert(1 == collectNativeScans(cometPlan).length)
+      }
+    }
+  }
+
+  test("count distinct") {
+    val df = spark.read.parquet(filename)
+    df.createOrReplaceTempView("t1")
+    for (col <- df.columns) {
+      val sql = s"SELECT count(distinct $col) FROM t1"
+      val (_, cometPlan) = checkSparkAnswer(sql)
+      if (CometConf.isExperimentalNativeScan) {
+        assert(1 == collectNativeScans(cometPlan).length)
+      }
+    }
+  }
+
+  test("order by multiple columns") {
+    val df = spark.read.parquet(filename)
+    df.createOrReplaceTempView("t1")
+    val allCols = df.columns.mkString(",")
+    val sql = s"SELECT $allCols FROM t1 ORDER BY $allCols"
+    // cannot run fully natively due to range partitioning and sort
+    val (_, cometPlan) = checkSparkAnswer(sql)
+    if (CometConf.isExperimentalNativeScan) {
+      assert(1 == collectNativeScans(cometPlan).length)
+    }
+  }
+
+  test("aggregate group by single column") {
+    val df = spark.read.parquet(filename)
+    df.createOrReplaceTempView("t1")
+    for (col <- df.columns) {
+      // cannot run fully natively due to range partitioning and sort
+      val sql = s"SELECT $col, count(*) FROM t1 GROUP BY $col ORDER BY $col"
+      val (_, cometPlan) = checkSparkAnswer(sql)
+      if (CometConf.isExperimentalNativeScan) {
+        assert(1 == collectNativeScans(cometPlan).length)
+      }
+    }
+  }
+
+  test("min/max aggregate") {
+    val df = spark.read.parquet(filename)
+    df.createOrReplaceTempView("t1")
+    for (col <- df.columns) {
+      // cannot run fully native due to HashAggregate
+      val sql = s"SELECT min($col), max($col) FROM t1"
+      val (_, cometPlan) = checkSparkAnswer(sql)
+      if (CometConf.isExperimentalNativeScan) {
+        assert(1 == collectNativeScans(cometPlan).length)
+      }
+    }
+  }
+
+  test("join") {
+    val df = spark.read.parquet(filename)
+    df.createOrReplaceTempView("t1")
+    df.createOrReplaceTempView("t2")
+    for (col <- df.columns) {
+      // cannot run fully native due to HashAggregate
+      val sql = s"SELECT count(*) FROM t1 JOIN t2 ON t1.$col = t2.$col"
+      val (_, cometPlan) = checkSparkAnswer(sql)
+      if (CometConf.isExperimentalNativeScan) {
+        assert(2 == collectNativeScans(cometPlan).length)
+      }
+    }
+  }
+
+  override protected def test(testName: String, testTags: Tag*)(testFun: => Any)(implicit
+      pos: Position): Unit = {
+    Seq("native", "jvm").foreach { shuffleMode =>
+      Seq("native_comet", "native_datafusion", "native_iceberg_compat").foreach { scanImpl =>
+        super.test(testName + s" ($scanImpl, $shuffleMode shuffle)", testTags: _*) {
+          withSQLConf(
+            CometConf.COMET_NATIVE_SCAN_IMPL.key -> scanImpl,
+            CometConf.COMET_SCAN_ALLOW_INCOMPATIBLE.key -> "true",
+            CometConf.COMET_SHUFFLE_MODE.key -> shuffleMode) {
+            testFun
+          }
+        }
+      }
+    }
+  }
+
+  private def collectNativeScans(plan: SparkPlan): Seq[SparkPlan] = {
+    collect(plan) {
+      case scan: CometScanExec => scan
+      case scan: CometNativeScanExec => scan
+    }
+  }
+
+}

Original file line number	Diff line number	Diff line change
`@@ -2459,6 +2459,10 @@ object QueryPlanSerde extends Logging with CometExprShim {`
`2459`	`2459`	`}`
`2460`	`2460`
`2461`	`2461`	`val groupingExprs = groupingExpressions.map(exprToProto(_, child.output))`
	`2462`	`+ if (groupingExprs.exists(_.isEmpty)) {`
	`2463`	`+ withInfo(op, "Not all grouping expressions are supported")`
	`2464`	`+ return None`
	`2465`	`+ }`
`2462`	`2466`
`2463`	`2467`	`// In some of the cases, the aggregateExpressions could be empty.`
`2464`	`2468`	`// For example, if the aggregate functions only have group by or if the aggregate`