Pt2

andy-hf-kwok · andy-hf-kwok · commit 2d22b5131615 · 2025-10-14T22:11:54.000-07:00
Signed-off-by: Andy HF Kwok &lt;andy.hf.kwok@gmail.com&gt;
diff --git a/spark/src/test/scala/org/apache/comet/CometExpressionSuite.scala b/spark/src/test/scala/org/apache/comet/CometExpressionSuite.scala
@@ -1162,7 +1162,7 @@ class CometExpressionSuite extends CometTestBase with AdaptiveSparkPlanHelper {
     def makeDecimalRDD(num: Int, decimal: DecimalType, useDictionary: Boolean): DataFrame = {
       val div = if (useDictionary) 5 else num // narrow the space to make it dictionary encoded
       spark
-        .range(num)
+        .range(num.toLong)
         .map(_ % div)
         // Parquet doesn't allow column names with spaces, have to add an alias here.
         // Minus 500 here so that negative decimals are also tested.
diff --git a/spark/src/test/scala/org/apache/comet/exec/CometExecSuite.scala b/spark/src/test/scala/org/apache/comet/exec/CometExecSuite.scala
@@ -1801,7 +1801,7 @@ class CometExecSuite extends CometTestBase {
         withTable("t1") {
           val numRows = 10
           spark
-            .range(numRows)
+            .range(numRows.toLong)
             .selectExpr("if (id % 2 = 0, null, id) AS a", s"$numRows - id AS b")
             .repartition(3) // Force repartition to test data will come to single partition
             .write
@@ -1838,7 +1838,7 @@ class CometExecSuite extends CometTestBase {
         withTable("t1") {
           val numRows = 10
           spark
-            .range(numRows)
+            .range(numRows.toLong)
             .selectExpr("if (id % 2 = 0, null, id) AS a", s"$numRows - id AS b")
             .repartition(3) // Force repartition to test data will come to single partition
             .write
@@ -1869,7 +1869,7 @@ class CometExecSuite extends CometTestBase {
         withTable("t1") {
           val numRows = 10
           spark
-            .range(numRows)
+            .range(numRows.toLong)
             .selectExpr("if (id % 2 = 0, null, id) AS a", s"$numRows - id AS b")
             .repartition(3) // Force repartition to test data will come to single partition
             .write
diff --git a/spark/src/test/scala/org/apache/comet/parquet/ParquetReadSuite.scala b/spark/src/test/scala/org/apache/comet/parquet/ParquetReadSuite.scala
@@ -416,15 +416,15 @@ abstract class ParquetReadSuite extends CometTestBase {
         opt match {
           case Some(i) =>
             record.add(0, i % 2 == 0)
-            record.add(1, i.toByte)
-            record.add(2, i.toShort)
+            record.add(1, i.toByte.toInt)
+            record.add(2, i.toShort.toInt)
             record.add(3, i)
             record.add(4, i.toLong)
             record.add(5, i.toFloat)
             record.add(6, i.toDouble)
             record.add(7, i.toString * 48)
-            record.add(8, (-i).toByte)
-            record.add(9, (-i).toShort)
+            record.add(8, (-i).toByte.toInt)
+            record.add(9, (-i).toShort.toInt)
             record.add(10, -i)
             record.add(11, (-i).toLong)
             record.add(12, i.toString)
@@ -639,8 +639,8 @@ abstract class ParquetReadSuite extends CometTestBase {
         opt match {
           case Some(i) =>
             record.add(0, i % 2 == 0)
-            record.add(1, i.toByte)
-            record.add(2, i.toShort)
+            record.add(1, i.toByte.toInt)
+            record.add(2, i.toShort.toInt)
             record.add(3, i)
             record.add(4, i.toLong)
             record.add(5, i.toFloat)
@@ -1575,15 +1575,15 @@ abstract class ParquetReadSuite extends CometTestBase {
         opt match {
           case Some(i) =>
             record.add(0, i % 2 == 0)
-            record.add(1, i.toByte)
-            record.add(2, i.toShort)
+            record.add(1, i.toByte.toInt)
+            record.add(2, i.toShort.toInt)
             record.add(3, i)
             record.add(4, i.toLong)
             record.add(5, i.toFloat)
             record.add(6, i.toDouble)
             record.add(7, i.toString * 48)
-            record.add(8, (-i).toByte)
-            record.add(9, (-i).toShort)
+            record.add(8, (-i).toByte.toInt)
+            record.add(9, (-i).toShort.toInt)
             record.add(10, -i)
             record.add(11, (-i).toLong)
             record.add(12, i.toString)
@@ -1672,7 +1672,7 @@ abstract class ParquetReadSuite extends CometTestBase {
         val record = new SimpleGroup(schema)
         opt match {
           case Some(i) =>
-            record.add(0, i.toShort)
+            record.add(0, i.toShort.toInt)
             record.add(1, i)
             record.add(2, i.toLong)
           case _ =>
@@ -1765,7 +1765,7 @@ abstract class ParquetReadSuite extends CometTestBase {
   }
 
   private def withId(id: Int) =
-    new MetadataBuilder().putLong(ParquetUtils.FIELD_ID_METADATA_KEY, id).build()
+    new MetadataBuilder().putLong(ParquetUtils.FIELD_ID_METADATA_KEY, id.toLong).build()
 
   // Based on Spark ParquetIOSuite.test("vectorized reader: array of nested struct")
   test("array of nested struct with and without field id") {
diff --git a/spark/src/test/scala/org/apache/spark/sql/CometTestBase.scala b/spark/src/test/scala/org/apache/spark/sql/CometTestBase.scala
@@ -557,15 +557,15 @@ abstract class CometTestBase
       opt match {
         case Some(i) =>
           record.add(0, i % 2 == 0)
-          record.add(1, i.toByte)
-          record.add(2, i.toShort)
+          record.add(1, i.toByte.toInt)
+          record.add(2, i.toShort.toInt)
           record.add(3, i)
           record.add(4, i.toLong)
           record.add(5, i.toFloat)
           record.add(6, i.toDouble)
           record.add(7, i.toString * 48)
-          record.add(8, (-i).toByte)
-          record.add(9, (-i).toShort)
+          record.add(8, (-i).toByte.toInt)
+          record.add(9, (-i).toShort.toInt)
           record.add(10, -i)
           record.add(11, (-i).toLong)
           record.add(12, i.toString)
@@ -586,15 +586,15 @@ abstract class CometTestBase
       val i = rand.nextLong()
       val record = new SimpleGroup(schema)
       record.add(0, i % 2 == 0)
-      record.add(1, i.toByte)
-      record.add(2, i.toShort)
+      record.add(1, i.toByte.toInt)
+      record.add(2, i.toShort.toInt)
       record.add(3, i.toInt)
       record.add(4, i)
       record.add(5, java.lang.Float.intBitsToFloat(i.toInt))
       record.add(6, java.lang.Double.longBitsToDouble(i))
       record.add(7, i.toString * 24)
-      record.add(8, (-i).toByte)
-      record.add(9, (-i).toShort)
+      record.add(8, (-i).toByte.toInt)
+      record.add(9, (-i).toShort.toInt)
       record.add(10, (-i).toInt)
       record.add(11, -i)
       record.add(12, i.toString)
@@ -643,7 +643,7 @@ abstract class CometTestBase
       if (rand.nextBoolean()) {
         None
       } else {
-        Some(getValue(i, div))
+        Some(getValue(i.toLong, div.toLong))
       }
     }
     expected.foreach { opt =>
@@ -697,7 +697,7 @@ abstract class CometTestBase
       if (rand.nextBoolean()) {
         None
       } else {
-        Some(getValue(i, div))
+        Some(getValue(i.toLong, div.toLong))
       }
     }
     expected.foreach { opt =>
@@ -875,7 +875,7 @@ abstract class CometTestBase
     val div = if (dictionaryEnabled) 10 else n // maps value to a small range for dict to kick in
 
     val expected = (0 until n).map { i =>
-      Some(getValue(i, div))
+      Some(getValue(i.toLong, div.toLong))
     }
     expected.foreach { opt =>
       val timestampFormats = List(
@@ -923,7 +923,7 @@ abstract class CometTestBase
   def makeDecimalRDD(num: Int, decimal: DecimalType, useDictionary: Boolean): DataFrame = {
     val div = if (useDictionary) 5 else num // narrow the space to make it dictionary encoded
     spark
-      .range(num)
+      .range(num.toLong)
       .map(_ % div)
       // Parquet doesn't allow column names with spaces, have to add an alias here.
       // Minus 500 here so that negative decimals are also tested.
@@ -1103,8 +1103,8 @@ abstract class CometTestBase
       val record = new SimpleGroup(schema)
       opt match {
         case Some(i) =>
-          record.add(0, i.toByte)
-          record.add(1, i.toShort)
+          record.add(0, i.toByte.toInt)
+          record.add(1, i.toShort.toInt)
           record.add(2, i)
           record.add(3, i.toLong)
           record.add(4, rand.nextFloat())
diff --git a/spark/src/test/scala/org/apache/spark/sql/GenTPCHData.scala b/spark/src/test/scala/org/apache/spark/sql/GenTPCHData.scala
@@ -65,7 +65,9 @@ object GenTPCHData {
       // Install the data generators in all nodes
       // TODO: think a better way to install on each worker node
       //       such as https://stackoverflow.com/a/40876671
-      spark.range(0, workers, 1, workers).foreach(worker => installDBGEN(baseDir)(worker))
+      spark
+        .range(0L, workers.toLong, 1L, workers)
+        .foreach(worker => installDBGEN(baseDir)(worker))
       s"${baseDir}/dbgen"
     } else {
       config.dbgenDir
@@ -91,7 +93,7 @@ object GenTPCHData {
 
     // Clean up
     if (defaultDbgenDir != null) {
-      spark.range(0, workers, 1, workers).foreach { _ =>
+      spark.range(0L, workers.toLong, 1L, workers).foreach { _ =>
         val _ = FileUtils.deleteQuietly(defaultDbgenDir)
       }
     }
diff --git a/spark/src/test/scala/org/apache/spark/sql/benchmark/CometAggregateBenchmark.scala b/spark/src/test/scala/org/apache/spark/sql/benchmark/CometAggregateBenchmark.scala
@@ -66,7 +66,7 @@ object CometAggregateBenchmark extends CometBenchmarkBase {
       new Benchmark(
         s"Grouped HashAgg Exec: single group key (cardinality $groupingKeyCardinality), " +
           s"single aggregate ${aggregateFunction.toString}",
-        values,
+        values.toLong,
         output = output)
 
     withTempPath { dir =>
@@ -104,7 +104,7 @@ object CometAggregateBenchmark extends CometBenchmarkBase {
       new Benchmark(
         s"Grouped HashAgg Exec: single group key (cardinality $groupingKeyCardinality), " +
           s"single aggregate ${aggregateFunction.toString} on decimal",
-        values,
+        values.toLong,
         output = output)
 
     val df = makeDecimalDataFrame(values, dataType, false);
@@ -145,7 +145,7 @@ object CometAggregateBenchmark extends CometBenchmarkBase {
       new Benchmark(
         s"Grouped HashAgg Exec: multiple group keys (cardinality $groupingKeyCard), " +
           s"single aggregate ${aggregateFunction.toString}",
-        values,
+        values.toLong,
         output = output)
 
     withTempPath { dir =>
@@ -186,7 +186,7 @@ object CometAggregateBenchmark extends CometBenchmarkBase {
       new Benchmark(
         s"Grouped HashAgg Exec: single group key (cardinality $groupingKeyCard), " +
           s"multiple aggregates ${aggregateFunction.toString}",
-        values,
+        values.toLong,
         output = output)
 
     withTempPath { dir =>
diff --git a/spark/src/test/scala/org/apache/spark/sql/benchmark/CometArithmeticBenchmark.scala b/spark/src/test/scala/org/apache/spark/sql/benchmark/CometArithmeticBenchmark.scala
@@ -37,7 +37,7 @@ object CometArithmeticBenchmark extends CometBenchmarkBase {
     val dataType = IntegerType
     val benchmark = new Benchmark(
       s"Binary op ${dataType.sql}, dictionary = $useDictionary",
-      values,
+      values.toLong,
       output = output)
 
     withTempPath { dir =>
@@ -78,7 +78,7 @@ object CometArithmeticBenchmark extends CometBenchmarkBase {
       useDictionary: Boolean): Unit = {
     val benchmark = new Benchmark(
       s"Binary op ${dataType.sql}, dictionary = $useDictionary",
-      values,
+      values.toLong,
       output = output)
     val df = makeDecimalDataFrame(values, dataType, useDictionary)
 
diff --git a/spark/src/test/scala/org/apache/spark/sql/benchmark/CometBenchmarkBase.scala b/spark/src/test/scala/org/apache/spark/sql/benchmark/CometBenchmarkBase.scala
@@ -81,7 +81,7 @@ trait CometBenchmarkBase extends SqlBasedBenchmark {
     withTempTable(tbl) {
       import spark.implicits._
       spark
-        .range(values)
+        .range(values.toLong)
         .map(_ => if (useDictionary) Random.nextLong % 5 else Random.nextLong)
         .createOrReplaceTempView(tbl)
       runBenchmark(benchmarkName)(f(values))
@@ -168,7 +168,7 @@ trait CometBenchmarkBase extends SqlBasedBenchmark {
 
     val div = if (useDictionary) 5 else values
     spark
-      .range(values)
+      .range(values.toLong)
       .map(_ % div)
       .select((($"value" - 500) / 100.0) cast decimal as Symbol("dec"))
   }
diff --git a/spark/src/test/scala/org/apache/spark/sql/benchmark/CometConditionalExpressionBenchmark.scala b/spark/src/test/scala/org/apache/spark/sql/benchmark/CometConditionalExpressionBenchmark.scala
@@ -32,7 +32,7 @@ import org.apache.comet.CometConf
 object CometConditionalExpressionBenchmark extends CometBenchmarkBase {
 
   def caseWhenExprBenchmark(values: Int): Unit = {
-    val benchmark = new Benchmark("Case When Expr", values, output = output)
+    val benchmark = new Benchmark("Case When Expr", values.toLong, output = output)
 
     withTempPath { dir =>
       withTempTable("parquetV1Table") {
@@ -65,7 +65,7 @@ object CometConditionalExpressionBenchmark extends CometBenchmarkBase {
   }
 
   def ifExprBenchmark(values: Int): Unit = {
-    val benchmark = new Benchmark("If Expr", values, output = output)
+    val benchmark = new Benchmark("If Expr", values.toLong, output = output)
 
     withTempPath { dir =>
       withTempTable("parquetV1Table") {
diff --git a/spark/src/test/scala/org/apache/spark/sql/benchmark/CometDatetimeExpressionBenchmark.scala b/spark/src/test/scala/org/apache/spark/sql/benchmark/CometDatetimeExpressionBenchmark.scala
@@ -39,7 +39,7 @@ object CometDatetimeExpressionBenchmark extends CometBenchmarkBase {
             s"select cast(timestamp_micros(cast(value/100000 as integer)) as date) as dt FROM $tbl"))
         Seq("YEAR", "YYYY", "YY", "MON", "MONTH", "MM").foreach { level =>
           val isDictionary = if (useDictionary) "(Dictionary)" else ""
-          runWithComet(s"Date Truncate $isDictionary - $level", values) {
+          runWithComet(s"Date Truncate $isDictionary - $level", values.toLong) {
             spark.sql(s"select trunc(dt, '$level') from parquetV1Table").noop()
           }
         }
@@ -68,7 +68,7 @@ object CometDatetimeExpressionBenchmark extends CometBenchmarkBase {
           "WEEK",
           "QUARTER").foreach { level =>
           val isDictionary = if (useDictionary) "(Dictionary)" else ""
-          runWithComet(s"Timestamp Truncate $isDictionary - $level", values) {
+          runWithComet(s"Timestamp Truncate $isDictionary - $level", values.toLong) {
             spark.sql(s"select date_trunc('$level', ts) from parquetV1Table").noop()
           }
         }
diff --git a/spark/src/test/scala/org/apache/spark/sql/benchmark/CometExecBenchmark.scala b/spark/src/test/scala/org/apache/spark/sql/benchmark/CometExecBenchmark.scala
@@ -71,7 +71,10 @@ object CometExecBenchmark extends CometBenchmarkBase {
   def numericFilterExecBenchmark(values: Int, fractionOfZeros: Double): Unit = {
     val percentageOfZeros = fractionOfZeros * 100
     val benchmark =
-      new Benchmark(s"Project + Filter Exec ($percentageOfZeros% zeros)", values, output = output)
+      new Benchmark(
+        s"Project + Filter Exec ($percentageOfZeros% zeros)",
+        values.toLong,
+        output = output)
 
     withTempPath { dir =>
       withTempTable("parquetV1Table") {
@@ -115,7 +118,7 @@ object CometExecBenchmark extends CometBenchmarkBase {
   }
 
   def subqueryExecBenchmark(values: Int): Unit = {
-    val benchmark = new Benchmark("Subquery", values, output = output)
+    val benchmark = new Benchmark("Subquery", values.toLong, output = output)
 
     withTempPath { dir =>
       withTempTable("parquetV1Table") {
@@ -155,7 +158,7 @@ object CometExecBenchmark extends CometBenchmarkBase {
   }
 
   def sortExecBenchmark(values: Int): Unit = {
-    val benchmark = new Benchmark("Sort Exec", values, output = output)
+    val benchmark = new Benchmark("Sort Exec", values.toLong, output = output)
 
     withTempPath { dir =>
       withTempTable("parquetV1Table") {
@@ -185,7 +188,7 @@ object CometExecBenchmark extends CometBenchmarkBase {
   }
 
   def expandExecBenchmark(values: Int): Unit = {
-    val benchmark = new Benchmark("Expand Exec", values, output = output)
+    val benchmark = new Benchmark("Expand Exec", values.toLong, output = output)
 
     withTempPath { dir =>
       withTempTable("parquetV1Table") {
@@ -232,7 +235,7 @@ object CometExecBenchmark extends CometBenchmarkBase {
     val benchmark =
       new Benchmark(
         s"BloomFilterAggregate Exec (cardinality $cardinality)",
-        values,
+        values.toLong,
         output = output)
 
     val funcId_bloom_filter_agg = new FunctionIdentifier("bloom_filter_agg")
diff --git a/spark/src/test/scala/org/apache/spark/sql/benchmark/CometPredicateExpressionBenchmark.scala b/spark/src/test/scala/org/apache/spark/sql/benchmark/CometPredicateExpressionBenchmark.scala
@@ -32,7 +32,7 @@ import org.apache.comet.CometConf
 object CometPredicateExpressionBenchmark extends CometBenchmarkBase {
 
   def inExprBenchmark(values: Int): Unit = {
-    val benchmark = new Benchmark("in Expr", values, output = output)
+    val benchmark = new Benchmark("in Expr", values.toLong, output = output)
 
     withTempPath { dir =>
       withTempTable("parquetV1Table") {
diff --git a/spark/src/test/scala/org/apache/spark/sql/benchmark/CometStringExpressionBenchmark.scala b/spark/src/test/scala/org/apache/spark/sql/benchmark/CometStringExpressionBenchmark.scala
@@ -453,7 +453,7 @@ object CometStringExpressionBenchmark extends CometBenchmarkBase {
   }
 
   def instrExprBenchmark(values: Int): Unit = {
-    val benchmark = new Benchmark("Expr instr", values, output = output)
+    val benchmark = new Benchmark("Expr instr", values.toLong, output = output)
 
     withTempPath { dir =>
       withTempTable("parquetV1Table") {

Original file line number	Diff line number	Diff line change
`@@ -39,7 +39,7 @@ object CometDatetimeExpressionBenchmark extends CometBenchmarkBase {`
`39`	`39`	`s"select cast(timestamp_micros(cast(value/100000 as integer)) as date) as dt FROM $tbl"))`
`40`	`40`	`Seq("YEAR", "YYYY", "YY", "MON", "MONTH", "MM").foreach { level =>`
`41`	`41`	`val isDictionary = if (useDictionary) "(Dictionary)" else ""`
`42`		`- runWithComet(s"Date Truncate $isDictionary - $level", values) {`
	`42`	`+ runWithComet(s"Date Truncate $isDictionary - $level", values.toLong) {`
`43`	`43`	`spark.sql(s"select trunc(dt, '$level') from parquetV1Table").noop()`
`44`	`44`	`}`
`45`	`45`	`}`
`@@ -68,7 +68,7 @@ object CometDatetimeExpressionBenchmark extends CometBenchmarkBase {`
`68`	`68`	`"WEEK",`
`69`	`69`	`"QUARTER").foreach { level =>`
`70`	`70`	`val isDictionary = if (useDictionary) "(Dictionary)" else ""`
`71`		`- runWithComet(s"Timestamp Truncate $isDictionary - $level", values) {`
	`71`	`+ runWithComet(s"Timestamp Truncate $isDictionary - $level", values.toLong) {`
`72`	`72`	`spark.sql(s"select date_trunc('$level', ts) from parquetV1Table").noop()`
`73`	`73`	`}`
`74`	`74`	`}`