Fix Scala 2.13 compilation errors

derrickburns · claude · derrickburns · commit 27f9f7fa6fca · 2025-10-22T22:45:22.000-07:00
- Fix ambiguous getAs method references by adding explicit type parameters - CLARA.scala: Specify Vector type and index for getAs calls - KMedoids.scala: Specify Vector type and index for getAs calls - SoftKMeans.scala: Specify Vector/Double types and column names for getAs calls - Fix tuple pattern matching error in KMedoids.scala by simplifying assignment - Remove unused imports to clean up compiler warnings - Remove unused scala.language.implicitConversions from compat package - Remove unused Vectors import from KMedoids.scala - Remove unused Random and DoubleType imports from CoresetKMeans.scala - Remove unused spark.implicits import from PersistenceRoundTripCoresetKMeans.scala All changes maintain API compatibility and preserve existing functionality. Verified compilation with both Scala 2.13.14 and 2.12.18 against Spark 3.5.1. 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude <noreply@anthropic.com>
diff --git a/src/main/scala-2.13/com/massivedatascience/clusterer/compat/package.scala b/src/main/scala-2.13/com/massivedatascience/clusterer/compat/package.scala
@@ -1,7 +1,5 @@
 package com.massivedatascience.clusterer
 
-import scala.language.implicitConversions
-
 // Scala 2.13: Provide .par extension method via compat package
 package object compat {
   implicit class ParOps[A, CC[X] <: Iterable[X]](private val coll: CC[A]) extends AnyVal {
diff --git a/src/main/scala/com/massivedatascience/clusterer/ml/CLARA.scala b/src/main/scala/com/massivedatascience/clusterer/ml/CLARA.scala
@@ -85,7 +85,7 @@ class CLARA(override val uid: String)
       .select($(featuresCol))
       .rdd
       .map { row =>
-        row.getAs
+        row.getAs[Vector](0)
       }
       .collect()
 
diff --git a/src/main/scala/com/massivedatascience/clusterer/ml/CoresetKMeans.scala b/src/main/scala/com/massivedatascience/clusterer/ml/CoresetKMeans.scala
@@ -7,8 +7,7 @@ import org.apache.spark.ml.param.ParamMap
 import org.apache.spark.ml.util.{ DefaultParamsReadable, DefaultParamsWritable, Identifiable }
 import org.apache.spark.sql.{ DataFrame, Dataset }
 import org.apache.spark.sql.functions._
-import org.apache.spark.sql.types.{ DoubleType, StructType }
-import scala.util.Random
+import org.apache.spark.sql.types.StructType
 
 /** Core-set based K-Means clustering with pluggable Bregman divergences.
   *
diff --git a/src/main/scala/com/massivedatascience/clusterer/ml/KMedoids.scala b/src/main/scala/com/massivedatascience/clusterer/ml/KMedoids.scala
@@ -2,7 +2,7 @@ package com.massivedatascience.clusterer.ml
 
 import org.apache.spark.internal.Logging
 import org.apache.spark.ml.Estimator
-import org.apache.spark.ml.linalg.{ Vector, Vectors }
+import org.apache.spark.ml.linalg.Vector
 import org.apache.spark.ml.param._
 import org.apache.spark.ml.param.shared._
 import org.apache.spark.ml.util._
@@ -102,7 +102,7 @@ class KMedoids(override val uid: String)
       .select($(featuresCol))
       .rdd
       .map { row =>
-        row.getAs
+        row.getAs[Vector](0)
       }
       .collect()
 
@@ -351,8 +351,7 @@ class KMedoids(override val uid: String)
     val (_, _, costHistory) = swapPhaseWithHistory(data, initialMedoidIndices, maxIter, distFn)
     // last state is encoded in the returned medoid indices by swapPhaseWithHistory
     // but we need to recompute those indices; reuse the logic:
-    val distFnLocal         = distFn
-    val (_, _, _)           = (distFnLocal, costHistory) // keep params used, avoid warnings
+    val _                   = (distFn, costHistory) // keep params used, avoid warnings
     // For API compatibility, just re-run a lightweight swap without history:
     val n                   = data.length
     val k                   = initialMedoidIndices.length
@@ -568,7 +567,7 @@ class KMedoidsModel(
     df.select($(featuresCol))
       .rdd
       .map { row =>
-        val features = row.getAs
+        val features = row.getAs[Vector](0)
         val meds     = bcMedoids.value
         meds.map(m => distFn(features, m)).min
       }
diff --git a/src/main/scala/com/massivedatascience/clusterer/ml/SoftKMeans.scala b/src/main/scala/com/massivedatascience/clusterer/ml/SoftKMeans.scala
@@ -232,7 +232,7 @@ class SoftKMeans(override val uid: String)
       .sample(withReplacement = false, fraction, seed)
       .limit(k)
       .collect()
-      .map(_.getAs.toArray)
+      .map(_.getAs[org.apache.spark.ml.linalg.Vector](0).toArray)
   }
 
   /** Compute soft assignment probabilities for all points (Boltzmann distribution). */
@@ -280,10 +280,10 @@ class SoftKMeans(override val uid: String)
       var totalWeight                = 0.0
 
       membershipData.foreach { row =>
-        val features    = row.getAs.toArray
-        val probs       = row.getAs.toArray
+        val features    = row.getAs[org.apache.spark.ml.linalg.Vector](featCol).toArray
+        val probs       = row.getAs[org.apache.spark.ml.linalg.Vector]($(probabilityCol)).toArray
         val clusterProb = probs(clusterId)
-        val w           = weightColOpt.map(_ => row.getAs).getOrElse(1.0)
+        val w           = weightColOpt.map(col => row.getAs[Double](col)).getOrElse(1.0)
         val finalWeight = clusterProb * w
 
         if (weightedSum == null) weightedSum = Array.fill(features.length)(0.0)
diff --git a/src/main/scala/examples/PersistenceRoundTripCoresetKMeans.scala b/src/main/scala/examples/PersistenceRoundTripCoresetKMeans.scala
@@ -22,8 +22,6 @@ object PersistenceRoundTripCoresetKMeans {
     val spark =
       SparkSession.builder().appName("CoresetKMeans Persistence").master("local[*]").getOrCreate()
 
-    import spark.implicits._
-
     mode match {
       case "save" => saveModel(spark, path)
       case "load" => loadModel(spark, path)

Original file line number	Diff line number	Diff line change
`@@ -85,7 +85,7 @@ class CLARA(override val uid: String)`
`85`	`85`	`.select($(featuresCol))`
`86`	`86`	`.rdd`
`87`	`87`	`.map { row =>`
`88`		`- row.getAs`
	`88`	`+ row.getAs[Vector](0)`
`89`	`89`	`}`
`90`	`90`	`.collect()`
`91`	`91`
Original file line number	Diff line number	Diff line change
`@@ -7,8 +7,7 @@ import org.apache.spark.ml.param.ParamMap`
`7`	`7`	`import org.apache.spark.ml.util.{ DefaultParamsReadable, DefaultParamsWritable, Identifiable }`
`8`	`8`	`import org.apache.spark.sql.{ DataFrame, Dataset }`
`9`	`9`	`import org.apache.spark.sql.functions._`
`10`		`-import org.apache.spark.sql.types.{ DoubleType, StructType }`
`11`		`-import scala.util.Random`
	`10`	`+import org.apache.spark.sql.types.StructType`
`12`	`11`
`13`	`12`	`/** Core-set based K-Means clustering with pluggable Bregman divergences.`
`14`	`13`	`*`