derrickburns
diff --git a/‎CHANGELOG.md‎
Lines changed: 8 additions & 0 deletions b/‎CHANGELOG.md‎
Lines changed: 8 additions & 0 deletions
diff --git a/‎ROADMAP.md‎
Lines changed: 2 additions & 0 deletions b/‎ROADMAP.md‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎src/main/scala/com/massivedatascience/clusterer/ml/AgglomerativeBregman.scala‎
Lines changed: 3 additions & 3 deletions b/‎src/main/scala/com/massivedatascience/clusterer/ml/AgglomerativeBregman.scala‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎src/main/scala/com/massivedatascience/clusterer/ml/BalancedKMeans.scala‎
Lines changed: 15 additions & 66 deletions b/‎src/main/scala/com/massivedatascience/clusterer/ml/BalancedKMeans.scala‎
Lines changed: 15 additions & 66 deletions
diff --git a/‎src/main/scala/com/massivedatascience/clusterer/ml/BisectingKMeans.scala‎
Lines changed: 9 additions & 44 deletions b/‎src/main/scala/com/massivedatascience/clusterer/ml/BisectingKMeans.scala‎
Lines changed: 9 additions & 44 deletions
diff --git a/‎src/main/scala/com/massivedatascience/clusterer/ml/BregmanMixtureModel.scala‎
Lines changed: 2 additions & 2 deletions b/‎src/main/scala/com/massivedatascience/clusterer/ml/BregmanMixtureModel.scala‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎src/main/scala/com/massivedatascience/clusterer/ml/CoClustering.scala‎
Lines changed: 5 additions & 5 deletions b/‎src/main/scala/com/massivedatascience/clusterer/ml/CoClustering.scala‎
Lines changed: 5 additions & 5 deletions
@@ -7,6 +7,14 @@ and this project adheres to [Semantic Versioning](https://semver.org/spec/v2.0.0
 
 ## [Unreleased]
 
+### Changed
+- **Kernel type hierarchy refactor:** Introduced `ClusteringKernel` as the root trait for all clustering kernels. `BregmanKernel` now extends `ClusteringKernel` and adds `grad`/`invGrad` declarations. `L1Kernel` reclassified to extend `ClusteringKernel` directly (not `BregmanKernel`) since L1 has no valid gradient/inverse gradient. All consumer signatures widened from `BregmanKernel` to `ClusteringKernel`.
+- **GradMeanUDAFUpdate runtime guard:** Now throws `IllegalArgumentException` with actionable message when passed a non-Bregman kernel (e.g., L1Kernel), preventing silent wrong-answer bugs.
+- **Shared orchestration:** Created `ClusteringOps` object centralizing `createKernel`, `createAssignmentStrategy`, `createUpdateStrategy`, `createEmptyClusterHandler`, and `validateDomain` factory methods. All estimators (GeneralizedKMeans, BisectingKMeans, BalancedKMeans, DPMeans, MiniBatchKMeans, SoftKMeans, StreamingKMeans, CoresetKMeans, ConstrainedKMeans, RobustKMeans) now delegate to `ClusteringOps`.
+- **Shared initialization:** Created `CenterInitializer` utility extracting k-means++ and random initialization from GeneralizedKMeans. GeneralizedKMeans and BalancedKMeans now share the same initialization code.
+- **Sparse kernel hierarchy:** Added `SparseClusteringKernel` trait; `SparseBregmanKernel` extends both `BregmanKernel` and `SparseClusteringKernel`. `SparseL1Kernel` correctly extends `L1Kernel with SparseClusteringKernel`.
+- Backward compatibility maintained via type aliases in package objects.
+
 ### Added
 - Comprehensive CI validation DAG with cross-version testing
 - SECURITY.md with vulnerability reporting guidelines
 
@@ -143,6 +143,8 @@ These frameworks unblock multiple roadmap items; prefer delivering them before d
 | 2024 | Keep L1 listed alongside Bregman divergences | Practical utility outweighs theoretical purity |
 | 2025-12-15 | Prioritize robust/sparse/multi-view work next | Highest user demand and unlocks downstream variants |
 | 2025-12-15 | Maintain kernels in a single module (`BregmanKernel.scala`) | Consistency and discoverability |
+| 2026-02-11 | Introduced `ClusteringKernel` as root trait; reclassified L1Kernel | L1 is not a true Bregman divergence; type system now prevents misuse with GradMeanUDAFUpdate |
+| 2026-02-11 | Created `ClusteringOps` and `CenterInitializer` shared utilities | Centralized factory methods and k-means++ initialization; eliminates copy-paste across estimators |
 | 2025-12-15 | Use phased delivery for accelerations and new iterators | Keep CI stable while iterating |
 | 2025-12-16 | Created `KernelFactory` for unified kernel creation | Single API for dense/sparse kernels, reduces duplication |
 | 2025-12-16 | Moved assignment strategies to `impl/` subpackage | Better organization, backward-compatible via type aliases |
 
@@ -17,7 +17,7 @@
 
 package com.massivedatascience.clusterer.ml
 
-import com.massivedatascience.clusterer.ml.df.BregmanKernel
+import com.massivedatascience.clusterer.ml.df.{ BregmanKernel, ClusteringKernel }
 import org.apache.spark.internal.Logging
 import org.apache.spark.ml.{ Estimator, Model }
 import org.apache.spark.ml.linalg.{ Vector, Vectors }
@@ -434,7 +434,7 @@ class AgglomerativeBregman(override val uid: String)
   }
 
   private def createKernel(): BregmanKernel = {
-    BregmanKernel.create($(divergence), $(smoothing))
+    BregmanKernel.create($(divergence), $(smoothing)).asInstanceOf[BregmanKernel]
   }
 
   override def copy(extra: ParamMap): AgglomerativeBregman = defaultCopy(extra)
@@ -481,7 +481,7 @@ class AgglomerativeBregmanModel(
   private[ml] var modelDivergence: String = "squaredEuclidean"
   private[ml] var modelSmoothing: Double  = 1e-10
   private[ml] var modelLinkage: String    = "average"
-  private[ml] var kernel: BregmanKernel   = _
+  private[ml] var kernel: ClusteringKernel = _
 
   /** Cluster centers as vectors for downstream consumers/tests. */
   def clusterCentersAsVectors: Array[Vector] = clusterCenters
 
@@ -18,7 +18,7 @@
 package com.massivedatascience.clusterer.ml
 
 import com.massivedatascience.clusterer.ml.df._
-import com.massivedatascience.clusterer.ml.df.kernels._
+import com.massivedatascience.clusterer.ml.df.kernels.ClusteringKernel
 import org.apache.spark.internal.Logging
 import org.apache.spark.ml.Estimator
 import org.apache.spark.ml.linalg.{ Vector, Vectors }
@@ -191,10 +191,21 @@ class BalancedKMeans(override val uid: String)
     )
 
     // Create kernel
-    val kernel = createKernel($(divergence), $(smoothing))
+    val kernel = ClusteringOps.createKernel($(divergence), $(smoothing))
 
     // Initialize centers
-    val initialCenters = initializeCenters(df, $(featuresCol), kernel)
+    val initialCenters = CenterInitializer
+      .initialize(
+        df,
+        $(featuresCol),
+        weightCol = None,
+        $(k),
+        $(initMode),
+        $(initSteps),
+        $(seed),
+        kernel
+      )
+      .map(arr => Vectors.dense(arr))
 
     logInfo(s"Initialized ${initialCenters.length} centers using ${$(initMode)}")
 
@@ -239,7 +250,7 @@ class BalancedKMeans(override val uid: String)
   private def runBalancedLloyds(
       df: DataFrame,
       initialCenters: Array[Vector],
-      kernel: BregmanKernel,
+      kernel: ClusteringKernel,
       minSize: Int,
       maxSize: Int
   ): LloydResult = {
@@ -502,68 +513,6 @@ class BalancedKMeans(override val uid: String)
     withDistances.withColumn("_assignment", assignUdf(col("_row_id")))
   }
 
-  private def createKernel(divergenceName: String, smoothing: Double): BregmanKernel = {
-    divergenceName.toLowerCase match {
-      case "squaredeuclidean" | "se" | "euclidean" => new SquaredEuclideanKernel()
-      case "kl" | "kullbackleibler"                => new KLDivergenceKernel(smoothing)
-      case "itakurasaito" | "is"                   => new ItakuraSaitoKernel(smoothing)
-      case "l1" | "manhattan"                      => new L1Kernel()
-      case "spherical" | "cosine"                  => new SphericalKernel()
-      case "generalizedi" | "gi"                   => new GeneralizedIDivergenceKernel(smoothing)
-      case "logistic"                              => new LogisticLossKernel()
-      case other                                   => throw new IllegalArgumentException(s"Unknown divergence: $other")
-    }
-  }
-
-  private def initializeCenters(
-      df: DataFrame,
-      featuresCol: String,
-      kernel: BregmanKernel
-  ): Array[Vector] = {
-    val rng = new Random($(seed))
-
-    $(initMode).toLowerCase match {
-      case "random" =>
-        val fraction = math.min(1.0, $(k).toDouble / df.count() * 10)
-        df.select(featuresCol)
-          .sample(withReplacement = false, fraction, $(seed))
-          .limit($(k))
-          .collect()
-          .map(_.getAs[Vector](0))
-
-      case "k-means||" | "kmeansparallel" =>
-        // Simplified k-means|| initialization
-        val allPoints = df.select(featuresCol).collect().map(_.getAs[Vector](0))
-        if (allPoints.length <= $(k)) {
-          allPoints
-        } else {
-          val centers = scala.collection.mutable.ArrayBuffer.empty[Vector]
-          centers += allPoints(rng.nextInt(allPoints.length))
-
-          while (centers.length < $(k)) {
-            val currentCenters           = centers.toArray
-            val distances: Array[Double] = allPoints.map { point =>
-              val dists: Array[Double] = currentCenters.map(c => kernel.divergence(point, c))
-              dists.min
-            }
-            val totalDist: Double        = distances.sum
-            if (totalDist > 0) {
-              val probabilities: Array[Double] = distances.map(d => d / totalDist)
-              val cumProbs: Array[Double]      = probabilities.scanLeft(0.0)((a, b) => a + b).tail
-              val r                            = rng.nextDouble()
-              val idx                          = cumProbs.indexWhere(_ >= r)
-              centers += allPoints(if (idx >= 0) idx else allPoints.length - 1)
-            } else {
-              centers += allPoints(rng.nextInt(allPoints.length))
-            }
-          }
-          centers.toArray
-        }
-
-      case other =>
-        throw new IllegalArgumentException(s"Unknown initialization mode: $other")
-    }
-  }
 
   override def transformSchema(schema: StructType): StructType = {
     require(
 
@@ -144,15 +144,15 @@ class BisectingKMeans(override val uid: String)
     )
 
     // Validate input data domain requirements for the selected divergence
-    com.massivedatascience.util.DivergenceDomainValidator.validateDataFrame(
+    ClusteringOps.validateDomain(
       df,
       $(featuresCol),
       $(divergence),
-      maxSamples = Some(1000)
+      maxSamples = 1000
     )
 
     // Create kernel
-    val kernel = createKernel($(divergence), $(smoothing))
+    val kernel = ClusteringOps.createKernel($(divergence), $(smoothing))
 
     // Bisecting algorithm with timing
     val startTime                 = System.currentTimeMillis()
@@ -203,7 +203,7 @@ class BisectingKMeans(override val uid: String)
       df: DataFrame,
       featuresCol: String,
       weightCol: Option[String],
-      kernel: BregmanKernel
+      kernel: ClusteringKernel
   ): (Array[Array[Double]], Int) = {
 
     val targetK = $(k)
@@ -324,7 +324,7 @@ class BisectingKMeans(override val uid: String)
       clusterData: DataFrame,
       featuresCol: String,
       weightCol: Option[String],
-      kernel: BregmanKernel
+      kernel: ClusteringKernel
   ): (Array[Double], Array[Double]) = {
 
     // Drop the "cluster" column if it exists to avoid conflicts with assignment strategy
@@ -348,8 +348,8 @@ class BisectingKMeans(override val uid: String)
     )
 
     // Create strategies for k=2 clustering
-    val assigner = createAssignmentStrategy("auto")
-    val updater  = createUpdateStrategy($(divergence))
+    val assigner = ClusteringOps.createAssignmentStrategy("auto")
+    val updater  = ClusteringOps.createUpdateStrategy($(divergence))
 
     // Run Lloyd's for a few iterations
     var iteration = 0
@@ -389,10 +389,10 @@ class BisectingKMeans(override val uid: String)
       data: DataFrame,
       featuresCol: String,
       weightCol: Option[String],
-      kernel: BregmanKernel
+      kernel: ClusteringKernel
   ): Array[Double] = {
 
-    val updater = createUpdateStrategy($(divergence))
+    val updater = ClusteringOps.createUpdateStrategy($(divergence))
     val centers = updater.update(
       data.withColumn("cluster", lit(0)),
       featuresCol,
@@ -404,41 +404,6 @@ class BisectingKMeans(override val uid: String)
     if (centers.nonEmpty) centers(0) else Array.empty[Double]
   }
 
-  /** Create Bregman kernel based on divergence name.
-    */
-  private def createKernel(divName: String, smooth: Double): BregmanKernel = {
-    divName match {
-      case "squaredEuclidean"     => new SquaredEuclideanKernel()
-      case "kl"                   => new KLDivergenceKernel(smooth)
-      case "itakuraSaito"         => new ItakuraSaitoKernel(smooth)
-      case "generalizedI"         => new GeneralizedIDivergenceKernel(smooth)
-      case "logistic"             => new LogisticLossKernel(smooth)
-      case "l1" | "manhattan"     => new L1Kernel()
-      case "spherical" | "cosine" => new SphericalKernel()
-      case _                      => throw new IllegalArgumentException(s"Unknown divergence: $divName")
-    }
-  }
-
-  /** Create assignment strategy.
-    */
-  private def createAssignmentStrategy(strategy: String): AssignmentStrategy = {
-    strategy match {
-      case "broadcast" => new BroadcastUDFAssignment()
-      case "crossJoin" => new SECrossJoinAssignment()
-      case "auto"      => new AutoAssignment()
-      case _           => throw new IllegalArgumentException(s"Unknown assignment strategy: $strategy")
-    }
-  }
-
-  /** Create update strategy based on divergence.
-    */
-  private def createUpdateStrategy(divName: String): UpdateStrategy = {
-    divName match {
-      case "l1" | "manhattan" => new MedianUpdateStrategy()
-      case _                  => new GradMeanUDAFUpdate()
-    }
-  }
-
   override def transformSchema(schema: StructType): StructType = {
     validateAndTransformSchema(schema)
   }
 
@@ -233,7 +233,7 @@ class BregmanMixture(override val uid: String)
     }
   }
 
-  private def createKernel(): BregmanKernel = {
+  private def createKernel(): ClusteringKernel = {
     BregmanKernel.create($(divergence), $(smoothing))
   }
 
@@ -270,7 +270,7 @@ class BregmanMixtureModelInstance(
     override val uid: String,
     val means: Array[Vector],
     val weights: Array[Double],
-    val kernel: BregmanKernel
+    val kernel: ClusteringKernel
 ) extends Model[BregmanMixtureModelInstance]
     with BregmanMixtureParams
     with MLWritable
 
@@ -296,7 +296,7 @@ class CoClustering(override val uid: String)
       rowClusters: Map[Long, Int],
       colClusters: Map[Long, Int],
       blockCenters: Array[Array[Double]],
-      kernel: BregmanKernel,
+      kernel: ClusteringKernel,
       iterations: Int,
       objective: Double
   ): CoClusteringModel = {
@@ -343,7 +343,7 @@ class CoClustering(override val uid: String)
       rowClusters: Map[Long, Int],
       colClusters: Map[Long, Int],
       blockCenters: Array[Array[Double]],
-      kernel: BregmanKernel
+      kernel: ClusteringKernel
   ): Double = {
 
     val bcBlockCenters = df.sparkSession.sparkContext.broadcast(blockCenters)
@@ -373,7 +373,7 @@ class CoClustering(override val uid: String)
       df: DataFrame,
       colClusters: Map[Long, Int],
       blockCenters: Array[Array[Double]],
-      kernel: BregmanKernel
+      kernel: ClusteringKernel
   ): Map[Long, Int] = {
 
     val spark               = df.sparkSession
@@ -413,7 +413,7 @@ class CoClustering(override val uid: String)
       df: DataFrame,
       rowClusters: Map[Long, Int],
       blockCenters: Array[Array[Double]],
-      kernel: BregmanKernel
+      kernel: ClusteringKernel
   ): Map[Long, Int] = {
 
     val spark               = df.sparkSession
@@ -471,7 +471,7 @@ class CoClusteringModel(
     val rowClusters: Map[Long, Int],
     val colClusters: Map[Long, Int],
     val blockCenters: Array[Array[Double]],
-    private val kernel: BregmanKernel
+    private val kernel: ClusteringKernel
 ) extends Model[CoClusteringModel]
     with CoClusteringParams
     with MLWritable
Original file line number	Diff line number	Diff line change
`@@ -233,7 +233,7 @@ class BregmanMixture(override val uid: String)`
`233`	`233`	`}`
`234`	`234`	`}`
`235`	`235`
`236`		`- private def createKernel(): BregmanKernel = {`
	`236`	`+ private def createKernel(): ClusteringKernel = {`
`237`	`237`	`BregmanKernel.create($(divergence), $(smoothing))`
`238`	`238`	`}`
`239`	`239`
`@@ -270,7 +270,7 @@ class BregmanMixtureModelInstance(`
`270`	`270`	`override val uid: String,`
`271`	`271`	`val means: Array[Vector],`
`272`	`272`	`val weights: Array[Double],`
`273`		`- val kernel: BregmanKernel`
	`273`	`+ val kernel: ClusteringKernel`
`274`	`274`	`) extends Model[BregmanMixtureModelInstance]`
`275`	`275`	`with BregmanMixtureParams`
`276`	`276`	`with MLWritable`