refactor: Add KernelFactory and consolidate assignment strategies

derrickburns · claude · derrickburns · commit a1ae3cf93395 · 2025-12-16T16:40:38.000-08:00
- Add KernelFactory for unified dense/sparse kernel creation - Single API for all 8 Bregman divergences - Auto-selection based on data sparsity - Clear documentation of supported divergences - Move AcceleratedSEAssignment to strategies/impl/ subpackage - Better organization alongside other assignment strategies - Maintain backward compatibility via type aliases - Update models to use KernelFactory - GeneralizedKMeansModel uses KernelFactory for kernel creation - SoftKMeansModel persistence uses KernelFactory - Update package objects with re-exports for backward compatibility 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
diff --git a/src/main/scala/com/massivedatascience/clusterer/ml/GeneralizedKMeansModel.scala b/src/main/scala/com/massivedatascience/clusterer/ml/GeneralizedKMeansModel.scala
@@ -219,16 +219,19 @@ class GeneralizedKMeansModel(
   /** Create Bregman kernel based on kernel name.
     */
   private def createKernel(kernelName: String, smoothing: Double): BregmanKernel = {
-    kernelName match {
-      case "SquaredEuclidean"                       => new SquaredEuclideanKernel()
-      case name if name.startsWith("KL(")           => new KLDivergenceKernel(smoothing)
-      case name if name.startsWith("ItakuraSaito(") => new ItakuraSaitoKernel(smoothing)
-      case name if name.startsWith("GeneralizedI(") => new GeneralizedIDivergenceKernel(smoothing)
-      case name if name.startsWith("LogisticLoss(") => new LogisticLossKernel(smoothing)
-      case "L1"                                     => new L1Kernel()
-      case "Spherical"                              => new SphericalKernel()
-      case _                                        => throw new IllegalArgumentException(s"Unknown kernel: $kernelName")
+    import com.massivedatascience.clusterer.ml.df.kernels.KernelFactory
+    // Map stored kernel names to divergence names for KernelFactory
+    val divergence = kernelName match {
+      case "SquaredEuclidean"                       => "squaredEuclidean"
+      case name if name.startsWith("KL(")           => "kl"
+      case name if name.startsWith("ItakuraSaito(") => "itakuraSaito"
+      case name if name.startsWith("GeneralizedI(") => "generalizedI"
+      case name if name.startsWith("LogisticLoss(") => "logistic"
+      case "L1"                                     => "l1"
+      case "Spherical"                              => "spherical"
+      case other                                    => other.toLowerCase
     }
+    KernelFactory.create(divergence, smoothing = smoothing)
   }
 
   override def write: MLWriter = new GeneralizedKMeansModel.GeneralizedKMeansModelWriter(this)
diff --git a/src/main/scala/com/massivedatascience/clusterer/ml/SoftKMeansModel.scala b/src/main/scala/com/massivedatascience/clusterer/ml/SoftKMeansModel.scala
@@ -267,17 +267,8 @@ object SoftKMeansModel extends MLReadable[SoftKMeansModel] {
       val minMembership = (paramsJ \ "minMembership").extract[Double]
       val smoothing     = (paramsJ \ "smoothing").extract[Double]
 
-      import com.massivedatascience.clusterer.ml.df._
-      val kernel: BregmanKernel = divergence match {
-        case "squaredEuclidean"     => new SquaredEuclideanKernel()
-        case "kl"                   => new KLDivergenceKernel(smoothing)
-        case "itakuraSaito"         => new ItakuraSaitoKernel(smoothing)
-        case "generalizedI"         => new GeneralizedIDivergenceKernel(smoothing)
-        case "logistic"             => new LogisticLossKernel(smoothing)
-        case "l1" | "manhattan"     => new L1Kernel()
-        case "spherical" | "cosine" => new SphericalKernel()
-        case _                      => new SquaredEuclideanKernel()
-      }
+      import com.massivedatascience.clusterer.ml.df.kernels.KernelFactory
+      val kernel = KernelFactory.create(divergence, smoothing = smoothing)
 
       val model = new SoftKMeansModel(uid, centers, beta, minMembership, kernel)
       model.modelDivergence = divergence
diff --git a/src/main/scala/com/massivedatascience/clusterer/ml/df/kernels/KernelFactory.scala b/src/main/scala/com/massivedatascience/clusterer/ml/df/kernels/KernelFactory.scala
@@ -0,0 +1,199 @@
+/*
+ * Licensed to the Massive Data Science and Derrick R. Burns under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * Massive Data Science and Derrick R. Burns licenses this file to You under the
+ * Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package com.massivedatascience.clusterer.ml.df.kernels
+
+/** Unified factory for creating Bregman kernels.
+  *
+  * This factory provides a single entry point for kernel creation with support for:
+  *   - Dense kernels (standard implementation)
+  *   - Sparse-optimized kernels (for high-dimensional sparse data)
+  *   - Auto-selection based on data characteristics
+  *
+  * ==Supported Divergences==
+  *
+  * | Name             | Aliases         | Sparse Support | Domain  | Use Case                  |
+  * |:-----------------|:----------------|:---------------|:--------|:--------------------------|
+  * | squaredEuclidean | se, euclidean   | Yes            | R^n     | General clustering        |
+  * | kl               | kullbackLeibler | Yes            | R+^n    | Probability distributions |
+  * | itakuraSaito     | is              | No             | R+^n    | Audio/spectrum analysis   |
+  * | generalizedI     | genI            | No             | R+^n    | Count data                |
+  * | logistic         | -               | No             | [0,1]^n | Bounded probabilities     |
+  * | l1               | manhattan       | Yes            | R^n     | Robust clustering         |
+  * | spherical        | cosine          | Yes            | R^n     | Text/documents            |
+  *
+  * ==Example Usage==
+  *
+  * {{{
+  * // Standard dense kernel
+  * val seKernel = KernelFactory.create("squaredEuclidean")
+  *
+  * // Sparse-optimized kernel for text data
+  * val klKernel = KernelFactory.create("kl", sparse = true)
+  *
+  * // Auto-select based on sparsity
+  * val autoKernel = KernelFactory.forSparsity("squaredEuclidean", sparsityRatio = 0.1)
+  * }}}
+  *
+  * @see
+  *   [[BregmanKernel]] for the kernel interface
+  * @see
+  *   [[SparseBregmanKernel]] for sparse-optimized implementations
+  */
+object KernelFactory {
+
+  /** Canonical divergence names. */
+  object Divergence {
+    val SquaredEuclidean: String = "squaredEuclidean"
+    val KL: String               = "kl"
+    val ItakuraSaito: String     = "itakuraSaito"
+    val GeneralizedI: String     = "generalizedI"
+    val Logistic: String         = "logistic"
+    val L1: String               = "l1"
+    val Spherical: String        = "spherical"
+
+    /** All supported divergence names (canonical form). */
+    val all: Seq[String] = Seq(
+      SquaredEuclidean,
+      KL,
+      ItakuraSaito,
+      GeneralizedI,
+      Logistic,
+      L1,
+      Spherical
+    )
+  }
+
+  /** Divergences with sparse-optimized implementations. */
+  val sparseSupported: Set[String] = Set(
+    "squaredEuclidean",
+    "se",
+    "euclidean",
+    "kl",
+    "kullbackleibler",
+    "l1",
+    "manhattan",
+    "spherical",
+    "cosine"
+  )
+
+  /** Create a Bregman kernel for the specified divergence.
+    *
+    * @param divergence
+    *   divergence name (case-insensitive)
+    * @param sparse
+    *   if true, use sparse-optimized implementation when available
+    * @param smoothing
+    *   smoothing parameter for divergences with domain constraints (KL, IS, etc.)
+    * @return
+    *   configured BregmanKernel instance
+    * @throws IllegalArgumentException
+    *   if divergence name is unknown
+    */
+  def create(
+      divergence: String,
+      sparse: Boolean = false,
+      smoothing: Double = 1e-10
+  ): BregmanKernel = {
+    val normalized = divergence.toLowerCase.trim
+    if (sparse && supportsSparse(normalized)) {
+      createSparse(normalized, smoothing)
+    } else {
+      createDense(normalized, smoothing)
+    }
+  }
+
+  /** Create a kernel with auto-selection based on data sparsity.
+    *
+    * Selects sparse implementation when sparsity ratio is below threshold and sparse implementation
+    * is available.
+    *
+    * @param divergence
+    *   divergence name
+    * @param sparsityRatio
+    *   fraction of non-zero elements (0.0 = all zeros, 1.0 = dense)
+    * @param smoothing
+    *   smoothing parameter
+    * @param sparseThreshold
+    *   use sparse when sparsityRatio < this value (default 0.3)
+    * @return
+    *   kernel optimized for the data sparsity
+    */
+  def forSparsity(
+      divergence: String,
+      sparsityRatio: Double,
+      smoothing: Double = 1e-10,
+      sparseThreshold: Double = 0.3
+  ): BregmanKernel = {
+    val useSparse = sparsityRatio < sparseThreshold && supportsSparse(divergence)
+    create(divergence, sparse = useSparse, smoothing = smoothing)
+  }
+
+  /** Check if sparse optimization is available for the divergence.
+    *
+    * @param divergence
+    *   divergence name (case-insensitive)
+    * @return
+    *   true if sparse-optimized implementation exists
+    */
+  def supportsSparse(divergence: String): Boolean =
+    sparseSupported.contains(divergence.toLowerCase.trim)
+
+  /** Normalize divergence name to canonical form.
+    *
+    * @param divergence
+    *   any valid divergence name or alias
+    * @return
+    *   canonical divergence name
+    */
+  def normalize(divergence: String): String = divergence.toLowerCase.trim match {
+    case "se" | "euclidean" => Divergence.SquaredEuclidean
+    case "kullbackleibler"  => Divergence.KL
+    case "is"               => Divergence.ItakuraSaito
+    case "geni"             => Divergence.GeneralizedI
+    case "manhattan"        => Divergence.L1
+    case "cosine"           => Divergence.Spherical
+    case other              => other
+  }
+
+  /** Create a dense (standard) kernel implementation. */
+  private def createDense(divergence: String, smoothing: Double): BregmanKernel =
+    divergence match {
+      case "squaredeuclidean" | "se" | "euclidean" => new SquaredEuclideanKernel()
+      case "kl" | "kullbackleibler"                => new KLDivergenceKernel(smoothing)
+      case "itakurasaito" | "is"                   => new ItakuraSaitoKernel(smoothing)
+      case "generalizedi" | "geni"                 => new GeneralizedIDivergenceKernel(smoothing)
+      case "logistic"                              => new LogisticLossKernel(smoothing)
+      case "l1" | "manhattan"                      => new L1Kernel()
+      case "spherical" | "cosine"                  => new SphericalKernel()
+      case other                                   =>
+        throw new IllegalArgumentException(
+          s"Unknown divergence: '$other'. Supported: ${Divergence.all.mkString(", ")}"
+        )
+    }
+
+  /** Create a sparse-optimized kernel implementation. */
+  private def createSparse(divergence: String, smoothing: Double): BregmanKernel =
+    divergence match {
+      case "squaredeuclidean" | "se" | "euclidean" => new SparseSEKernel()
+      case "kl" | "kullbackleibler"                => new SparseKLKernel(smoothing)
+      case "l1" | "manhattan"                      => new SparseL1Kernel()
+      case "spherical" | "cosine"                  => new SparseSphericalKernel()
+      // Fall back to dense for others (no sparse optimization available)
+      case other                                   => createDense(other, smoothing)
+    }
+}
diff --git a/src/main/scala/com/massivedatascience/clusterer/ml/df/kernels/package.scala b/src/main/scala/com/massivedatascience/clusterer/ml/df/kernels/package.scala
@@ -4,15 +4,38 @@ package com.massivedatascience.clusterer.ml.df
   *
   * This package contains kernel implementations for different Bregman divergences:
   *
+  * ==Factory==
+  *
+  *   - [[kernels.KernelFactory]]: Unified factory for dense/sparse kernel selection
+  *
+  * ==Dense Kernels==
+  *
   *   - [[kernels.SquaredEuclideanKernel]]: Standard k-means (L2 squared)
   *   - [[kernels.KLDivergenceKernel]]: Kullback-Leibler divergence
   *   - [[kernels.ItakuraSaitoKernel]]: Itakura-Saito divergence
   *   - [[kernels.GeneralizedIDivergenceKernel]]: Generalized I-divergence
   *   - [[kernels.LogisticLossKernel]]: Logistic loss
   *   - [[kernels.L1Kernel]]: Manhattan distance (K-Medians)
   *   - [[kernels.SphericalKernel]]: Cosine similarity (Spherical K-Means)
+  *
+  * ==Sparse-Optimized Kernels==
+  *
+  *   - [[kernels.SparseSEKernel]]: Sparse Squared Euclidean
+  *   - [[kernels.SparseKLKernel]]: Sparse KL Divergence
+  *   - [[kernels.SparseL1Kernel]]: Sparse L1/Manhattan
+  *   - [[kernels.SparseSphericalKernel]]: Sparse Cosine/Spherical
+  *
+  * ==Usage==
+  *
+  * {{{
+  * // Create kernel via factory
+  * val kernel = KernelFactory.create("squaredEuclidean", sparse = false)
+  *
+  * // Auto-select based on data sparsity
+  * val sparseKernel = KernelFactory.forSparsity("kl", sparsityRatio = 0.1)
+  * }}}
   */
 package object kernels {
   // All types are defined in their respective files
-  // This package object serves as documentation
+  // KernelFactory provides the main API for kernel creation
 }
diff --git a/src/main/scala/com/massivedatascience/clusterer/ml/df/package.scala b/src/main/scala/com/massivedatascience/clusterer/ml/df/package.scala
@@ -53,6 +53,8 @@ package object df {
   type ChunkedBroadcastAssignment  = strategies.ChunkedBroadcastAssignment
   type AdaptiveBroadcastAssignment = strategies.AdaptiveBroadcastAssignment
   type AutoAssignment              = strategies.AutoAssignment
+  type AcceleratedSEAssignment     = strategies.impl.AcceleratedSEAssignment
+  val AcceleratedAssignment = strategies.impl.AcceleratedAssignment
 
   // Update strategies
   type UpdateStrategy       = strategies.UpdateStrategy
@@ -81,4 +83,14 @@ package object df {
   type LogisticLossKernel           = kernels.LogisticLossKernel
   type L1Kernel                     = kernels.L1Kernel
   type SphericalKernel              = kernels.SphericalKernel
+
+  // Sparse kernel types
+  type SparseBregmanKernel   = kernels.SparseBregmanKernel
+  type SparseSEKernel        = kernels.SparseSEKernel
+  type SparseKLKernel        = kernels.SparseKLKernel
+  type SparseL1Kernel        = kernels.SparseL1Kernel
+  type SparseSphericalKernel = kernels.SparseSphericalKernel
+
+  // Kernel factory
+  val KernelFactory = kernels.KernelFactory
 }
diff --git a/src/main/scala/com/massivedatascience/clusterer/ml/df/strategies/impl/AcceleratedSEAssignment.scala b/src/main/scala/com/massivedatascience/clusterer/ml/df/strategies/impl/AcceleratedSEAssignment.scala
@@ -15,8 +15,10 @@
  * limitations under the License.
  */
 
-package com.massivedatascience.clusterer.ml.df
+package com.massivedatascience.clusterer.ml.df.strategies.impl
 
+import com.massivedatascience.clusterer.ml.df.BregmanKernel
+import com.massivedatascience.clusterer.ml.df.strategies.AssignmentStrategy
 import org.apache.spark.internal.Logging
 import org.apache.spark.ml.linalg.Vector
 import org.apache.spark.sql.DataFrame
@@ -28,7 +30,7 @@ import org.apache.spark.sql.functions._
   *
   * '''Key Insight (Elkan's Lemma 1):''' If d(x, c) ≤ d(c, c')/2, then d(x, c) ≤ d(x, c')
   *
-  * This means: once we find a center c with distance d, we can skip any center c' where d(c, c') ≥
+  * This means: once we find a center c with distance d, we can skip any center c' where d(c, c') >=
   * 2*d (because the triangle inequality guarantees c' is farther).
   *
   * ==Algorithm==
diff --git a/src/main/scala/com/massivedatascience/clusterer/ml/df/strategies/impl/package.scala b/src/main/scala/com/massivedatascience/clusterer/ml/df/strategies/impl/package.scala
@@ -9,6 +9,7 @@ package com.massivedatascience.clusterer.ml.df.strategies
   *   - [[ChunkedBroadcastAssignment]]: Memory-efficient chunked processing
   *   - [[AdaptiveBroadcastAssignment]]: Memory-adaptive strategy
   *   - [[AutoAssignment]]: Automatic strategy selection
+  *   - [[AcceleratedSEAssignment]]: Triangle-inequality accelerated SE assignment
   */
 package object impl {
   // All implementations are defined in their respective files
diff --git a/src/main/scala/com/massivedatascience/clusterer/ml/df/strategies/package.scala b/src/main/scala/com/massivedatascience/clusterer/ml/df/strategies/package.scala
@@ -19,4 +19,6 @@ package object strategies {
   type ChunkedBroadcastAssignment  = impl.ChunkedBroadcastAssignment
   type AdaptiveBroadcastAssignment = impl.AdaptiveBroadcastAssignment
   type AutoAssignment              = impl.AutoAssignment
+  type AcceleratedSEAssignment     = impl.AcceleratedSEAssignment
+  val AcceleratedAssignment = impl.AcceleratedAssignment
 }

Original file line number	Diff line number	Diff line change
`@@ -15,8 +15,10 @@`
`15`	`15`	`* limitations under the License.`
`16`	`16`	`*/`
`17`	`17`
`18`		`-package com.massivedatascience.clusterer.ml.df`
	`18`	`+package com.massivedatascience.clusterer.ml.df.strategies.impl`
`19`	`19`
	`20`	`+import com.massivedatascience.clusterer.ml.df.BregmanKernel`
	`21`	`+import com.massivedatascience.clusterer.ml.df.strategies.AssignmentStrategy`
`20`	`22`	`import org.apache.spark.internal.Logging`
`21`	`23`	`import org.apache.spark.ml.linalg.Vector`
`22`	`24`	`import org.apache.spark.sql.DataFrame`
`@@ -28,7 +30,7 @@ import org.apache.spark.sql.functions._`
`28`	`30`	`*`
`29`	`31`	`* '''Key Insight (Elkan's Lemma 1):''' If d(x, c) ≤ d(c, c')/2, then d(x, c) ≤ d(x, c')`
`30`	`32`	`*`
`31`		`- * This means: once we find a center c with distance d, we can skip any center c' where d(c, c') ≥`
	`33`	`+ * This means: once we find a center c with distance d, we can skip any center c' where d(c, c') >=`
`32`	`34`	`* 2*d (because the triangle inequality guarantees c' is farther).`
`33`	`35`	`*`
`34`	`36`	`* ==Algorithm==`
Original file line number	Diff line number	Diff line change
`@@ -19,4 +19,6 @@ package object strategies {`
`19`	`19`	`type ChunkedBroadcastAssignment = impl.ChunkedBroadcastAssignment`
`20`	`20`	`type AdaptiveBroadcastAssignment = impl.AdaptiveBroadcastAssignment`
`21`	`21`	`type AutoAssignment = impl.AutoAssignment`
	`22`	`+ type AcceleratedSEAssignment = impl.AcceleratedSEAssignment`
	`23`	`+ val AcceleratedAssignment = impl.AcceleratedAssignment`
`22`	`24`	`}`