[SPARK-18608][ML] Fix double caching

zhengruifeng · jkbradley · commit c5f9b89dda40 · 2017-09-12T11:37:05.000-07:00
## What changes were proposed in this pull request? `df.rdd.getStorageLevel` => `df.storageLevel` using cmd `find . -name '*.scala' | xargs -i bash -c 'egrep -in "\.rdd\.getStorageLevel" {} && echo {}'` to make sure all algs involved in this issue are fixed. Previous discussion in other PRs: apache#19107, apache#17014 ## How was this patch tested? existing tests Author: Zheng RuiFeng <ruifengz@foxmail.com> Closes apache#19197 from zhengruifeng/double_caching.
diff --git a/mllib/src/main/scala/org/apache/spark/ml/classification/LogisticRegression.scala b/mllib/src/main/scala/org/apache/spark/ml/classification/LogisticRegression.scala
@@ -484,7 +484,7 @@ class LogisticRegression @Since("1.2.0") (
   }
 
   override protected[spark] def train(dataset: Dataset[_]): LogisticRegressionModel = {
-    val handlePersistence = dataset.rdd.getStorageLevel == StorageLevel.NONE
+    val handlePersistence = dataset.storageLevel == StorageLevel.NONE
     train(dataset, handlePersistence)
   }
 
diff --git a/mllib/src/main/scala/org/apache/spark/ml/classification/OneVsRest.scala b/mllib/src/main/scala/org/apache/spark/ml/classification/OneVsRest.scala
@@ -165,7 +165,7 @@ final class OneVsRestModel private[ml] (
     val newDataset = dataset.withColumn(accColName, initUDF())
 
     // persist if underlying dataset is not persistent.
-    val handlePersistence = dataset.rdd.getStorageLevel == StorageLevel.NONE
+    val handlePersistence = dataset.storageLevel == StorageLevel.NONE
     if (handlePersistence) {
       newDataset.persist(StorageLevel.MEMORY_AND_DISK)
     }
@@ -358,7 +358,7 @@ final class OneVsRest @Since("1.4.0") (
     }
 
     // persist if underlying dataset is not persistent.
-    val handlePersistence = dataset.rdd.getStorageLevel == StorageLevel.NONE
+    val handlePersistence = dataset.storageLevel == StorageLevel.NONE
     if (handlePersistence) {
       multiclassLabeled.persist(StorageLevel.MEMORY_AND_DISK)
     }
diff --git a/mllib/src/main/scala/org/apache/spark/ml/clustering/KMeans.scala b/mllib/src/main/scala/org/apache/spark/ml/clustering/KMeans.scala
@@ -304,7 +304,7 @@ class KMeans @Since("1.5.0") (
   override def fit(dataset: Dataset[_]): KMeansModel = {
     transformSchema(dataset.schema, logging = true)
 
-    val handlePersistence = dataset.rdd.getStorageLevel == StorageLevel.NONE
+    val handlePersistence = dataset.storageLevel == StorageLevel.NONE
     val instances: RDD[OldVector] = dataset.select(col($(featuresCol))).rdd.map {
       case Row(point: Vector) => OldVectors.fromML(point)
     }
diff --git a/mllib/src/main/scala/org/apache/spark/ml/regression/AFTSurvivalRegression.scala b/mllib/src/main/scala/org/apache/spark/ml/regression/AFTSurvivalRegression.scala
@@ -213,7 +213,7 @@ class AFTSurvivalRegression @Since("1.6.0") (@Since("1.6.0") override val uid: S
   override def fit(dataset: Dataset[_]): AFTSurvivalRegressionModel = {
     transformSchema(dataset.schema, logging = true)
     val instances = extractAFTPoints(dataset)
-    val handlePersistence = dataset.rdd.getStorageLevel == StorageLevel.NONE
+    val handlePersistence = dataset.storageLevel == StorageLevel.NONE
     if (handlePersistence) instances.persist(StorageLevel.MEMORY_AND_DISK)
 
     val featuresSummarizer = {
diff --git a/mllib/src/main/scala/org/apache/spark/ml/regression/IsotonicRegression.scala b/mllib/src/main/scala/org/apache/spark/ml/regression/IsotonicRegression.scala
@@ -165,7 +165,7 @@ class IsotonicRegression @Since("1.5.0") (@Since("1.5.0") override val uid: Stri
     transformSchema(dataset.schema, logging = true)
     // Extract columns from data.  If dataset is persisted, do not persist oldDataset.
     val instances = extractWeightedLabeledPoints(dataset)
-    val handlePersistence = dataset.rdd.getStorageLevel == StorageLevel.NONE
+    val handlePersistence = dataset.storageLevel == StorageLevel.NONE
     if (handlePersistence) instances.persist(StorageLevel.MEMORY_AND_DISK)
 
     val instr = Instrumentation.create(this, dataset)
diff --git a/mllib/src/main/scala/org/apache/spark/ml/regression/LinearRegression.scala b/mllib/src/main/scala/org/apache/spark/ml/regression/LinearRegression.scala
@@ -251,7 +251,7 @@ class LinearRegression @Since("1.3.0") (@Since("1.3.0") override val uid: String
       return lrModel
     }
 
-    val handlePersistence = dataset.rdd.getStorageLevel == StorageLevel.NONE
+    val handlePersistence = dataset.storageLevel == StorageLevel.NONE
     if (handlePersistence) instances.persist(StorageLevel.MEMORY_AND_DISK)
 
     val (featuresSummarizer, ySummarizer) = {

Original file line number	Diff line number	Diff line change
`@@ -484,7 +484,7 @@ class LogisticRegression @Since("1.2.0") (`
`484`	`484`	`}`
`485`	`485`
`486`	`486`	`override protected[spark] def train(dataset: Dataset[_]): LogisticRegressionModel = {`
`487`		`- val handlePersistence = dataset.rdd.getStorageLevel == StorageLevel.NONE`
	`487`	`+ val handlePersistence = dataset.storageLevel == StorageLevel.NONE`
`488`	`488`	`train(dataset, handlePersistence)`
`489`	`489`	`}`
`490`	`490`
Original file line number	Diff line number	Diff line change
`@@ -165,7 +165,7 @@ final class OneVsRestModel private[ml] (`
`165`	`165`	`val newDataset = dataset.withColumn(accColName, initUDF())`
`166`	`166`
`167`	`167`	`// persist if underlying dataset is not persistent.`
`168`		`- val handlePersistence = dataset.rdd.getStorageLevel == StorageLevel.NONE`
	`168`	`+ val handlePersistence = dataset.storageLevel == StorageLevel.NONE`
`169`	`169`	`if (handlePersistence) {`
`170`	`170`	`newDataset.persist(StorageLevel.MEMORY_AND_DISK)`
`171`	`171`	`}`
`@@ -358,7 +358,7 @@ final class OneVsRest @Since("1.4.0") (`
`358`	`358`	`}`
`359`	`359`
`360`	`360`	`// persist if underlying dataset is not persistent.`
`361`		`- val handlePersistence = dataset.rdd.getStorageLevel == StorageLevel.NONE`
	`361`	`+ val handlePersistence = dataset.storageLevel == StorageLevel.NONE`
`362`	`362`	`if (handlePersistence) {`
`363`	`363`	`multiclassLabeled.persist(StorageLevel.MEMORY_AND_DISK)`
`364`	`364`	`}`
Original file line number	Diff line number	Diff line change
`@@ -304,7 +304,7 @@ class KMeans @Since("1.5.0") (`
`304`	`304`	`override def fit(dataset: Dataset[_]): KMeansModel = {`
`305`	`305`	`transformSchema(dataset.schema, logging = true)`
`306`	`306`
`307`		`- val handlePersistence = dataset.rdd.getStorageLevel == StorageLevel.NONE`
	`307`	`+ val handlePersistence = dataset.storageLevel == StorageLevel.NONE`
`308`	`308`	`val instances: RDD[OldVector] = dataset.select(col($(featuresCol))).rdd.map {`
`309`	`309`	`case Row(point: Vector) => OldVectors.fromML(point)`
`310`	`310`	`}`
Original file line number	Diff line number	Diff line change
`@@ -251,7 +251,7 @@ class LinearRegression @Since("1.3.0") (@Since("1.3.0") override val uid: String`
`251`	`251`	`return lrModel`
`252`	`252`	`}`
`253`	`253`
`254`		`- val handlePersistence = dataset.rdd.getStorageLevel == StorageLevel.NONE`
	`254`	`+ val handlePersistence = dataset.storageLevel == StorageLevel.NONE`
`255`	`255`	`if (handlePersistence) instances.persist(StorageLevel.MEMORY_AND_DISK)`
`256`	`256`
`257`	`257`	`val (featuresSummarizer, ySummarizer) = {`