NamedObjects: cache with references to named objects must be a singleton

TimMaltGermany · TimMaltGermany · commit 1ea4a357ec0d · 2016-03-05T11:44:22.000+01:00
diff --git a/job-server-extras/src/spark.jobserver/NamedObjectsTestJob.scala b/job-server-extras/src/spark.jobserver/NamedObjectsTestJob.scala
@@ -0,0 +1,54 @@
+package spark.jobserver
+
+import com.typesafe.config.Config
+import org.apache.spark.SparkContext
+import org.apache.spark.rdd.RDD
+import org.apache.spark.storage.StorageLevel
+import org.apache.spark.sql.types._
+import org.apache.spark.sql.{ SQLContext, Row, DataFrame }
+
+/**
+ * A test job that accepts a SQLContext, as opposed to the regular SparkContext.
+ * Just initializes some dummy data into a table.
+ */
+class NamedObjectsTestJob extends SparkJob with NamedObjectSupport {
+  import NamedObjectsTestJobConfig._
+  implicit def rddPersister: NamedObjectPersister[NamedRDD[Row]] = new RDDPersister[Row]
+  implicit def dataFramePersister: NamedObjectPersister[NamedDataFrame] = new DataFramePersister
+
+  def validate(sql: SparkContext, config: Config): SparkJobValidation = SparkJobValid
+
+  private def rows(sc: SparkContext): RDD[Row] = {
+    sc.parallelize(List(Row(1, true), Row(2, false), Row(55, true)))
+  }
+
+  def runJob(sc: SparkContext, config: Config): Array[String] = {
+    if (config.hasPath(CREATE_DF) && config.getBoolean(CREATE_DF)) {
+      val sqlContext = new SQLContext(sc)
+      val struct = StructType(
+        StructField("i", IntegerType, true) ::
+          StructField("b", BooleanType, false) :: Nil)
+      val df = sqlContext.createDataFrame(rows(sc), struct)
+      namedObjects.update("df1", NamedDataFrame(df, true, StorageLevel.MEMORY_AND_DISK))
+    }
+    if (config.hasPath(CREATE_RDD) && config.getBoolean(CREATE_RDD)) {
+      namedObjects.update("rdd1", NamedRDD(rows(sc), true, StorageLevel.MEMORY_ONLY))
+    }
+
+    if (config.hasPath(DELETE)) {
+      val iter = config.getStringList(DELETE).iterator
+      while (iter.hasNext) {
+        namedObjects.forget(iter.next)
+      }
+    }
+
+    namedObjects.getNames().toArray
+  }
+}
+
+object NamedObjectsTestJobConfig {
+  val CREATE_DF = "createDF"
+  val CREATE_RDD = "createRDD"
+  val DELETE = "delete"
+}
+
diff --git a/job-server-extras/test/spark.jobserver/NamedObjectsJobSpec.scala b/job-server-extras/test/spark.jobserver/NamedObjectsJobSpec.scala
@@ -0,0 +1,96 @@
+package spark.jobserver
+
+import akka.actor.{ ActorRef, ActorSystem, Props }
+import akka.testkit.{ ImplicitSender, TestKit }
+import com.typesafe.config.{ Config, ConfigFactory, ConfigValueFactory }
+import akka.testkit.TestProbe
+import spark.jobserver.CommonMessages.{ JobErroredOut, JobResult }
+import spark.jobserver.io.JobDAOActor
+import collection.JavaConversions._
+
+class NamedObjectsJobSpec extends JobSpecBase(JobManagerSpec.getNewSystem) {
+
+  private val emptyConfig = ConfigFactory.parseString("spark.jobserver.named-object-creation-timeout = 60 s")
+
+  before {
+    dao = new InMemoryDAO
+    daoActor = system.actorOf(JobDAOActor.props(dao))
+    manager = system.actorOf(JobManagerActor.props(JobManagerSpec.getContextConfig(adhoc = false)))
+    supervisor = TestProbe().ref
+  }
+
+  val jobName = "spark.jobserver.NamedObjectsTestJob"
+
+  describe("NamedObjects (RDD)") {
+    it("should survive from one job to another one") {
+
+      manager ! JobManagerActor.Initialize(daoActor, None)
+      expectMsgClass(classOf[JobManagerActor.Initialized])
+
+      uploadTestJar()
+      manager ! JobManagerActor.StartJob("demo", jobName, emptyConfig.withValue(NamedObjectsTestJobConfig.CREATE_DF, ConfigValueFactory.fromAnyRef(false))
+        .withValue(NamedObjectsTestJobConfig.CREATE_RDD, ConfigValueFactory.fromAnyRef(true)),
+        errorEvents ++ syncEvents)
+      val JobResult(_, names: Array[String]) = expectMsgClass(classOf[JobResult])
+      names should equal(Array("rdd1"))
+
+      manager ! JobManagerActor.StartJob("demo", jobName, emptyConfig.withValue(NamedObjectsTestJobConfig.CREATE_DF, ConfigValueFactory.fromAnyRef(false))
+        .withValue(NamedObjectsTestJobConfig.CREATE_RDD, ConfigValueFactory.fromAnyRef(false)),
+        errorEvents ++ syncEvents)
+      val JobResult(_, names2: Array[String]) = expectMsgClass(classOf[JobResult])
+
+      names2 should equal(names)
+
+      //clean-up
+      manager ! JobManagerActor.StartJob("demo", jobName, emptyConfig.withValue(NamedObjectsTestJobConfig.DELETE, ConfigValueFactory.fromIterable(names.toList))
+        .withValue(NamedObjectsTestJobConfig.CREATE_RDD, ConfigValueFactory.fromAnyRef(false)),
+        errorEvents ++ syncEvents)
+      val JobResult(_, names3: Array[String]) = expectMsgClass(classOf[JobResult])
+
+      names3.size should equal(0)
+    }
+  }
+
+  describe("NamedObjects (DataFrame)") {
+    it("should survive from one job to another one") {
+      manager ! JobManagerActor.Initialize(daoActor, None)
+      expectMsgClass(classOf[JobManagerActor.Initialized])
+
+      uploadTestJar()
+      manager ! JobManagerActor.StartJob("demo", jobName, emptyConfig.withValue(NamedObjectsTestJobConfig.CREATE_DF, ConfigValueFactory.fromAnyRef(true))
+        .withValue(NamedObjectsTestJobConfig.CREATE_RDD, ConfigValueFactory.fromAnyRef(false)),
+        errorEvents ++ syncEvents)
+      val JobResult(_, names: Array[String]) = expectMsgClass(classOf[JobResult])
+      names should equal(Array("df1"))
+
+      manager ! JobManagerActor.StartJob("demo", jobName, emptyConfig.withValue(NamedObjectsTestJobConfig.CREATE_DF, ConfigValueFactory.fromAnyRef(false))
+        .withValue(NamedObjectsTestJobConfig.CREATE_RDD, ConfigValueFactory.fromAnyRef(false)),
+        errorEvents ++ syncEvents)
+      val JobResult(_, names2: Array[String]) = expectMsgClass(classOf[JobResult])
+
+      names2 should equal(names)
+    }
+  }
+
+  describe("NamedObjects (DataFrame + RDD)") {
+    it("should survive from one job to another one") {
+      manager ! JobManagerActor.Initialize(daoActor, None)
+      expectMsgClass(classOf[JobManagerActor.Initialized])
+
+      uploadTestJar()
+      manager ! JobManagerActor.StartJob("demo", jobName, emptyConfig.withValue(NamedObjectsTestJobConfig.CREATE_DF, ConfigValueFactory.fromAnyRef(true))
+        .withValue(NamedObjectsTestJobConfig.CREATE_RDD, ConfigValueFactory.fromAnyRef(true)),
+        errorEvents ++ syncEvents)
+      val JobResult(_, names: Array[String]) = expectMsgClass(classOf[JobResult])
+      names should equal(Array("rdd1", "df1"))
+
+      manager ! JobManagerActor.StartJob("demo", jobName, emptyConfig.withValue(NamedObjectsTestJobConfig.CREATE_DF, ConfigValueFactory.fromAnyRef(false))
+        .withValue(NamedObjectsTestJobConfig.CREATE_RDD, ConfigValueFactory.fromAnyRef(false)),
+        errorEvents ++ syncEvents)
+      val JobResult(_, names2: Array[String]) = expectMsgClass(classOf[JobResult])
+
+      names2 should equal(names)
+    }
+  }
+
+}
diff --git a/job-server/src/spark.jobserver/JobServerNamedObjects.scala b/job-server/src/spark.jobserver/JobServerNamedObjects.scala
@@ -18,6 +18,8 @@ import spray.util._
  */
 class JobServerNamedObjects(system: ActorSystem) extends NamedObjects {
 
+  import JobServerNamedObjects._
+
   val logger = LoggerFactory.getLogger(getClass)
 
   implicit val ec: ExecutionContext = system.dispatcher
@@ -30,11 +32,6 @@ class JobServerNamedObjects(system: ActorSystem) extends NamedObjects {
     config.getDuration("spark.jobserver.named-object-creation-timeout",
       SECONDS), SECONDS)
 
-  // we must store a reference to each NamedObject even though only its ID is used here
-  // this reference prevents the object from being GCed and cleaned by sparks ContextCleaner
-  // or some other GC for other types of objects
-  private val namesToObjects: Cache[NamedObject] = LruCache()
-
   override def getOrElseCreate[O <: NamedObject](name: String, objGen: => O)
                                  (implicit timeout: Timeout = defaultTimeout,
                                            persister: NamedObjectPersister[O]): O = {
@@ -96,5 +93,15 @@ class JobServerNamedObjects(system: ActorSystem) extends NamedObjects {
       case answer: Iterable[String] @unchecked => answer
     }
   }
+}
 
+/**
+ * companion object that hold reference to cache with named object so that we can reference
+ * named objects across jobs
+ */
+object JobServerNamedObjects {
+  // we must store a reference to each NamedObject even though only its ID is used here
+  // this reference prevents the object from being GCed and cleaned by sparks ContextCleaner
+  // or some other GC for other types of objects
+  val namesToObjects: Cache[NamedObject] = LruCache()
 }