cleanup

dszakallas · dszakallas · commit c858cfc92eb7 · 2021-08-03T09:57:00.000+02:00
diff --git a/src/main/scala/ldbc/snb/datagen/factors/FactorGenerationStage.scala b/src/main/scala/ldbc/snb/datagen/factors/FactorGenerationStage.scala
@@ -3,9 +3,9 @@ package ldbc.snb.datagen.factors
 import ldbc.snb.datagen.factors.io.FactorTableSink
 import ldbc.snb.datagen.io.graphs.GraphSource
 import ldbc.snb.datagen.model.{EntityType, graphs}
-import ldbc.snb.datagen.{SparkApp, model}
+import ldbc.snb.datagen.model
 import ldbc.snb.datagen.syntax._
-import ldbc.snb.datagen.util.Logging
+import ldbc.snb.datagen.util.{DatagenStage, Logging}
 import org.apache.spark.sql.functions.{broadcast, count, date_trunc, sum}
 import org.apache.spark.sql.{Column, DataFrame, SparkSession}
 
@@ -14,8 +14,7 @@ case class Factor(requiredEntities: EntityType*)(f: Seq[DataFrame] => DataFrame)
   override def apply(v1: Seq[DataFrame]): DataFrame = f(v1)
 }
 
-object FactorGenerationStage extends SparkApp with Logging {
-  override def appName: String = "LDBC SNB Datagen for Spark: Factor Generation Stage"
+object FactorGenerationStage extends DatagenStage with Logging {
 
   case class Args(outputDir: String = "out")
 
@@ -55,8 +54,8 @@ object FactorGenerationStage extends SparkApp with Logging {
 
   private val rawFactors = Map(
     "countryNumPersons" -> Factor(Place, Person) { case Seq(places, persons) =>
-      val cities = places.where($"type" === "City")
-      val countries = places.where($"type" === "Country")
+      val cities = places.where($"type" === "City").cache()
+      val countries = places.where($"type" === "Country").cache()
 
       frequency(
         persons.as("Person")
@@ -78,8 +77,8 @@ object FactorGenerationStage extends SparkApp with Logging {
 
       frequency(
         personKnowsPerson.alias("Knows")
-          .join(persons.as("Person1"), $"Person1.id" === $"Knows.Person1Id")
-          .join(cities.as("City1"), $"City1.id" === "Person1.LocationCityId")
+          .join(persons.cache().as("Person1"), $"Person1.id" === $"Knows.Person1Id")
+          .join(cities.cache().as("City1"), $"City1.id" === "Person1.LocationCityId")
           .join(persons.as("Person2"), $"Person2.id" === $"Knows.Person2Id")
           .join(cities.as("City2"), $"City2.id" === "Person2.LocationCityId")
           .where($"City1.id" < $"City2.id"),
@@ -99,9 +98,9 @@ object FactorGenerationStage extends SparkApp with Logging {
 
       frequency(
         personKnowsPerson.alias("Knows")
-          .join(persons.as("Person1"), $"Person1.id" === $"Knows.Person1Id")
-          .join(cities.as("City1"), $"City1.id" === "Person1.LocationCityId")
-          .join(countries.as("Country1"), $"Country1.id" === "City1.PartOfPlaceId")
+          .join(persons.cache().as("Person1"), $"Person1.id" === $"Knows.Person1Id")
+          .join(cities.cache().as("City1"), $"City1.id" === "Person1.LocationCityId")
+          .join(countries.cache().as("Country1"), $"Country1.id" === "City1.PartOfPlaceId")
           .join(persons.as("Person2"), $"Person2.id" === $"Knows.Person2Id")
           .join(cities.as("City2"), $"City2.id" === "Person2.LocationCityId")
           .join(countries.as("Country2"), $"Country2.id" === "City2.PartOfPlaceId")
@@ -155,7 +154,7 @@ object FactorGenerationStage extends SparkApp with Logging {
       )
     },
     "companiesNumEmployees" -> Factor(Organisation, PersonWorkAtCompany) { case Seq(organisation, workAt) =>
-      val company = organisation.where($"Type" === "Company")
+      val company = organisation.where($"Type" === "Company").cache()
       frequency(
         company.as("Company").join(workAt.as("WorkAt"), $"WorkAt.CompanyId" === $"Company.id"),
         value = $"WorkAt.PersonId",
diff --git a/src/main/scala/ldbc/snb/datagen/generation/GenerationStage.scala b/src/main/scala/ldbc/snb/datagen/generation/GenerationStage.scala
@@ -1,19 +1,16 @@
 package ldbc.snb.datagen.generation
 
-import ldbc.snb.datagen.{DatagenParams, SparkApp}
+import ldbc.snb.datagen.DatagenParams
 import ldbc.snb.datagen.generation.generator.{SparkKnowsGenerator, SparkKnowsMerger, SparkPersonGenerator, SparkRanker}
 import ldbc.snb.datagen.generation.serializer.{SparkActivitySerializer, SparkPersonSerializer, SparkStaticGraphSerializer}
 import ldbc.snb.datagen.syntax._
-import ldbc.snb.datagen.util.{ConfigParser, GeneratorConfiguration, Logging, SparkUI}
-import ldbc.snb.datagen.util.Utils.simpleNameOf
+import ldbc.snb.datagen.util.{ConfigParser, DatagenStage, GeneratorConfiguration, Logging, SparkUI, simpleNameOf}
 import org.apache.hadoop.fs.{FileSystem, Path}
 import org.apache.spark.sql.SparkSession
 
 import java.net.URI
 
-object GenerationStage extends SparkApp with Logging {
-  override def appName: String = "LDBC SNB Datagen for Spark: Generation Stage"
-
+object GenerationStage extends DatagenStage with Logging {
   val optimalPersonsPerFile = 500000
 
   case class Args(
@@ -51,7 +48,7 @@ object GenerationStage extends SparkApp with Logging {
       SparkActivitySerializer(merged, randomRanker, config, Some(numPartitions), oversizeFactor)
     }
 
-    SparkUI.job(simpleNameOf[SparkPersonSerializer.type ], "serialize persons") {
+    SparkUI.job(simpleNameOf[SparkPersonSerializer.type], "serialize persons") {
       SparkPersonSerializer(merged, config, Some(numPartitions), oversizeFactor)
     }
 
diff --git a/src/main/scala/ldbc/snb/datagen/generation/serializer/SparkActivitySerializer.scala b/src/main/scala/ldbc/snb/datagen/generation/serializer/SparkActivitySerializer.scala
@@ -6,14 +6,12 @@ import ldbc.snb.datagen.serializer.{DynamicActivitySerializer, PersonActivityExp
 import ldbc.snb.datagen.generation.generator.SparkRanker
 import ldbc.snb.datagen.util.{GeneratorConfiguration, SerializableConfiguration}
 import ldbc.snb.datagen.syntax._
-import ldbc.snb.datagen.util.formatter.DateFormatter
 import ldbc.snb.datagen.{DatagenContext, DatagenParams}
 import org.apache.hadoop.fs.{FileSystem, Path}
 import org.apache.spark.TaskContext
 import org.apache.spark.rdd.RDD
 import org.apache.spark.sql.SparkSession
 
-import java.nio.charset.StandardCharsets
 import java.util
 import java.util.function.Consumer
 import scala.collection.JavaConverters._
diff --git a/src/main/scala/ldbc/snb/datagen/io/graphs.scala b/src/main/scala/ldbc/snb/datagen/io/graphs.scala
@@ -79,7 +79,7 @@ object graphs {
 
 
   private final class GraphWriter[M <: Mode](implicit
-                                             `==`: M#Layout =:= DataFrame
+                                             the: M#Layout =:= DataFrame
                                             ) extends Writer[GraphSink] with Logging with GraphWriterMixin {
 
     override type CoRet = Graph[M]
@@ -93,7 +93,7 @@ object graphs {
             val p = (sink.path / sink.format / PathComponent[GraphLike[M]].path(self) / tpe.entityPath).toString()
             log.info(s"$tpe: Writing started")
             val opts = getFormatOptions(sink.format, self.mode)
-            `==`(dataset).write(DataFrameSink(p, sink.format, opts, SaveMode.Ignore))
+            the(dataset).write(DataFrameSink(p, sink.format, opts, SaveMode.Ignore))
             log.info(s"$tpe: Writing completed")
           }(dataset.sparkSession)
       }
@@ -135,20 +135,16 @@ object graphs {
   }
 
   trait WriterInstances {
-    implicit def dataFrameGraphWriter[M <: Mode]
+    implicit def graphWriter[M <: Mode]
     (implicit ev: M#Layout =:= DataFrame): Writer.Aux[GraphSink, Graph[M]] = new GraphWriter[M]
 
-    implicit def batchedDataFrameGraphWriter[M <: Mode]
+    implicit def batchedGraphWriter[M <: Mode]
     (implicit ev: M#Layout =:= BatchedEntity): Writer.Aux[GraphSink, Graph[M]] = new BatchedGraphWriter[M]
   }
 
-  case class GraphSource[M <: Mode](
-                                     definition: GraphDef[M],
-                                     path: String,
-                                     format: String
-                                   )
+  case class GraphSource[M <: Mode](definition: GraphDef[M], path: String, format: String)
 
-  private final class DataFrameGraphReader[M <: Mode](implicit spark: SparkSession, ev: DataFrame =:= M#Layout)
+  private final class GraphReader[M <: Mode](implicit spark: SparkSession, ev: DataFrame =:= M#Layout)
     extends Reader[GraphSource[M]]
       with Logging {
     override type Ret = Graph[M]
@@ -188,9 +184,9 @@ object graphs {
   }
 
   trait ReaderInstances {
-    implicit def dataFrameGraphReader[M <: Mode]
+    implicit def graphReader[M <: Mode]
     (implicit spark: SparkSession, ev: DataFrame =:= M#Layout): Reader.Aux[GraphSource[M], Graph[M]] =
-      new DataFrameGraphReader[M]
+      new GraphReader[M]
   }
 
   trait Instances
diff --git a/src/main/scala/ldbc/snb/datagen/model/package.scala b/src/main/scala/ldbc/snb/datagen/model/package.scala
@@ -1,7 +1,7 @@
 package ldbc.snb.datagen
 
 import ldbc.snb.datagen.syntax._
-import ldbc.snb.datagen.util.Utils.camel
+import ldbc.snb.datagen.util.camel
 import org.apache.spark.sql.{Column, DataFrame}
 
 import scala.language.higherKinds
diff --git a/src/main/scala/ldbc/snb/datagen/spark/LdbcDatagen.scala b/src/main/scala/ldbc/snb/datagen/spark/LdbcDatagen.scala
@@ -2,11 +2,11 @@ package ldbc.snb.datagen.spark
 
 import ldbc.snb.datagen.dictionary.Dictionaries
 import ldbc.snb.datagen.factors.FactorGenerationStage
-import ldbc.snb.datagen.{DatagenContext, SparkApp}
+import ldbc.snb.datagen.DatagenContext
 import ldbc.snb.datagen.generation.GenerationStage
 import ldbc.snb.datagen.transformation.TransformationStage
 import ldbc.snb.datagen.model.Mode
-import ldbc.snb.datagen.util.Utils.lower
+import ldbc.snb.datagen.util.{SparkApp, lower}
 import shapeless.lens
 
 
diff --git a/src/main/scala/ldbc/snb/datagen/transformation/TransformationStage.scala b/src/main/scala/ldbc/snb/datagen/transformation/TransformationStage.scala
@@ -1,17 +1,15 @@
 package ldbc.snb.datagen.transformation
 
 import ldbc.snb.datagen.io.graphs.{GraphSink, GraphSource}
-import ldbc.snb.datagen.{SparkApp, model}
+import ldbc.snb.datagen.model
 import ldbc.snb.datagen.model.{BatchedEntity, Graph, Mode}
 import ldbc.snb.datagen.syntax._
 import ldbc.snb.datagen.transformation.transform.{ExplodeAttrs, ExplodeEdges, RawToBiTransform, RawToInteractiveTransform}
-import ldbc.snb.datagen.util.Logging
+import ldbc.snb.datagen.util.{DatagenStage, Logging}
 import org.apache.spark.sql.{DataFrame, SparkSession}
 import shapeless._
 
-object TransformationStage extends SparkApp with Logging {
-  override def appName: String = "LDBC SNB Datagen for Spark: TransformationStage"
-
+object TransformationStage extends DatagenStage with Logging {
   case class Args(
     outputDir: String = "out",
     explodeEdges: Boolean = false,
diff --git a/src/main/scala/ldbc/snb/datagen/util/SerializableConfiguration.scala b/src/main/scala/ldbc/snb/datagen/util/SerializableConfiguration.scala
@@ -5,12 +5,12 @@ import java.io.{ObjectInputStream, ObjectOutputStream}
 import org.apache.hadoop.conf.Configuration
 
 class SerializableConfiguration(@transient var value: Configuration) extends Serializable {
-  private def writeObject(out: ObjectOutputStream): Unit = Utils.tryOrIOException {
+  private def writeObject(out: ObjectOutputStream): Unit = tryOrThrowIOException {
     out.defaultWriteObject()
     value.write(out)
   }
 
-  private def readObject(in: ObjectInputStream): Unit = Utils.tryOrIOException {
+  private def readObject(in: ObjectInputStream): Unit = tryOrThrowIOException {
     value = new Configuration(false)
     value.readFields(in)
   }
diff --git a/src/main/scala/ldbc/snb/datagen/util/SparkApp.scala b/src/main/scala/ldbc/snb/datagen/util/SparkApp.scala
@@ -1,4 +1,4 @@
-package ldbc.snb.datagen
+package ldbc.snb.datagen.util
 
 import ldbc.snb.datagen.syntax._
 import org.apache.spark.sql.SparkSession
@@ -18,5 +18,8 @@ trait SparkApp {
   def defaultSparkConf: Map[String, String] = Map(
     "spark.sql.session.timeZone" -> "GMT"
   )
+}
 
+trait DatagenStage extends SparkApp {
+  override val appName: String = s"LDBC SNB Datagen for Spark: ${this.getClass.getSimpleName.stripSuffix("$")}"
 }
diff --git a/src/main/scala/ldbc/snb/datagen/util/package.scala b/src/main/scala/ldbc/snb/datagen/util/package.scala
@@ -1,4 +1,4 @@
-package ldbc.snb.datagen.util
+package ldbc.snb.datagen
 
 import com.google.common.base.CaseFormat
 
@@ -7,8 +7,8 @@ import java.util.function.IntFunction
 import scala.reflect.ClassTag
 import scala.util.control.NonFatal
 
-object Utils {
-  def tryOrIOException[T](block: => T): T = {
+package object util {
+  def tryOrThrowIOException[T](block: => T): T = {
     try {
       block
     } catch {

Original file line number	Diff line number	Diff line change
`@@ -5,12 +5,12 @@ import java.io.{ObjectInputStream, ObjectOutputStream}`
`5`	`5`	`import org.apache.hadoop.conf.Configuration`
`6`	`6`
`7`	`7`	`class SerializableConfiguration(@transient var value: Configuration) extends Serializable {`
`8`		`- private def writeObject(out: ObjectOutputStream): Unit = Utils.tryOrIOException {`
	`8`	`+ private def writeObject(out: ObjectOutputStream): Unit = tryOrThrowIOException {`
`9`	`9`	`out.defaultWriteObject()`
`10`	`10`	`value.write(out)`
`11`	`11`	`}`
`12`	`12`
`13`		`- private def readObject(in: ObjectInputStream): Unit = Utils.tryOrIOException {`
	`13`	`+ private def readObject(in: ObjectInputStream): Unit = tryOrThrowIOException {`
`14`	`14`	`value = new Configuration(false)`
`15`	`15`	`value.readFields(in)`
`16`	`16`	`}`
Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-package ldbc.snb.datagen`
	`1`	`+package ldbc.snb.datagen.util`
`2`	`2`
`3`	`3`	`import ldbc.snb.datagen.syntax._`
`4`	`4`	`import org.apache.spark.sql.SparkSession`
`@@ -18,5 +18,8 @@ trait SparkApp {`
`18`	`18`	`def defaultSparkConf: Map[String, String] = Map(`
`19`	`19`	`"spark.sql.session.timeZone" -> "GMT"`
`20`	`20`	`)`
	`21`	`+}`
`21`	`22`
	`23`	`+trait DatagenStage extends SparkApp {`
	`24`	`+ override val appName: String = s"LDBC SNB Datagen for Spark: ${this.getClass.getSimpleName.stripSuffix("$")}"`
`22`	`25`	`}`