Fixed writing logic and conversion of complex types when reading

jacobfi · jacobfi · commit efca8900898a · 2019-11-21T16:49:10.000+01:00
diff --git a/src/main/scala/com/audienceproject/spark/dynamodb/catalyst/JavaConverter.scala b/src/main/scala/com/audienceproject/spark/dynamodb/catalyst/JavaConverter.scala
@@ -15,7 +15,7 @@ object JavaConverter {
         elementType match {
             case ArrayType(innerType, _) => extractArray(row.getArray(index), innerType)
             case MapType(keyType, valueType, _) => extractMap(row.getMap(index), keyType, valueType)
-            case StructType(fields) => mapStruct(row.getStruct(index, fields.length), fields)
+            case StructType(fields) => extractStruct(row.getStruct(index, fields.length), fields)
             case StringType => row.getString(index)
             case _ => row.get(index, elementType)
         }
@@ -25,7 +25,7 @@ object JavaConverter {
         elementType match {
             case ArrayType(innerType, _) => array.toSeq[ArrayData](elementType).map(extractArray(_, innerType)).asJava
             case MapType(keyType, valueType, _) => array.toSeq[MapData](elementType).map(extractMap(_, keyType, valueType)).asJava
-            case structType: StructType => array.toSeq[InternalRow](structType).map(mapStruct(_, structType.fields)).asJava
+            case structType: StructType => array.toSeq[InternalRow](structType).map(extractStruct(_, structType.fields)).asJava
             case StringType => convertStringArray(array).asJava
             case _ => array.toSeq[Any](elementType).asJava
         }
@@ -38,21 +38,20 @@ object JavaConverter {
         val values = valueType match {
             case ArrayType(innerType, _) => map.valueArray().toSeq[ArrayData](valueType).map(extractArray(_, innerType))
             case MapType(innerKeyType, innerValueType, _) => map.valueArray().toSeq[MapData](valueType).map(extractMap(_, innerKeyType, innerValueType))
-            case structType: StructType => map.valueArray().toSeq[InternalRow](structType).map(mapStruct(_, structType.fields))
+            case structType: StructType => map.valueArray().toSeq[InternalRow](structType).map(extractStruct(_, structType.fields))
             case StringType => convertStringArray(map.valueArray())
             case _ => map.valueArray().toSeq[Any](valueType)
         }
         val kvPairs = for (i <- 0 until map.numElements()) yield keys(i) -> values(i)
         Map(kvPairs: _*).asJava
     }
 
-    def mapStruct(row: InternalRow, fields: Seq[StructField]): util.Map[String, Any] = {
+    def extractStruct(row: InternalRow, fields: Seq[StructField]): util.Map[String, Any] = {
         val kvPairs = for (i <- 0 until row.numFields)
             yield fields(i).name -> extractRowValue(row, i, fields(i).dataType)
         Map(kvPairs: _*).asJava
     }
 
-
     def convertStringArray(array: ArrayData): Seq[String] =
         array.toSeq[UTF8String](StringType).map(_.toString)
 
diff --git a/src/main/scala/com/audienceproject/spark/dynamodb/connector/TableConnector.scala b/src/main/scala/com/audienceproject/spark/dynamodb/connector/TableConnector.scala
@@ -63,7 +63,7 @@ private[dynamodb] class TableConnector(tableName: String, parallelism: Int, para
 
         // Partitioning calculation.
         val numPartitions = parameters.get("readpartitions").map(_.toInt).getOrElse(
-            (tableSize / maxPartitionBytes).toInt
+            (tableSize / maxPartitionBytes).toInt max 1
         )
 
         // Provisioned or on-demand throughput.
@@ -133,11 +133,11 @@ private[dynamodb] class TableConnector(tableName: String, parallelism: Int, para
                 keySchema match {
                     case KeySchema(hashKey, None) =>
                         val hashKeyType = schema(hashKey).dataType
-                        item.withPrimaryKey(hashKey, row.get(hashKeyIndex, hashKeyType))
+                        item.withPrimaryKey(hashKey, JavaConverter.extractRowValue(row, hashKeyIndex, hashKeyType))
                     case KeySchema(hashKey, Some(rangeKey)) =>
-                        val hashKeyType = schema(hashKey).dataType
-                        val rangeKeyType = schema(rangeKey).dataType
-                        item.withPrimaryKey(hashKey, row.get(hashKeyIndex, hashKeyType), rangeKey, row.get(rangeKeyIndex.get, rangeKeyType))
+                        val hashKeyValue = JavaConverter.extractRowValue(row, hashKeyIndex, schema(hashKey).dataType)
+                        val rangeKeyValue = JavaConverter.extractRowValue(row, rangeKeyIndex.get, schema(rangeKey).dataType)
+                        item.withPrimaryKey(hashKey, hashKeyValue, rangeKey, rangeKeyValue)
                 }
 
                 // Map remaining columns.
diff --git a/src/main/scala/com/audienceproject/spark/dynamodb/connector/TableIndexConnector.scala b/src/main/scala/com/audienceproject/spark/dynamodb/connector/TableIndexConnector.scala
@@ -57,7 +57,7 @@ private[dynamodb] class TableIndexConnector(tableName: String, indexName: String
 
         // Partitioning calculation.
         val numPartitions = parameters.get("readpartitions").map(_.toInt).getOrElse(
-            (indexSize / maxPartitionBytes).toInt
+            (indexSize / maxPartitionBytes).toInt max 1
         )
 
         // Provisioned or on-demand throughput.
diff --git a/src/main/scala/com/audienceproject/spark/dynamodb/datasource/DynamoBatchWriter.scala b/src/main/scala/com/audienceproject/spark/dynamodb/datasource/DynamoBatchWriter.scala
@@ -0,0 +1,36 @@
+package com.audienceproject.spark.dynamodb.datasource
+
+import com.audienceproject.spark.dynamodb.connector.DynamoWritable
+import org.apache.spark.sql.catalyst.InternalRow
+import org.apache.spark.sql.sources.v2.writer.{DataWriter, WriterCommitMessage}
+import org.apache.spark.sql.types.StructType
+
+import scala.collection.mutable.ArrayBuffer
+
+class DynamoBatchWriter(batchSize: Int,
+                        connector: DynamoWritable,
+                        schema: StructType)
+    extends DataWriter[InternalRow] {
+
+    private val buffer = new ArrayBuffer[InternalRow](batchSize)
+
+    override def write(record: InternalRow): Unit = {
+        buffer += record.copy()
+        if (buffer.size == batchSize) {
+            flush()
+        }
+    }
+
+    override def commit(): WriterCommitMessage = {
+        flush()
+        new WriterCommitMessage {}
+    }
+
+    override def abort(): Unit = {}
+
+    private def flush(): Unit = {
+        connector.putItems(schema, buffer)
+        buffer.clear()
+    }
+
+}
diff --git a/src/main/scala/com/audienceproject/spark/dynamodb/datasource/DynamoDataSourceWriter.scala b/src/main/scala/com/audienceproject/spark/dynamodb/datasource/DynamoDataSourceWriter.scala
@@ -22,44 +22,22 @@ package com.audienceproject.spark.dynamodb.datasource
 
 import com.audienceproject.spark.dynamodb.connector.TableConnector
 import org.apache.spark.sql.catalyst.InternalRow
-import org.apache.spark.sql.sources.v2.writer.{DataSourceWriter, DataWriter, DataWriterFactory, WriterCommitMessage}
+import org.apache.spark.sql.sources.v2.writer.{DataSourceWriter, DataWriterFactory, WriterCommitMessage}
 import org.apache.spark.sql.types.StructType
 
-import scala.collection.mutable.ArrayBuffer
-
 class DynamoDataSourceWriter(parallelism: Int, parameters: Map[String, String], schema: StructType)
     extends DataSourceWriter {
 
-    private val tableName = parameters("tableName")
-    private val batchSize = parameters.getOrElse("writeBatchSize", "25").toInt
+    private val tableName = parameters("tablename")
+    private val batchSize = parameters.getOrElse("writebatchsize", "25").toInt
 
     private val dynamoConnector = new TableConnector(tableName, parallelism, parameters)
 
-    override def createWriterFactory(): DataWriterFactory[InternalRow] = new DataWriterFactory[InternalRow] {
-        override def createDataWriter(partitionId: Int, taskId: Long, epochId: Long): DataWriter[InternalRow] =
-            new DynamoDataWriter
-    }
+    override def createWriterFactory(): DataWriterFactory[InternalRow] =
+        new DynamoWriterFactory(batchSize, dynamoConnector, schema)
 
     override def commit(messages: Array[WriterCommitMessage]): Unit = {}
 
     override def abort(messages: Array[WriterCommitMessage]): Unit = {}
 
-    private class DynamoDataWriter extends DataWriter[InternalRow] {
-
-        private val buffer = new ArrayBuffer[InternalRow](batchSize)
-
-        override def write(record: InternalRow): Unit = {
-            buffer += record
-            if (buffer.size == batchSize) {
-                dynamoConnector.putItems(schema, buffer)
-                buffer.clear()
-            }
-        }
-
-        override def commit(): WriterCommitMessage = new WriterCommitMessage {}
-
-        override def abort(): Unit = {}
-
-    }
-
 }
diff --git a/src/main/scala/com/audienceproject/spark/dynamodb/datasource/DynamoWriterFactory.scala b/src/main/scala/com/audienceproject/spark/dynamodb/datasource/DynamoWriterFactory.scala
@@ -0,0 +1,16 @@
+package com.audienceproject.spark.dynamodb.datasource
+
+import com.audienceproject.spark.dynamodb.connector.DynamoWritable
+import org.apache.spark.sql.catalyst.InternalRow
+import org.apache.spark.sql.sources.v2.writer.{DataWriter, DataWriterFactory}
+import org.apache.spark.sql.types.StructType
+
+class DynamoWriterFactory(batchSize: Int,
+                          connector: DynamoWritable,
+                          schema: StructType)
+    extends DataWriterFactory[InternalRow] {
+
+    override def createDataWriter(partitionId: Int, taskId: Long, epochId: Long): DataWriter[InternalRow] =
+        new DynamoBatchWriter(batchSize, connector, schema)
+
+}
diff --git a/src/main/scala/com/audienceproject/spark/dynamodb/datasource/TypeConversion.scala b/src/main/scala/com/audienceproject/spark/dynamodb/datasource/TypeConversion.scala
@@ -21,7 +21,8 @@
 package com.audienceproject.spark.dynamodb.datasource
 
 import com.amazonaws.services.dynamodbv2.document.Item
-import org.apache.spark.sql.Row
+import org.apache.spark.sql.catalyst.InternalRow
+import org.apache.spark.sql.catalyst.util.{ArrayBasedMapData, GenericArrayData}
 import org.apache.spark.sql.types._
 import org.apache.spark.unsafe.types.UTF8String
 
@@ -51,6 +52,8 @@ private[dynamodb] object TypeConversion {
             case _ => throw new IllegalArgumentException(s"Spark DataType '${sparkType.typeName}' could not be mapped to a corresponding DynamoDB data type.")
         }
 
+    private val stringConverter = (value: Any) => UTF8String.fromString(value.asInstanceOf[String])
+
     private def convertValue(sparkType: DataType): Any => Any =
 
         sparkType match {
@@ -71,7 +74,7 @@ private[dynamodb] object TypeConversion {
                 case _ => null
             }
             case StringType => {
-                case string: String => string
+                case string: String => UTF8String.fromString(string)
                 case _ => null
             }
             case BinaryType => {
@@ -94,18 +97,18 @@ private[dynamodb] object TypeConversion {
     }
 
     private def extractArray(converter: Any => Any): Any => Any = {
-        case list: java.util.List[_] => list.asScala.map(converter)
-        case set: java.util.Set[_] => set.asScala.map(converter).toSeq
+        case list: java.util.List[_] => new GenericArrayData(list.asScala.map(converter))
+        case set: java.util.Set[_] => new GenericArrayData(set.asScala.map(converter).toSeq)
         case _ => null
     }
 
     private def extractMap(converter: Any => Any): Any => Any = {
-        case map: java.util.Map[_, _] => map.asScala.mapValues(converter)
+        case map: java.util.Map[_, _] => ArrayBasedMapData(map, stringConverter, converter)
         case _ => null
     }
 
     private def extractStruct(conversions: Seq[(String, Any => Any)]): Any => Any = {
-        case map: java.util.Map[_, _] => Row.fromSeq(conversions.map({
+        case map: java.util.Map[_, _] => InternalRow.fromSeq(conversions.map({
             case (name, conv) => conv(map.get(name))
         }))
         case _ => null
diff --git a/src/main/scala/com/audienceproject/spark/dynamodb/implicits.scala b/src/main/scala/com/audienceproject/spark/dynamodb/implicits.scala
@@ -53,7 +53,7 @@ object implicits {
         }
 
         private def getDynamoDBSource(tableName: String): DataFrameReader =
-            reader.format("com.audienceproject.spark.dynamodb").option("tableName", tableName)
+            reader.format("com.audienceproject.spark.dynamodb.datasource").option("tableName", tableName)
 
         private def getColumnsAlias(dataFrame: DataFrame): DataFrame = {
             val columnsAlias = dataFrame.schema.collect({
@@ -70,7 +70,7 @@ object implicits {
     implicit class DynamoDBDataFrameWriter[T](writer: DataFrameWriter[T]) {
 
         def dynamodb(tableName: String): Unit =
-            writer.format("com.audienceproject.spark.dynamodb").option("tableName", tableName).save()
+            writer.format("com.audienceproject.spark.dynamodb.datasource").option("tableName", tableName).save()
 
     }
 
diff --git a/src/test/scala/com/audienceproject/spark/dynamodb/DefaultSourceTest.scala b/src/test/scala/com/audienceproject/spark/dynamodb/DefaultSourceTest.scala
@@ -29,8 +29,9 @@ import scala.collection.JavaConverters._
 class DefaultSourceTest extends AbstractInMemoryTest {
 
     test("Table count is 9") {
-        val count = spark.read.dynamodb("TestFruit").count()
-        assert(count === 9)
+        val count = spark.read.dynamodb("TestFruit")
+        count.show()
+        assert(count.count() === 9)
     }
 
     test("Column sum is 27") {

Original file line number	Diff line number	Diff line change
`@@ -57,7 +57,7 @@ private[dynamodb] class TableIndexConnector(tableName: String, indexName: String`
`57`	`57`
`58`	`58`	`// Partitioning calculation.`
`59`	`59`	`val numPartitions = parameters.get("readpartitions").map(_.toInt).getOrElse(`
`60`		`- (indexSize / maxPartitionBytes).toInt`
	`60`	`+ (indexSize / maxPartitionBytes).toInt max 1`
`61`	`61`	`)`
`62`	`62`
`63`	`63`	`// Provisioned or on-demand throughput.`
Original file line number	Diff line number	Diff line change
`@@ -53,7 +53,7 @@ object implicits {`
`53`	`53`	`}`
`54`	`54`
`55`	`55`	`private def getDynamoDBSource(tableName: String): DataFrameReader =`
`56`		`- reader.format("com.audienceproject.spark.dynamodb").option("tableName", tableName)`
	`56`	`+ reader.format("com.audienceproject.spark.dynamodb.datasource").option("tableName", tableName)`
`57`	`57`
`58`	`58`	`private def getColumnsAlias(dataFrame: DataFrame): DataFrame = {`
`59`	`59`	`val columnsAlias = dataFrame.schema.collect({`
`@@ -70,7 +70,7 @@ object implicits {`
`70`	`70`	`implicit class DynamoDBDataFrameWriter[T](writer: DataFrameWriter[T]) {`
`71`	`71`
`72`	`72`	`def dynamodb(tableName: String): Unit =`
`73`		`- writer.format("com.audienceproject.spark.dynamodb").option("tableName", tableName).save()`
	`73`	`+ writer.format("com.audienceproject.spark.dynamodb.datasource").option("tableName", tableName).save()`
`74`	`74`
`75`	`75`	`}`
`76`	`76`