basic working greedy gpt2

Pierrci · Pierrci · commit 29466c723f2a · 2019-12-18T16:48:47.000-05:00
diff --git a/app/src/main/java/co/huggingface/android_transformers/gpt2/ml/GPT2Client.kt b/app/src/main/java/co/huggingface/android_transformers/gpt2/ml/GPT2Client.kt
@@ -1,47 +1,123 @@
 package co.huggingface.android_transformers.gpt2.ml
 
 import android.app.Application
+import android.util.JsonReader
 import androidx.lifecycle.AndroidViewModel
 import androidx.lifecycle.liveData
 import androidx.lifecycle.viewModelScope
 import co.huggingface.android_transformers.gpt2.tokenization.GPT2Tokenizer
 import kotlinx.coroutines.Dispatchers
 import org.tensorflow.lite.Interpreter
+import java.io.BufferedReader
 import java.io.FileInputStream
+import java.io.InputStreamReader
 import java.nio.channels.FileChannel
 
 private const val SEQUENCE_LENGTH  = 64
-private const val NUM_LITE_THREADS = 4;
-private const val MODEL_PATH       = "model.tflite"
+private const val VOCAB_SIZE       = 50257
+private const val NUM_HEAD         = 12
+private const val NUM_LITE_THREADS = 4
+private const val MODEL_PATH       = "gpt2-64.tflite"
+private const val VOCAB_PATH       = "gpt2-vocab.json"
+private const val MERGES_PATH      = "gpt2-merges.txt"
+
+private typealias Predictions = Array<Array<FloatArray>>
 
 class GPT2Client(application: Application) : AndroidViewModel(application) {
-    private val tokenizer = GPT2Tokenizer(application)
+    private lateinit var tokenizer: GPT2Tokenizer
     private lateinit var tflite: Interpreter
 
+    fun init() {
+        if (!::tokenizer.isInitialized) {
+            val encoder  = loadEncoder()
+            val decoder  = encoder.entries.associateBy({ it.value }, { it.key })
+            val bpeRanks = loadBpeRanks()
+
+            tokenizer = GPT2Tokenizer(encoder, decoder, bpeRanks)
+        }
+
+        if (!::tflite.isInitialized) {
+            tflite = loadModel()
+        }
+
+        generate("My name is")
+    }
+
+    fun generate(text: String, nbTokens: Int = 10) { // = liveData<String>(
+            //viewModelScope.coroutineContext+Dispatchers.Default) {
+
+        var tokens = tokenizer.encode(text)
+        repeat (nbTokens) {
+            val maxTokens    = tokens.takeLast(SEQUENCE_LENGTH).toIntArray()
+            val paddedTokens = maxTokens + IntArray(SEQUENCE_LENGTH - maxTokens.size)
+            val inputIds     = Array(1) { paddedTokens }
 
+            val predictions: Predictions = Array(1) { Array(SEQUENCE_LENGTH) { FloatArray(VOCAB_SIZE) } }
+            val outputs = mutableMapOf<Int, Any>(0 to predictions)
+
+            tflite.runForMultipleInputsOutputs(arrayOf(inputIds), outputs)
+            val outputLogits = predictions[0][maxTokens.size-1]
+            val nextToken    = outputLogits.argmax()
+
+            tokens.add(nextToken)
+            val decodedToken = tokenizer.decode(listOf(nextToken))
+            print(decodedToken)
+//            emit(decodedToken)
+        }
+    }
 
-//    fun generate(text: String, nbTokens: Int = 10) = liveData<Pair<String, Double>>(
-//            viewModelScope.coroutineContext+Dispatchers.Default) {
-//
-//        var tokens = tokenizer.encode(text)
-//        for (i in 0 until nbTokens) {
-//            val maxTokens = tokens.takeLast(SEQUENCE_LENGTH)
-//            val inputIds = tokens.takeLast(SEQUENCE_LENGTH) + IntArray(SEQUENCE_LENGTH - maxTokens.size).toList()
-//
-//            tflite.runForMultipleInputsOutputs();
-//        }
-//
-//
-//    }
-
-    private fun loadModel() {
-        val assetFileDescriptor = this.getApplication<Application>().assets.openFd(MODEL_PATH)
-        assetFileDescriptor.use {
+    private fun loadModel(): Interpreter {
+        val assetFileDescriptor = getApplication<Application>().assets.openFd(MODEL_PATH)
+        return assetFileDescriptor.use {
             val fileChannel = FileInputStream(assetFileDescriptor.fileDescriptor).channel
             val modelBuffer = fileChannel.map(FileChannel.MapMode.READ_ONLY, it.startOffset, it.declaredLength)
 
-            val opts = Interpreter.Options();
-            opts.setNumThreads(NUM_LITE_THREADS);
+            val opts = Interpreter.Options()
+            opts.setNumThreads(NUM_LITE_THREADS)
+            return@use Interpreter(modelBuffer, opts)
+        }
+    }
+
+    private fun loadEncoder(): Map<String, Int> {
+        return hashMapOf<String, Int>().apply {
+            val vocabStream = getApplication<Application>().assets.open(VOCAB_PATH)
+            vocabStream.use {
+                val vocabReader = JsonReader(InputStreamReader(it, "UTF-8"))
+                vocabReader.beginObject()
+                while (vocabReader.hasNext()) {
+                    val key = vocabReader.nextName()
+                    val value = vocabReader.nextInt()
+                    put(key, value)
+                }
+                vocabReader.close()
+            }
+        }
+    }
+
+    private fun loadBpeRanks(): Map<Pair<String, String>, Int> {
+        return hashMapOf<Pair<String, String>, Int>().apply {
+            val mergesStream = getApplication<Application>().assets.open(MERGES_PATH)
+            mergesStream.use { stream ->
+                val mergesReader = BufferedReader(InputStreamReader(stream))
+                mergesReader.useLines { seq ->
+                    seq.drop(1).forEachIndexed { i, s ->
+                        val list = s.split(" ")
+                        val keyTuple = list[0] to list[1]
+                        put(keyTuple, i)
+                    }
+                }
+            }
+        }
+    }
+}
+
+private fun FloatArray.argmax(): Int {
+    var bestIndex = 0
+    repeat(size) {
+        if (this[it] > this[bestIndex]) {
+            bestIndex = it
         }
     }
+
+    return bestIndex
 }
diff --git a/app/src/main/java/co/huggingface/android_transformers/gpt2/tokenization/GPT2Tokenizer.kt b/app/src/main/java/co/huggingface/android_transformers/gpt2/tokenization/GPT2Tokenizer.kt
@@ -1,58 +1,18 @@
 package co.huggingface.android_transformers.gpt2.tokenization
 
-import android.content.Context
-import android.util.JsonReader
-import java.io.BufferedReader
-import java.io.InputStreamReader
-
-private const val VOCAB_PATH  = "gpt2-vocab.json"
-private const val MERGES_PATH = "gpt2-merges.txt"
-
-class GPT2Tokenizer(private val context: Context) {
-    private val encoder: Map<String, Int>
-    private val decoder: Map<Int, String>
-    private val bpeRanks: Map<Pair<String, String>, Int>
+class GPT2Tokenizer(
+        private val encoder: Map<String, Int>,
+        private val decoder: Map<Int, String>,
+        private val bpeRanks: Map<Pair<String, String>, Int>) {
     private val encodeRegex = Regex("""'s|'t|'re|'ve|'m|'ll|'d| ?\p{L}+| ?\p{N}+| ?[^\s\p{L}\p{N}]+|\s+(?!\S)|\s+""")
 
-    init {
-        encoder = hashMapOf<String, Int>().apply {
-            val vocabStream = context.assets.open(VOCAB_PATH)
-            vocabStream.use {
-                val vocabReader = JsonReader(InputStreamReader(it, "UTF-8"))
-                vocabReader.beginObject();
-                while (vocabReader.hasNext()) {
-                    val key = vocabReader.nextName()
-                    val value = vocabReader.nextInt()
-                    put(key, value)
-                }
-                vocabReader.close()
-            }
-        }
-
-        decoder = encoder.entries.associateBy({ it.value }, { it.key })
-
-        bpeRanks = hashMapOf<Pair<String, String>, Int>().apply {
-            val mergesStream = context.assets.open(MERGES_PATH)
-            mergesStream.use { stream ->
-                val mergesReader = BufferedReader(InputStreamReader(stream))
-                mergesReader.useLines { seq ->
-                    seq.drop(1).forEachIndexed { i, s ->
-                        val list = s.split(" ")
-                        val keyTuple = list[0] to list[1]
-                        put(keyTuple, i)
-                    }
-                }
-            }
-        }
-    }
-
     fun decode(tokens: List<Int>): String {
         val text = tokens.joinToString("") { decoder.getOrDefault(it, "") }
         val utfCodepoints = text.map { byteDecoder[it.toString()]!! }
         return String(utfCodepoints.toIntArray(), 0, utfCodepoints.size)
     }
 
-    fun encode(text: String): List<Int> {
+    fun encode(text: String): MutableList<Int> {
         val tokens = encodeRegex.findAll(text).map {
             it.value.codePoints()
                     .boxed()
@@ -65,7 +25,7 @@ class GPT2Tokenizer(private val context: Context) {
                 .map { bpe(it) }
                 .flatten()
                 .map { encoder[it]!! }
-                .toList()
+                .toMutableList()
     }
 
     private fun bpe(token: String): List<String> {