fix: long LlamaText tokenization (#249)

giladgd · web-flow · commit 9cab7847e7f1 · 2024-06-25T00:02:06.000+03:00
diff --git a/src/evaluator/LlamaChat/LlamaChat.ts b/src/evaluator/LlamaChat/LlamaChat.ts
@@ -18,6 +18,7 @@ import {resolveChatWrapper} from "../../chatWrappers/utils/resolveChatWrapper.js
 import {GeneralChatWrapper} from "../../chatWrappers/GeneralChatWrapper.js";
 import {TokenBias} from "../TokenBias.js";
 import {safeEventCallback} from "../../utils/safeEventCallback.js";
+import {pushAll} from "../../utils/pushAll.js";
 import {
     eraseFirstResponseAndKeepFirstSystemChatContextShiftStrategy
 } from "./utils/contextShiftStrategies/eraseFirstResponseAndKeepFirstSystemChatContextShiftStrategy.js";
@@ -1491,7 +1492,7 @@ class GenerateResponseState<const Functions extends ChatModelFunctions | undefin
                         })
                         .flat(1);
                     this.pendingTokens.length = 0;
-                    this.pendingTokens.push(...newPendingTokens);
+                    pushAll(this.pendingTokens, newPendingTokens);
                     this.removedStartTextToIgnore = true;
                 }
             }
@@ -1975,7 +1976,7 @@ class GenerateResponseState<const Functions extends ChatModelFunctions | undefin
 
         this.stopGenerationDetector.clearInProgressStops();
         this.customStopGenerationTriggersDetector.clearInProgressStops();
-        this.pendingTokens.push(...this.streamRegulator.popFreeChunkTokens());
+        pushAll(this.pendingTokens, this.streamRegulator.popFreeChunkTokens());
 
         const triggeredStops = this.functionSyntaxStartDetector.getTriggeredStops();
         const partiallyFreeTokens = this.streamRegulator.getPartiallyFreeChunk(this.llamaChat.model.tokenizer);
@@ -1984,15 +1985,15 @@ class GenerateResponseState<const Functions extends ChatModelFunctions | undefin
             partiallyFreeTokens,
             this.llamaChat.model.tokenizer
         );
-        this.pendingTokens.push(...queuedTokensBeforeStopTrigger);
+        pushAll(this.pendingTokens, queuedTokensBeforeStopTrigger);
 
         this.removeFoundStartIgnoreTextsFromPendingTokens(true);
 
         if (this.pendingTokens.length > 0)
             this.onToken?.(this.pendingTokens.slice());
 
-        this.res.push(...this.pendingTokens);
-        this.contextWindowsRes.push(...this.pendingTokens);
+        pushAll(this.res, this.pendingTokens);
+        pushAll(this.contextWindowsRes, this.pendingTokens);
         this.pendingTokens.length = 0;
 
         this.streamRegulator.clearQueue();
@@ -2192,7 +2193,7 @@ class GenerateResponseState<const Functions extends ChatModelFunctions | undefin
             this.customStopGenerationTriggersDetector.clearTriggeredStops();
             this.customStopGenerationTriggersDetector.clearInProgressStops();
 
-            this.pendingTokens.push(...this.streamRegulator.popFreeChunkTokens());
+            pushAll(this.pendingTokens, this.streamRegulator.popFreeChunkTokens());
 
             const triggeredStops = this.functionSyntaxStartDetector.getTriggeredStops();
             const partiallyFreeTokens = this.streamRegulator.getPartiallyFreeChunk(this.llamaChat.model.tokenizer);
@@ -2202,7 +2203,7 @@ class GenerateResponseState<const Functions extends ChatModelFunctions | undefin
                 partiallyFreeTokens,
                 this.llamaChat.model.tokenizer
             );
-            this.pendingTokens.push(...queuedTokensBeforeStopTrigger);
+            pushAll(this.pendingTokens, queuedTokensBeforeStopTrigger);
 
             const firstRemainingGenerationAfterStop = StopGenerationDetector.getFirstRemainingGenerationAfterStop(triggeredStops);
             const remainingTextAfterStop = StopGenerationDetector.detokenizeRemainingGeneration(
@@ -2228,7 +2229,7 @@ class GenerateResponseState<const Functions extends ChatModelFunctions | undefin
     }
 
     public popStreamRegulatorFreeTokens() {
-        this.pendingTokens.push(...this.streamRegulator.popFreeChunkTokens());
+        pushAll(this.pendingTokens, this.streamRegulator.popFreeChunkTokens());
     }
 
     public handleStopGenerationTrigger(lastHistoryItemType: "user" | "model") {
@@ -2237,7 +2238,7 @@ class GenerateResponseState<const Functions extends ChatModelFunctions | undefin
         ) {
             this.stopGenerationDetector.clearInProgressStops();
             this.customStopGenerationTriggersDetector.clearInProgressStops();
-            this.pendingTokens.push(...this.streamRegulator.popFreeChunkTokens());
+            pushAll(this.pendingTokens, this.streamRegulator.popFreeChunkTokens());
 
             const triggeredStops = this.stopGenerationDetector.hasTriggeredStops
                 ? this.stopGenerationDetector.getTriggeredStops()
@@ -2250,7 +2251,7 @@ class GenerateResponseState<const Functions extends ChatModelFunctions | undefin
                 partiallyFreeTokens,
                 this.llamaChat.model.tokenizer
             );
-            this.pendingTokens.push(...queuedTokensBeforeStopTrigger);
+            pushAll(this.pendingTokens, queuedTokensBeforeStopTrigger);
 
             const firstRemainingGenerationAfterStop = StopGenerationDetector.getFirstRemainingGenerationAfterStop(triggeredStops);
 
@@ -2259,8 +2260,8 @@ class GenerateResponseState<const Functions extends ChatModelFunctions | undefin
             if (this.pendingTokens.length > 0)
                 this.onToken?.(this.pendingTokens.slice());
 
-            this.res.push(...this.pendingTokens);
-            this.contextWindowsRes.push(...this.pendingTokens);
+            pushAll(this.res, this.pendingTokens);
+            pushAll(this.contextWindowsRes, this.pendingTokens);
             this.pendingTokens.length = 0;
 
             let modelResponse = this.llamaChat.model.detokenize(this.res);
@@ -2336,8 +2337,8 @@ class GenerateResponseState<const Functions extends ChatModelFunctions | undefin
 
             if (this.pendingTokens.length > 0) {
                 this.onToken?.(this.pendingTokens.slice());
-                this.res.push(...this.pendingTokens);
-                this.contextWindowsRes.push(...this.pendingTokens);
+                pushAll(this.res, this.pendingTokens);
+                pushAll(this.contextWindowsRes, this.pendingTokens);
                 this.pendingTokens.length = 0;
             }
         }
diff --git a/src/evaluator/LlamaChatSession/utils/LlamaChatSessionPromptCompletionEngine.ts b/src/evaluator/LlamaChatSession/utils/LlamaChatSessionPromptCompletionEngine.ts
@@ -3,6 +3,7 @@ import {Token} from "../../../types.js";
 import {getConsoleLogPrefix} from "../../../utils/getConsoleLogPrefix.js";
 import {LruCache} from "../../../utils/LruCache.js";
 import {safeEventCallback} from "../../../utils/safeEventCallback.js";
+import {pushAll} from "../../../utils/pushAll.js";
 import type {LLamaChatCompletePromptOptions, LlamaChatSession} from "../LlamaChatSession.js";
 
 export type LLamaChatPromptCompletionEngineOptions = {
@@ -146,7 +147,7 @@ export class LlamaChatSessionPromptCompletionEngine {
             maxTokens: leftTokens,
             signal: currentAbortSignal,
             onToken: (chunk) => {
-                currentCompletion.push(...chunk);
+                pushAll(currentCompletion, chunk);
                 const completion = (existingCompletion ?? "") + this._chatSession.model.detokenize(currentCompletion);
                 completionCache.putCompletion(prompt, completion);
 
diff --git a/src/evaluator/LlamaCompletion.ts b/src/evaluator/LlamaCompletion.ts
@@ -9,6 +9,7 @@ import {StopGenerationDetector} from "../utils/StopGenerationDetector.js";
 import {UNKNOWN_UNICODE_CHAR} from "../consts.js";
 import {getQueuedTokensBeforeStopTrigger} from "../utils/getQueuedTokensBeforeStopTrigger.js";
 import {safeEventCallback} from "../utils/safeEventCallback.js";
+import {pushAll} from "../utils/pushAll.js";
 import {LlamaGrammarEvaluationState} from "./LlamaGrammarEvaluationState.js";
 import {LlamaGrammar} from "./LlamaGrammar.js";
 import {EvaluationPriority} from "./LlamaContext/types.js";
@@ -248,7 +249,7 @@ export class LlamaCompletion {
                 throw new Error("The context size is too small to generate a response for the given input");
 
             const slicedTokens = tokens.slice(-inputTokensSize);
-            res.push(...slicedTokens);
+            pushAll(res, slicedTokens);
 
             return res;
         }
@@ -428,10 +429,10 @@ export class LlamaCompletion {
                 newContextState.push(bosToken);
 
             newContextState.push(prefixToken);
-            newContextState.push(...resolvedPrefixTokens);
+            pushAll(newContextState, resolvedPrefixTokens);
 
             newContextState.push(suffixToken);
-            newContextState.push(...resolvedSuffixTokens);
+            pushAll(newContextState, resolvedSuffixTokens);
 
             newContextState.push(middleToken);
 
@@ -655,7 +656,7 @@ export class LlamaCompletion {
                 stopGenerationDetector.recordGeneration({text, tokens, queuedTokenRelease});
                 customStopGenerationTriggersDetector.recordGeneration({text, tokens, queuedTokenRelease});
 
-                pendingTokens.push(...streamRegulator.popFreeChunkTokens());
+                pushAll(pendingTokens, streamRegulator.popFreeChunkTokens());
 
                 if (stopGenerationDetector.hasTriggeredStops || customStopGenerationTriggersDetector.hasTriggeredStops ||
                     model.isEogToken(token)
@@ -670,14 +671,14 @@ export class LlamaCompletion {
                         partiallyFreeTokens,
                         model.tokenizer
                     );
-                    pendingTokens.push(...queuedTokensBeforeStopTrigger);
+                    pushAll(pendingTokens, queuedTokensBeforeStopTrigger);
 
                     const firstRemainingGenerationAfterStop = StopGenerationDetector.getFirstRemainingGenerationAfterStop(triggeredStops);
 
                     if (pendingTokens.length > 0)
                         onToken?.(pendingTokens.slice());
 
-                    res.push(...pendingTokens);
+                    pushAll(res, pendingTokens);
                     pendingTokens.length = 0;
 
                     let modelResponse = model.detokenize(res);
@@ -710,7 +711,7 @@ export class LlamaCompletion {
 
                 if (pendingTokens.length > 0) {
                     onToken?.(pendingTokens.slice());
-                    res.push(...pendingTokens);
+                    pushAll(res, pendingTokens);
                     pendingTokens.length = 0;
                 }
 
diff --git a/src/utils/LlamaText.ts b/src/utils/LlamaText.ts
@@ -1,3 +1,4 @@
+import {pushAll} from "./pushAll.js";
 import type {InspectOptions, inspect as InspectFunction} from "node:util";
 import type {Token, Tokenizer} from "../types.js";
 
@@ -52,7 +53,7 @@ class LlamaText {
 
             if (i !== this.values.length - 1) {
                 if (isLlamaText(separator))
-                    newValues.push(...separator.values);
+                    pushAll(newValues, separator.values);
                 else
                     newValues.push(separator);
             }
@@ -98,16 +99,18 @@ class LlamaText {
 
         for (const value of this.values) {
             if (value instanceof SpecialToken) {
-                res.push(...tokenizer(textToTokenize, false, resolveTokenizerOptions()), ...value.tokenize(tokenizer));
+                pushAll(res, tokenizer(textToTokenize, false, resolveTokenizerOptions()));
+                pushAll(res, value.tokenize(tokenizer));
                 textToTokenize = "";
             } else if (value instanceof SpecialTokensText) {
-                res.push(...tokenizer(textToTokenize, false, resolveTokenizerOptions()), ...value.tokenize(tokenizer, hasContent() || options === "trimLeadingSpace"));
+                pushAll(res, tokenizer(textToTokenize, false, resolveTokenizerOptions()));
+                pushAll(res, value.tokenize(tokenizer, hasContent() || options === "trimLeadingSpace"));
                 textToTokenize = "";
             } else
                 textToTokenize += value;
         }
 
-        res.push(...tokenizer(textToTokenize, false, resolveTokenizerOptions()));
+        pushAll(res, tokenizer(textToTokenize, false, resolveTokenizerOptions()));
 
         return res;
     }
diff --git a/src/utils/TokenStreamRegulator.ts b/src/utils/TokenStreamRegulator.ts
@@ -1,5 +1,6 @@
 import {DisposedError} from "lifecycle-utils";
 import {Token, Tokenizer} from "../types.js";
+import {pushAll} from "./pushAll.js";
 
 export class TokenStreamRegulator {
     /** @internal */ private readonly _queue: QueuedTokenRelease[] = [];
@@ -16,7 +17,7 @@ export class TokenStreamRegulator {
         const res: Token[] = [];
 
         while (this._queue.length > 0 && this._queue[0].isFree)
-            res.push(...this._queue.shift()!.tokens);
+            pushAll(res, this._queue.shift()!.tokens);
 
         return res;
     }
@@ -60,7 +61,7 @@ export class TokenStreamRegulator {
                     if (resTokensText.length + tokenText.length > text.length) {
                         const remainingText = text.slice(resTokensText.length);
                         const remainingTokens = tokenizer(remainingText, false, "trimLeadingSpace");
-                        resTokens.push(...remainingTokens);
+                        pushAll(resTokens, remainingTokens);
                         break;
                     }
 
diff --git a/src/utils/pushAll.ts b/src/utils/pushAll.ts
@@ -0,0 +1,11 @@
+/**
+ * Pushes all items from the given array or set to the given array.
+ * @param array - The array to push the items to
+ * @param items - The items to push to the array
+ */
+export function pushAll<T>(array: T[], items: readonly T[] | ReadonlySet<T>): T[] {
+    for (const item of items)
+        array.push(item);
+
+    return array;
+}
diff --git a/templates/electron-typescript-react/electron/state/llmState.ts b/templates/electron-typescript-react/electron/state/llmState.ts
@@ -343,7 +343,9 @@ export const llmFunctions = {
                     signal: promptAbortController.signal,
                     stopOnAbortSignal: true,
                     onToken(chunk) {
-                        inProgressResponse.push(...chunk);
+                        for (const token of chunk)
+                            inProgressResponse.push(token);
+
                         llmState.state = {
                             ...llmState.state,
                             chatSession: {
diff --git a/test/modelDependent/llama3/chatSession.test.ts b/test/modelDependent/llama3/chatSession.test.ts
@@ -2,6 +2,7 @@ import {describe, expect, test} from "vitest";
 import {Llama3ChatWrapper, LlamaChatSession, Token} from "../../../src/index.js";
 import {getModelFile} from "../../utils/modelFiles.js";
 import {getTestLlama} from "../../utils/getTestLlama.js";
+import {pushAll} from "../../../src/utils/pushAll.js";
 
 describe("llama 3", () => {
     describe("chat session", () => {
@@ -27,7 +28,7 @@ describe("llama 3", () => {
                 signal: abortController.signal,
                 stopOnAbortSignal: true,
                 onToken(chunk) {
-                    tokens.push(...chunk);
+                    pushAll(tokens, chunk);
 
                     if (tokens.length >= 2)
                         abortController.abort();
diff --git a/test/modelDependent/llama3/grammar.test.ts b/test/modelDependent/llama3/grammar.test.ts
@@ -20,7 +20,7 @@ describe("llama 3", () => {
                     contextSequence: context.getSequence()
                 });
 
-                const grammar = new LlamaJsonSchemaGrammar(llama, {
+                const grammar = await llama.createGrammarForJsonSchema({
                     type: "object",
                     properties: {
                         "userMessagePositivityScoreFromOneToTen": {
@@ -33,7 +33,7 @@ describe("llama 3", () => {
                             }
                         }
                     }
-                } as const);
+                });
 
                 const res = await chatSession.prompt("It's great!", {
                     grammar

Original file line number	Diff line number	Diff line change
`@@ -20,7 +20,7 @@ describe("llama 3", () => {`
`20`	`20`	`contextSequence: context.getSequence()`
`21`	`21`	`});`
`22`	`22`
`23`		`- const grammar = new LlamaJsonSchemaGrammar(llama, {`
	`23`	`+ const grammar = await llama.createGrammarForJsonSchema({`
`24`	`24`	`type: "object",`
`25`	`25`	`properties: {`
`26`	`26`	`"userMessagePositivityScoreFromOneToTen": {`
`@@ -33,7 +33,7 @@ describe("llama 3", () => {`
`33`	`33`	`}`
`34`	`34`	`}`
`35`	`35`	`}`
`36`		`- } as const);`
	`36`	`+ });`
`37`	`37`
`38`	`38`	`const res = await chatSession.prompt("It's great!", {`
`39`	`39`	`grammar`