feat: add support for infill generation, ref #62

pminev · pminev · commit b1a90ab22264 · 2025-04-08T16:01:53.000+03:00
diff --git a/ac-local-plugin/code/LocalLlama.cpp b/ac-local-plugin/code/LocalLlama.cpp
@@ -207,12 +207,19 @@ struct LocalLlama {
 
     sc::StateGeneralInstance::OpRun::Return opRun(llama::Instance& instance, const sc::StateGeneralInstance::OpRun::Params& iparams) {
         auto& prompt = iparams.prompt.value();
+        auto& suffix = iparams.suffix.value();
         auto maxTokens = iparams.maxTokens.valueOr(0);
 
         auto& session = instance.startSession({});
 
         auto promptTokens = instance.model().vocab().tokenize(prompt, true, true);
-        session.setInitialPrompt(promptTokens);
+        if (suffix.empty()) {
+            session.setInitialPrompt(promptTokens);
+        } else{
+            auto suffixTokens = instance.model().vocab().tokenize(suffix, true, true);
+            session.setInitialPrompt({});
+            session.pushPrompt(promptTokens, suffixTokens);
+        }
 
         ac::llama::AntipromptManager antiprompt;
         for (auto& ap : iparams.antiprompts.value()) {
@@ -247,12 +254,19 @@ struct LocalLlama {
         const sc::StateGeneralInstance::OpStream::Params& iparams) {
 
         auto& prompt = iparams.prompt.value();
+        auto& suffix = iparams.suffix.value();
         auto maxTokens = iparams.maxTokens.valueOr(0);
 
         auto& session = instance.startSession({});
 
         auto promptTokens = instance.model().vocab().tokenize(prompt, true, true);
-        session.setInitialPrompt(promptTokens);
+        if (suffix.empty()) {
+            session.setInitialPrompt(promptTokens);
+        } else{
+            auto suffixTokens = instance.model().vocab().tokenize(suffix, true, true);
+            session.setInitialPrompt({});
+            session.pushPrompt(promptTokens, suffixTokens);
+        }
 
         ac::llama::AntipromptManager antiprompt;
         for (auto& ap : iparams.antiprompts.value()) {
diff --git a/ac-local-plugin/schema/ac/schema/LlamaCpp.hpp b/ac-local-plugin/schema/ac/schema/LlamaCpp.hpp
@@ -102,12 +102,14 @@ struct StateGeneralInstance {
 
     struct InferenceParams {
         Field<std::string> prompt;
+        Field<std::string> suffix = Default();
         Field<std::vector<std::string>> antiprompts = Default();
         Field<uint32_t> maxTokens = Default(0);
 
         template <typename Visitor>
         void visitFields(Visitor& v) {
             v(prompt, "prompt", "Prompt to complete");
+            v(suffix, "suffix", "Suffix of the prompt. Used for infill (code generation for example");
             v(antiprompts, "antiprompts", "Antiprompts to trigger stop");
             v(maxTokens, "max_tokens", "Maximum number of tokens to generate. 0 for unlimited");
         }
diff --git a/code/ac/llama/Session.cpp b/code/ac/llama/Session.cpp
@@ -86,28 +86,65 @@ void Session::setInitialPrompt(std::span<const Token> initialPrompt) {
     m_state.m_phase = State::Phase::Generating;
 }
 
-void Session::pushPrompt(std::span<const Token> prompt) {
+void Session::pushPrompt(std::span<const Token> prompt, std::span<const Token> postfix) {
     if (m_state.m_phase != State::Phase::Generating) {
         throw_ex{} << "Session hasn't started yet";
     }
 
     flushPendingState();
 
-    if (!prompt.empty()) {
-        auto& sampler = m_instance.sampler();
-        auto& model = m_instance.model();
+    if (prompt.empty() && postfix.empty()) {
+        throw_ex{} << "Prompt and postfix are empty";
+    }
+
+    auto& model = m_instance.model();
+    auto& sampler = m_instance.sampler();
+
+    // reset sampling and don't allow previous inputs to affect the generation
+    sampler.reset();
+
+    std::vector<Token> tokens;
+    constexpr uint32_t maxAdditionalTokens = 4; // bos + fim_pre + fim_suf + fim_mid
+    tokens.reserve(prompt.size() + postfix.size() + maxAdditionalTokens);
 
-        // reset sampling and don't allow previous inputs to affect the generation
-        sampler.reset();
+    if (model.prefixInputsWithBos()) {
+        const auto tokenBos = llama_vocab_bos(model.vocab().lvocab());
+        tokens.push_back(tokenBos);
+    }
 
-        if (model.prefixInputsWithBos()) {
-            const auto tokenBos = llama_vocab_bos(model.vocab().lvocab());
-            // add bos token to the prompt
-            doDecode({&tokenBos, 1}, Source::InteractivePrompt);
+    auto safeAddToken = [&](Token token, const std::string& tokenName) {
+        if (token >= 0) {
+            tokens.push_back(token);
+        } else {
+            LLAMA_LOG(Warning, "Model doesn't have a ", tokenName," token");
         }
+    };
+
+    if (!postfix.empty()) {
+        auto tokenFIMPre = llama_vocab_fim_pre(model.vocab().lvocab());
+        safeAddToken(tokenFIMPre, "FIM Prefix");
+    }
+
+    if (!prompt.empty()) {
+        tokens.insert(tokens.end(), prompt.begin(), prompt.end());
+    }
+
+    if (!postfix.empty()) {
+        auto tokenFIMSuff = llama_vocab_fim_suf(model.vocab().lvocab());
+        safeAddToken(tokenFIMSuff, "FIM Suffix");
 
-        doDecode(prompt, Source::InteractivePrompt);
+        tokens.insert(tokens.end(), postfix.begin(), postfix.end());
+
+        auto tkoenFIMMid = llama_vocab_fim_mid(model.vocab().lvocab());
+        safeAddToken(tkoenFIMMid, "FIM Middle");
     }
+
+    if (tokens.size() > m_state.maxTokens) {
+        const auto ctxLen = llama_n_ctx(m_ctx);
+        throw_ex{} << "Prompt too long. Got " << tokens.size() << " tokens, max: " << ctxLen - 4;
+    }
+
+    doDecode(tokens, Source::InteractivePrompt);
 }
 
 Token Session::getToken() {
diff --git a/code/ac/llama/Session.hpp b/code/ac/llama/Session.hpp
@@ -35,7 +35,7 @@ class Session {
     bool setState(std::span<uint8_t> state);
 
     // main functions to interact with the model
-    void pushPrompt(std::span<const Token> prompt);
+    void pushPrompt(std::span<const Token> prompt, std::span<const Token> postfix = {});
     Token getToken();
     TokenDataVector getSampledTokenData(int32_t topK, float topP = 0.95f);
     std::vector<uint8_t> getState();
diff --git a/example/CMakeLists.txt b/example/CMakeLists.txt
@@ -13,6 +13,7 @@ endfunction()
 
 add_example(basic)
 add_example(embedding)
+add_example(infill)
 
 CPMAddPackage(gh:alpaca-core/helper-imgui-sdl@1.0.0)
 if(TARGET ac-dev::imgui-sdl-app)
diff --git a/example/e-infill.cpp b/example/e-infill.cpp
@@ -0,0 +1,76 @@
+// Copyright (c) Alpaca Core
+// SPDX-License-Identifier: MIT
+//
+
+// Code completion Example of using alpaca-core's llama inference
+
+// llama
+#include <ac/llama/Init.hpp>
+#include <ac/llama/Model.hpp>
+#include <ac/llama/Instance.hpp>
+#include <ac/llama/Session.hpp>
+#include <ac/llama/ResourceCache.hpp>
+
+// logging
+#include <ac/jalog/Instance.hpp>
+#include <ac/jalog/sinks/ColorSink.hpp>
+
+// model source directory
+#include "ac-test-data-llama-dir.h"
+
+#include <iostream>
+#include <string>
+
+int main() try {
+    ac::jalog::Instance jl;
+    jl.setup().add<ac::jalog::sinks::ColorSink>();
+
+    // initialize the library
+    ac::llama::initLibrary();
+
+    // load model
+    // download better model for good code completion results such as
+    // https://huggingface.co/Qwen/Qwen2.5-Coder-3B-Instruct-GGUF/tree/main
+    // std::string modelGguf = AC_TEST_DATA_LLAMA_DIR "/../../../models/qwen2.5-coder-3b-instruct-q8_0.gguf";
+    std::string modelGguf = AC_TEST_DATA_LLAMA_DIR "/gpt2-117m-q6_k.gguf";
+
+    ac::local::ResourceManager rm;
+    ac::llama::ResourceCache cache(rm);
+    auto model = cache.getModel({.gguf = modelGguf, .params = {}});
+
+    // create inference instance
+    ac::llama::Instance instance(*model, {});
+
+    // start session
+    auto& session = instance.startSession({});
+    session.setInitialPrompt({});
+
+    std::string input_prefix = "def helloworld():\n    print(\"hell";
+    std::string input_suffix = "\n    print(\"goodbye world\")\n";
+    std::cout << "<prefix>\n" << input_prefix << "\n</prefix> +\n <place_to_fill> + \n" << "<postfix>\n" << input_suffix << "\n</postfix>\n";
+
+    session.pushPrompt(
+        model->vocab().tokenize(input_prefix, true, true),
+        model->vocab().tokenize(input_suffix, true, true));
+
+    std::cout << "Final result: \n" << input_prefix;
+
+    // generate and print 100 tokens
+    for (int i = 0; i < 100; ++i) {
+        auto token = session.getToken();
+        if (token == ac::llama::Token_Invalid) {
+            // no more tokens
+            break;
+        }
+
+        auto str = model->vocab().tokenToString(token);
+        std::cout << str;
+    }
+    std::cout << input_suffix << "\n";
+
+    return 0;
+}
+catch (const std::exception& e) {
+    std::cerr << "Error: " << e.what() << std::endl;
+    return 1;
+}