feat: expose ModelRegistry to the plugin, ref #13

pminev · pminev · commit 1896c730a2cc · 2024-12-06T15:30:56.000+02:00
diff --git a/ac-local-plugin/code/LocalLlama.cpp b/ac-local-plugin/code/LocalLlama.cpp
@@ -236,9 +236,14 @@ class LlamaModel final : public Model {
 public:
 
     LlamaModel(const std::string& gguf, std::span<std::string> loras, std::vector<llama::ControlVector::LoadInfo>& ctrlVectors, llama::ModelLoadProgressCb pcb, llama::Model::Params params)
-        : m_model(std::make_shared<llama::Model>(llama::Model(gguf.c_str(), loras, astl::move(pcb), astl::move(params))))
+        : m_model(std::make_shared<llama::Model>(llama::ModelRegistry::getInstance().loadModel(gguf.c_str(), astl::move(pcb), params), astl::move(params)))
         , m_ctrlVectors(astl::move(ctrlVectors))
-    {}
+    {
+        for(auto& loraPath: loras) {
+            auto lora = llama::ModelRegistry::getInstance().loadLora(m_model.get(), loraPath);
+            m_model->addLora(lora);;
+        }
+    }
 
     virtual std::unique_ptr<Instance> createInstance(std::string_view type, Dict params) override {
         ac::llama::ControlVector ctrlVector(*m_model, m_ctrlVectors);
diff --git a/code/ac/llama/Model.cpp b/code/ac/llama/Model.cpp
@@ -34,19 +34,10 @@ llama_model_params llamaFromModelParams(const Model::Params& params, ModelLoadPr
 } // namespace
 
 
-Model::Model(const char* pathToGguf, std::span<std::string> loras, ModelLoadProgressCb loadProgressCb, Params params)
-    : m_params(astl::move(params))
-{
-    m_lmodel = ModelRegistry::getInstance().loadModel(pathToGguf, std::move(loadProgressCb), m_params);
-    if (!m_lmodel) {
-        throw std::runtime_error("Failed to load model");
-    }
-
-    for(auto& loraPath: loras) {
-        auto lora = ModelRegistry::getInstance().loadLora(this, loraPath);
-        m_loras.push_back(lora);
-    }
-}
+Model::Model(std::shared_ptr<llama_model> lmodel, Params params)
+    : m_lmodel(std::move(lmodel))
+    , m_params(astl::move(params))
+{}
 
 Model::~Model() = default;
 
diff --git a/code/ac/llama/Model.hpp b/code/ac/llama/Model.hpp
@@ -26,7 +26,7 @@ class AC_LLAMA_EXPORT Model {
         bool prefixInputsWithBos = false; // add bos token to interactive inputs (#13)
     };
 
-    Model(const char* pathToGguf, std::span<std::string> loras, ModelLoadProgressCb loadProgressCb, Params params);
+    Model(std::shared_ptr<llama_model> model, Params params);
     ~Model();
 
     const Params& params() const noexcept { return m_params; }
@@ -57,7 +57,7 @@ class AC_LLAMA_EXPORT Model {
     Vocab m_vocab{*this};
 };
 
-class ModelRegistry {
+class AC_LLAMA_EXPORT ModelRegistry {
 public:
     static ModelRegistry& getInstance() {
         static ModelRegistry instance;
diff --git a/example/e-basic.cpp b/example/e-basic.cpp
@@ -45,7 +45,8 @@ int main() try {
         }
         return true;
     };
-    ac::llama::Model model(modelGguf.c_str(), {}, modelLoadProgressCallback, modelParams);
+    auto lmodel = ac::llama::ModelRegistry::getInstance().loadModel(modelGguf, modelLoadProgressCallback, modelParams);
+    ac::llama::Model model(lmodel, modelParams);
 
 
     // create inference instance
diff --git a/example/e-gui.cpp b/example/e-gui.cpp
@@ -61,7 +61,7 @@ class UModel {
     class State {
     public:
         State(const std::string& ggufPath, const ac::llama::Model::Params& modelParams)
-            : m_model(ggufPath.c_str(), {}, printModelLoadProgress, modelParams)
+            : m_model(ac::llama::ModelRegistry::getInstance().loadModel(ggufPath.c_str(), printModelLoadProgress, modelParams), modelParams)
         {}
 
         class Instance {
diff --git a/test/t-integration.cpp b/test/t-integration.cpp
@@ -22,7 +22,9 @@ GlobalFixture globalFixture;
 const char* Model_117m_q6_k = AC_TEST_DATA_LLAMA_DIR "/gpt2-117m-q6_k.gguf";
 
 TEST_CASE("vocab only") {
-    ac::llama::Model model(Model_117m_q6_k, {}, {}, { .vocabOnly = true });
+    ac::llama::Model::Params iParams = { .vocabOnly = true };
+    auto lmodel = ac::llama::ModelRegistry::getInstance().loadModel(Model_117m_q6_k, {}, iParams);
+    ac::llama::Model model(lmodel, iParams);
     CHECK(!!model.lmodel());
 
     auto& params = model.params();
@@ -40,7 +42,9 @@ TEST_CASE("vocab only") {
 }
 
 TEST_CASE("inference") {
-    ac::llama::Model model(Model_117m_q6_k, {}, {}, {});
+    ac::llama::Model::Params iParams = {};
+    auto lmodel = ac::llama::ModelRegistry::getInstance().loadModel(Model_117m_q6_k, {}, iParams);
+    ac::llama::Model model(lmodel, iParams);
     CHECK(!!model.lmodel());
 
     auto& params = model.params();

Original file line number	Diff line number	Diff line change
`@@ -45,7 +45,8 @@ int main() try {`
`45`	`45`	`}`
`46`	`46`	`return true;`
`47`	`47`	`};`
`48`		`- ac::llama::Model model(modelGguf.c_str(), {}, modelLoadProgressCallback, modelParams);`
	`48`	`+ auto lmodel = ac::llama::ModelRegistry::getInstance().loadModel(modelGguf, modelLoadProgressCallback, modelParams);`
	`49`	`+ ac::llama::Model model(lmodel, modelParams);`
`49`	`50`
`50`	`51`
`51`	`52`	`// create inference instance`