Update server.cpp

BradHutchings · web-flow · commit 5b92c34a586e · 2025-04-19T12:08:37.000-07:00
Added my fixes back in after merge from upstream.

Signed-off-by: Brad Hutchings &lt;brad@componentx.com&gt;
diff --git a/examples/server/server.cpp b/examples/server/server.cpp
@@ -31,6 +31,12 @@
 #include <unordered_map>
 #include <unordered_set>
 
+// llama-server-one START
+#ifdef COSMOCC
+#include <cosmo.h>
+#endif
+// llama-server-one END
+
 using json = nlohmann::ordered_json;
 
 constexpr int HTTP_POLLING_SECONDS = 1;
@@ -1596,13 +1602,15 @@ struct server_queue {
         return 0;
     }
 
+    // llama-server-one START - defer() --> defer_task() to make Cosmo STL happy.
     // Add a new task, but defer until one slot is available
-    void defer(server_task && task) {
+    void defer_task(server_task task) {
         std::unique_lock<std::mutex> lock(mutex_tasks);
         QUE_DBG("defer task, id = %d\n", task.id);
         queue_tasks_deferred.push_back(std::move(task));
         condition_tasks.notify_one();
     }
+    // llama-server-one END
 
     // Get the next id for creating a new task
     int get_new_id() {
@@ -2652,13 +2660,17 @@ struct server_context {
                     if (slot == nullptr) {
                         // if no slot is available, we defer this task for processing later
                         SRV_DBG("no slot is available, defer task, id_task = %d\n", task.id);
-                        queue_tasks.defer(std::move(task));
+                        // llama-server-one START
+                        queue_tasks.defer_task(task);
+                        // llama-server-one END
                         break;
                     }
                     if (slot->is_processing()) {
                         // if requested slot is unavailable, we defer this task for processing later
                         SRV_DBG("requested slot is unavailable, defer task, id_task = %d\n", task.id);
-                        queue_tasks.defer(std::move(task));
+                        // llama-server-one START
+                        queue_tasks.defer_task(task);
+                        // llama-server-one END
                         break;
                     }
 
@@ -2741,7 +2753,9 @@ struct server_context {
                     if (slot->is_processing()) {
                         // if requested slot is unavailable, we defer this task for processing later
                         SRV_DBG("requested slot is unavailable, defer task, id_task = %d\n", task.id);
-                        queue_tasks.defer(std::move(task));
+                        // llama-server-one START
+                        queue_tasks.defer_task(task);
+                        // llama-server-one END
                         break;
                     }
 
@@ -2777,7 +2791,9 @@ struct server_context {
                     if (slot->is_processing()) {
                         // if requested slot is unavailable, we defer this task for processing later
                         SRV_DBG("requested slot is unavailable, defer task, id_task = %d\n", task.id);
-                        queue_tasks.defer(std::move(task));
+                        // llama-server-one START
+                        queue_tasks.defer_task(task);
+                        // llama-server-one END
                         break;
                     }
 
@@ -2820,7 +2836,9 @@ struct server_context {
                     if (slot->is_processing()) {
                         // if requested slot is unavailable, we defer this task for processing later
                         SRV_DBG("requested slot is unavailable, defer task, id_task = %d\n", task.id);
-                        queue_tasks.defer(std::move(task));
+                        // llama-server-one START
+                        queue_tasks.defer_task(task);
+                        // llama-server-one END
                         break;
                     }
 
@@ -3402,15 +3420,51 @@ struct server_context {
     }
 
     json model_meta() const {
+        char general_architecture[64];
+        char general_type[64];
+        char general_name[64];
+        char general_version[64];
+        char general_finetune[64];
+        char general_basename[64];
+        char general_size_label[64];
+        char general_license[64];
+
+        general_architecture[0] = 0;
+        general_type[0] = 0;
+        general_name[0] = 0;
+        general_version[0] = 0;
+        general_finetune[0] = 0;
+        general_basename[0] = 0;
+        general_size_label[0] = 0;
+        general_license[0] = 0;
+
+        llama_model_meta_val_str(model, "general.architecture", general_architecture, 64);
+        llama_model_meta_val_str(model, "general.type", general_type, 64);
+        llama_model_meta_val_str(model, "general.name", general_name, 64);
+        llama_model_meta_val_str(model, "general.version",      general_version, 64);
+        llama_model_meta_val_str(model, "general.finetune",     general_finetune, 64);
+        llama_model_meta_val_str(model, "general.basename",     general_basename, 64);
+        llama_model_meta_val_str(model, "general.size_label",   general_size_label, 64);
+        llama_model_meta_val_str(model, "general.license",      general_license, 64);
+
         return json {
-            {"vocab_type",  llama_vocab_type       (vocab)},
-            {"n_vocab",     llama_vocab_n_tokens   (vocab)},
-            {"n_ctx_train", llama_model_n_ctx_train(model)},
-            {"n_embd",      llama_model_n_embd     (model)},
-            {"n_params",    llama_model_n_params   (model)},
-            {"size",        llama_model_size       (model)},
+            {"vocab_type",  llama_vocab_type            (vocab)},
+            {"n_vocab",     llama_vocab_n_tokens        (vocab)},
+            {"n_ctx_train", llama_n_ctx_train           (model)},
+            {"n_embd",      llama_n_embd                (model)},
+            {"n_params",    llama_model_n_params        (model)},
+            {"size",        llama_model_size            (model)},
+            {"general.architecture", general_architecture },
+            {"general.type", general_type },
+            {"general.name", general_name },
+            {"general.version", general_version },
+            {"general.finetune", general_finetune },
+            {"general.basename", general_basename },
+            {"general.size_label", general_size_label },
+            {"general.license", general_license },
         };
     }
+    // llama-server-one END
 };
 
 static void log_server_request(const httplib::Request & req, const httplib::Response & res) {
@@ -3442,6 +3496,40 @@ inline void signal_handler(int signal) {
 }
 
 int main(int argc, char ** argv) {
+    // llama-server-one START
+    // This implements an args file feature inspired by llamafile's.
+    #ifdef COSMOCC
+    // Keep the build from showing up as ape in the process list.
+    pthread_setname_np(pthread_self(), "llama-server-one");
+    
+    // Args files if present. The names are different to remove confusion during packaging.
+    const std::string& argsFilename = "llama-server-one-args";
+    const std::string& zipArgsFilename = "/zip/default-args";
+    struct stat buffer;
+
+    // At this point, argc, argv represent:
+    //     command (User supplied args)
+    
+    if (stat (argsFilename.c_str(), &buffer) == 0) {
+        argc = cosmo_args(argsFilename.c_str(), &argv);
+    }
+    
+    // At this point, argc, argv represent:
+    //     command (argsFilename args) (User supplied args)
+
+    if (stat (zipArgsFilename.c_str(), &buffer) == 0) {
+        argc = cosmo_args(zipArgsFilename.c_str(), &argv);
+    }
+
+    // At this point, argc, argv represent:
+    //     command (zipArgsFilename args) (argsFilename args) (User supplied args)
+    
+    // Yep, this is counterintuitive, but how the cosmo_args command works.
+    // argsFilename args override zipArgsFilename file args.
+    // User supplied args override argsFilename and zipArgsFilename args.
+    #endif
+    // llama-server-one END
+
     // own arguments required by this example
     common_params params;
 
@@ -4500,6 +4588,26 @@ int main(int argc, char ** argv) {
         }
     }
 
+    // llama-server-one START
+    svr->Get("/chat", [](const httplib::Request & req, httplib::Response & res) {
+        if (req.get_header_value("Accept-Encoding").find("gzip") == std::string::npos) {
+            res.set_content("Error: gzip is not supported by this browser", "text/plain");
+        } else {
+            res.set_header("Content-Encoding", "gzip");
+            // COEP and COOP headers, required by pyodide (python interpreter)
+            res.set_header("Cross-Origin-Embedder-Policy", "require-corp");
+            res.set_header("Cross-Origin-Opener-Policy", "same-origin");
+            res.set_content(reinterpret_cast<const char*>(index_html_gz), index_html_gz_len, "text/html; charset=utf-8");
+        }
+        return false;
+    });
+
+    svr->Get("/chat/", [](const httplib::Request &, httplib::Response & res) {
+        res.set_redirect("/chat");
+        return false;
+    });
+    // llama-server-one END
+
     // register API routes
     svr->Get ("/health",              handle_health); // public endpoint (no API key check)
     svr->Get ("/metrics",             handle_metrics);