add version, auto unload

wsmlby · wsmlby · commit 9938d9231dae · 2025-08-10T02:35:36.000-07:00
diff --git a/.github/workflows/build-publish.yml b/.github/workflows/build-publish.yml
@@ -63,7 +63,9 @@ jobs:
       - name: Build and Push HoML Server CPU Image
         working-directory: ./server
         run: |
+          VERSION=${GITHUB_REF##*/}
           docker buildx build \
+            --build-arg HOML_SERVER_VERSION=$VERSION \
             -t ghcr.io/${{ github.repository_owner }}/homl/server:latest-cpu \
             -f Dockerfile.cpu.app \
             . \
@@ -91,7 +93,9 @@ jobs:
       - name: Build and Push HoML Server CUDA Image
         working-directory: ./server
         run: |
+          VERSION=${GITHUB_REF##*/}
           docker buildx build \
+            --build-arg HOML_SERVER_VERSION=$VERSION \
             -t ghcr.io/${{ github.repository_owner }}/homl/server:latest-cuda \
             -f Dockerfile.cuda \
             . \
@@ -118,7 +122,9 @@ jobs:
       - name: Build and Push HoML Server CUDA Image
         working-directory: ./server
         run: |
+          VERSION=${GITHUB_REF##*/}
           docker buildx build \
+            --build-arg HOML_SERVER_VERSION=$VERSION \
             -t ghcr.io/${{ github.repository_owner }}/homl/server:latest-cuda-gptoss \
             -f Dockerfile.cuda-gptoss \
             . \
diff --git a/.gitignore b/.gitignore
@@ -205,3 +205,4 @@ cython_debug/
 marimo/_static/
 marimo/_lsp/
 __marimo__/
+cli/homl_cli/__version.txt
diff --git a/cli/build.sh b/cli/build.sh
@@ -22,11 +22,17 @@ ENTRY_POINT="homl_cli/main.py"
 DATA_FILE="homl_cli/docker-compose.yml.template"
 # The binary will be named 'homl'
 BINARY_NAME="homl"
+if [ -z "$CLI_VERSION" ]; then
+    # If CLI_VERSION is not set, default to 'dev'
+    CLI_VERSION="dev"
+fi
+echo "$CLI_VERSION" > homl_cli/__version.txt
 
 pyinstaller \
     --name "$BINARY_NAME" \
     --onefile \
     --console \
+    --add-data "homl_cli/__version.txt:." \
     --add-data "$DATA_FILE:." \
     "$ENTRY_POINT"
 
diff --git a/cli/homl_cli/daemon_pb2.py b/cli/homl_cli/daemon_pb2.py
diff --git a/cli/homl_cli/daemon_pb2_grpc.py b/cli/homl_cli/daemon_pb2_grpc.py
@@ -60,6 +60,11 @@ def __init__(self, channel):
                 request_serializer=daemon__pb2.ListLocalModelsRequest.SerializeToString,
                 response_deserializer=daemon__pb2.ListLocalModelsResponse.FromString,
                 _registered_method=True)
+        self.Version = channel.unary_unary(
+                '/homl.Daemon/Version',
+                request_serializer=daemon__pb2.VersionRequest.SerializeToString,
+                response_deserializer=daemon__pb2.VersionResponse.FromString,
+                _registered_method=True)
 
 
 class DaemonServicer(object):
@@ -101,6 +106,12 @@ def ListLocalModels(self, request, context):
         context.set_details('Method not implemented!')
         raise NotImplementedError('Method not implemented!')
 
+    def Version(self, request, context):
+        """Missing associated documentation comment in .proto file."""
+        context.set_code(grpc.StatusCode.UNIMPLEMENTED)
+        context.set_details('Method not implemented!')
+        raise NotImplementedError('Method not implemented!')
+
 
 def add_DaemonServicer_to_server(servicer, server):
     rpc_method_handlers = {
@@ -129,6 +140,11 @@ def add_DaemonServicer_to_server(servicer, server):
                     request_deserializer=daemon__pb2.ListLocalModelsRequest.FromString,
                     response_serializer=daemon__pb2.ListLocalModelsResponse.SerializeToString,
             ),
+            'Version': grpc.unary_unary_rpc_method_handler(
+                    servicer.Version,
+                    request_deserializer=daemon__pb2.VersionRequest.FromString,
+                    response_serializer=daemon__pb2.VersionResponse.SerializeToString,
+            ),
     }
     generic_handler = grpc.method_handlers_generic_handler(
             'homl.Daemon', rpc_method_handlers)
@@ -275,3 +291,30 @@ def ListLocalModels(request,
             timeout,
             metadata,
             _registered_method=True)
+
+    @staticmethod
+    def Version(request,
+            target,
+            options=(),
+            channel_credentials=None,
+            call_credentials=None,
+            insecure=False,
+            compression=None,
+            wait_for_ready=None,
+            timeout=None,
+            metadata=None):
+        return grpc.experimental.unary_unary(
+            request,
+            target,
+            '/homl.Daemon/Version',
+            daemon__pb2.VersionRequest.SerializeToString,
+            daemon__pb2.VersionResponse.FromString,
+            options,
+            channel_credentials,
+            insecure,
+            call_credentials,
+            compression,
+            wait_for_ready,
+            timeout,
+            metadata,
+            _registered_method=True)
diff --git a/cli/homl_cli/main.py b/cli/homl_cli/main.py
@@ -63,6 +63,26 @@ def auth():
 main.add_command(auth)
 main.add_command(server)
 
+@main.command()
+def version():
+    """Show CLI and server version."""
+    version_file = get_resource_path("__version.txt")
+    cli_version = "dev"
+    if version_file.exists():
+        with open(version_file, 'r') as f:
+            cli_version = f.read().strip()
+    click.echo(f"HoML CLI version: {cli_version}")
+    # Try to get server version via gRPC
+    stub = get_client_stub()
+    if stub:
+        try:
+            resp = stub.Version(daemon_pb2.VersionRequest())
+            click.echo(f"HoML Server version: {resp.version}")
+        except Exception:
+            click.echo("HoML Server version: unavailable (gRPC error)")
+    else:
+        click.echo("HoML Server version: unavailable (daemon not running)")
+
 def check_and_install_docker():
     """Checks for Docker and Docker Compose and asks to install if missing."""
     # Check for 'docker' and 'docker compose' (not 'docker-compose')
@@ -305,6 +325,7 @@ def run(model_name):
     """Starts a model with the vLLM server."""
     stub = get_client_stub()
     if stub:
+        click.echo(f"Starting model '{model_name}' (vLLM is a bit slow to start)...")
         response = stub.StartModel(daemon_pb2.StartModelRequest(model_name=model_name))
         click.echo(response.message)
 
diff --git a/protos/daemon.proto b/protos/daemon.proto
@@ -22,9 +22,18 @@ service Daemon {
 
   // Lists locally available models.
   rpc ListLocalModels (ListLocalModelsRequest) returns (ListLocalModelsResponse) {}
+
+  rpc Version (VersionRequest) returns (VersionResponse) {}
 }
 
+
+
 // --- Messages ---
+message VersionRequest {
+}
+message VersionResponse {
+  string version = 1;
+}
 
 message PullModelRequest {
   string model_name = 1;
diff --git a/server/Dockerfile.cpu.app b/server/Dockerfile.cpu.app
@@ -19,6 +19,8 @@ RUN pip install -r requirements.txt
 # Copy our application source code
 COPY ./homl_server ./
 
+ARG HOML_SERVER_VERSION=dev
+ENV HOML_SERVER_VERSION=$HOML_SERVER_VERSION
 
 # Start the server directly from main.py
 CMD ["python3", "-u", "main.py"]
diff --git a/server/Dockerfile.cuda b/server/Dockerfile.cuda
@@ -21,6 +21,8 @@ COPY ./homl_server ./homl_server
 WORKDIR /app/homl_server
 # The base image exposes port 8000, so we don't need to do it again.
 # EXPOSE 8000
+ARG HOML_SERVER_VERSION=dev
+ENV HOML_SERVER_VERSION=$HOML_SERVER_VERSION
 
 # We overwrite the base image's entrypoint to run our custom Ray Serve
 # application, which provides dynamic model management.
diff --git a/server/Dockerfile.cuda-gptoss b/server/Dockerfile.cuda-gptoss
@@ -22,6 +22,9 @@ WORKDIR /app/homl_server
 # The base image exposes port 8000, so we don't need to do it again.
 # EXPOSE 8000
 
+ARG HOML_SERVER_VERSION=dev
+ENV HOML_SERVER_VERSION=$HOML_SERVER_VERSION
+
 # We overwrite the base image's entrypoint to run our custom Ray Serve
 # application, which provides dynamic model management.
 ENTRYPOINT [ "python3", "-u", "main.py"]
diff --git a/server/homl_server/daemon_pb2.py b/server/homl_server/daemon_pb2.py
diff --git a/server/homl_server/daemon_pb2_grpc.py b/server/homl_server/daemon_pb2_grpc.py
diff --git a/server/homl_server/main.py b/server/homl_server/main.py