gemma changes (#417)

dsingal0 · web-flow · commit 3fb446ac4407 · 2025-03-12T11:32:20.000-07:00
diff --git a/gemma/gemma-3-27b-it/config.yaml b/gemma/gemma-3-27b-it/config.yaml
@@ -1,7 +1,7 @@
 base_image:
-  image: public.ecr.aws/q9t5s3a7/vllm-ci-test-repo:d3286757f63d1baeccb34cb7dd272cfdc87e0952
+  image: public.ecr.aws/q9t5s3a7/vllm-ci-postmerge-repo:f5d3acd47466f094beb36f7a5d05520466713f93
 build_commands:
-  - pip install git+https://github.com/huggingface/transformers@994cad2790af71d87c1cdd459a8484dada2c7115
+  - pip install git+https://github.com/huggingface/transformers@071a161d3e38f56dbda2743b979f0afeed2cd4f1
 model_metadata:
   repo_id: google/gemma-3-27b-it
   example_model_input: {
@@ -27,6 +27,8 @@ model_metadata:
     "max_tokens": 512,
     "temperature": 0.5
   }
+  tags:
+  - openai-compatible
 docker_server:
   start_command: sh -c "VLLM_USE_V1=1 HF_TOKEN=$(cat /secrets/hf_access_token) vllm
     serve google/gemma-3-27b-it --served-model-name gemma --max-num-seqs 8 --max-model-len
@@ -45,6 +47,8 @@ requirements:
 resources:
   accelerator: H100
   use_gpu: true
+secrets:
+  hf_access_token: null
 runtime:
   health_checks:
     restart_check_delay_seconds: 300      # Waits 5 minutes after deployment before starting health checks