feat(gemma3_vl): add WORKSPACE variable for configurable checkpoint and results paths

yaoyu-33 · yaoyu-33 · commit 28a4d39d3a65 · 2026-01-28T11:59:41.000-08:00
diff --git a/examples/models/vlm/gemma3_vl/README.md b/examples/models/vlm/gemma3_vl/README.md
@@ -2,6 +2,18 @@
 
 This directory contains examples for Gemma 3 Vision Language Model, including checkpoint conversion, inference, and fine-tuning.
 
+## Workspace Configuration
+
+All scripts use a `WORKSPACE` environment variable to define the base directory for checkpoints and results. By default, this is set to `/workspace`. You can override it:
+
+```bash
+export WORKSPACE=/your/custom/path
+```
+
+Directory structure:
+- `${WORKSPACE}/models/` - Converted checkpoints
+- `${WORKSPACE}/results/` - Training outputs and experiment results
+
 ## Checkpoint Conversion
 
 See the [conversion.sh](conversion.sh) script for commands to:
diff --git a/examples/models/vlm/gemma3_vl/conversion.sh b/examples/models/vlm/gemma3_vl/conversion.sh
@@ -1,13 +1,16 @@
+# Workspace directory for checkpoints and results
+WORKSPACE=${WORKSPACE:-/workspace}
+
 # Import HF → Megatron
 uv run python examples/conversion/convert_checkpoints.py import \
     --hf-model google/gemma-3-4b-it \
-    --megatron-path /models/gemma-3-4b-it
+    --megatron-path ${WORKSPACE}/models/gemma-3-4b-it
 
 # Export Megatron → HF
 uv run python examples/conversion/convert_checkpoints.py export \
     --hf-model google/gemma-3-4b-it \
-    --megatron-path /models/gemma-3-4b-it/iter_0000000 \
-    --hf-path /models/gemma-3-4b-it-hf-export
+    --megatron-path ${WORKSPACE}/models/gemma-3-4b-it/iter_0000000 \
+    --hf-path ${WORKSPACE}/models/gemma-3-4b-it-hf-export
 
 # Round-trip validation
 uv run python -m torch.distributed.run --nproc_per_node=8 examples/conversion/hf_megatron_roundtrip_multi_gpu.py \
diff --git a/examples/models/vlm/gemma3_vl/inference.sh b/examples/models/vlm/gemma3_vl/inference.sh
@@ -1,3 +1,6 @@
+# Workspace directory for checkpoints and results
+WORKSPACE=${WORKSPACE:-/workspace}
+
 # Inference with Hugging Face checkpoints
 uv run torchrun --nproc_per_node=4 examples/conversion/hf_to_megatron_generate_vlm.py \
     --hf_model_path google/gemma-3-4b-it \
@@ -10,7 +13,7 @@ uv run torchrun --nproc_per_node=4 examples/conversion/hf_to_megatron_generate_v
 # Inference with imported Megatron checkpoints
 uv run torchrun --nproc_per_node=4 examples/conversion/hf_to_megatron_generate_vlm.py \
     --hf_model_path google/gemma-3-4b-it \
-    --megatron_model_path /models/gemma-3-4b-it/iter_0000000 \
+    --megatron_model_path ${WORKSPACE}/models/gemma-3-4b-it/iter_0000000 \
     --image_path "https://huggingface.co/nvidia/NVIDIA-Nemotron-Nano-12B-v2-VL-BF16/resolve/main/images/table.png" \
     --prompt "Describe this image." \
     --max_new_tokens 100 \
@@ -19,7 +22,7 @@ uv run torchrun --nproc_per_node=4 examples/conversion/hf_to_megatron_generate_v
 
 # Inference with exported HF checkpoints
 uv run torchrun --nproc_per_node=4 examples/conversion/hf_to_megatron_generate_vlm.py \
-    --hf_model_path /models/gemma-3-4b-it-hf-export \
+    --hf_model_path ${WORKSPACE}/models/gemma-3-4b-it-hf-export \
     --image_path "https://huggingface.co/nvidia/NVIDIA-Nemotron-Nano-12B-v2-VL-BF16/resolve/main/images/table.png" \
     --prompt "Describe this image." \
     --max_new_tokens 100 \
diff --git a/examples/models/vlm/gemma3_vl/peft.sh b/examples/models/vlm/gemma3_vl/peft.sh
@@ -1,5 +1,8 @@
+# Workspace directory for checkpoints and results
+WORKSPACE=${WORKSPACE:-/workspace}
+
 # Common configurations
-PRETRAINED_CHECKPOINT=/models/gemma-3-4b-it
+PRETRAINED_CHECKPOINT=${WORKSPACE}/models/gemma-3-4b-it
 MODEL_NAME=gemma3_vl_4b
 DATASET_NAME=cord_v2
 SEQ_LENGTH=4096
@@ -33,7 +36,7 @@ for config in "${PARALLELISM_CONFIGS[@]}"; do
         optimizer.lr=$LR \
         optimizer.min_lr=$MIN_LR \
         scheduler.lr_warmup_iters=$LR_WARMUP_ITERS \
-        checkpoint.save=/result/${MODEL_NAME}_lora_tp${TP}_pp${PP} \
+        checkpoint.save=${WORKSPACE}/results/${MODEL_NAME}_lora_tp${TP}_pp${PP} \
         logger.log_interval=$LOG_INTERVAL \
         logger.wandb_project=$WANDB_PROJECT \
         logger.wandb_exp_name=${MODEL_NAME}_${DATASET_NAME}_lora_tp${TP}_pp${PP} \
diff --git a/examples/models/vlm/gemma3_vl/sft.sh b/examples/models/vlm/gemma3_vl/sft.sh
@@ -1,5 +1,8 @@
+# Workspace directory for checkpoints and results
+WORKSPACE=${WORKSPACE:-/workspace}
+
 # Common configurations
-PRETRAINED_CHECKPOINT=/models/gemma-3-4b-it
+PRETRAINED_CHECKPOINT=${WORKSPACE}/models/gemma-3-4b-it
 MODEL_NAME=gemma3_vl_4b
 DATASET_NAME=cord_v2
 SEQ_LENGTH=4096
@@ -32,7 +35,7 @@ for config in "${PARALLELISM_CONFIGS[@]}"; do
         optimizer.lr=$LR \
         optimizer.min_lr=$MIN_LR \
         scheduler.lr_warmup_iters=$LR_WARMUP_ITERS \
-        checkpoint.save=/result/${MODEL_NAME}_sft_tp${TP}_pp${PP} \
+        checkpoint.save=${WORKSPACE}/results/${MODEL_NAME}_sft_tp${TP}_pp${PP} \
         logger.log_interval=$LOG_INTERVAL \
         logger.wandb_project=$WANDB_PROJECT \
         logger.wandb_exp_name=${MODEL_NAME}_${DATASET_NAME}_sft_tp${TP}_pp${PP} \