fix: all previous-model output multipliers → 3 (gpt-4o-mini, o3-mini, o1)

msftnadavbh · msftnadavbh · commit aa3c4c3c49b0 · 2026-02-12T10:37:07.000+02:00
gpt-4o-mini: verified via official MS docs example table on latency page
  (RPM=1000, prompt=5000, completion=50 → 140 PTUs only works with 3×)
o3-mini, o1: same 'previous model' category; docs state 'older models
  use a different ratio' — aligned with verified models.

gpt-4o was already fixed in prior commit (verified via Foundry calculator).
diff --git a/src/azure_pricing_mcp/services/ptu_models.py b/src/azure_pricing_mcp/services/ptu_models.py
@@ -58,7 +58,10 @@
 #   - gpt-5 family: explicitly documented as 8× (1 output = 8 input tokens)
 #   - gpt-4.1 family: explicitly documented as 4× (1 output = 4 input tokens)
 #   - Llama-3.3-70B-Instruct: explicitly documented as 4× (exception to pricing ratio)
-#   - Older models / others: inferred from pricing ratios where not explicitly stated
+#   - Previous Azure OpenAI models (gpt-4o, gpt-4o-mini): 3× (verified via
+#     Foundry calculator and official MS docs example tables)
+#   - o3-mini, o1: assumed 3× (same "previous model" category; docs say
+#     "older models use a different ratio" without specifying)
 # ---------------------------------------------------------------------------
 
 PTU_MODEL_TABLE: dict[str, dict] = {
@@ -162,23 +165,23 @@
     },
     "gpt-4o-mini": {
         "input_tpm_per_ptu": 37_000,
-        "output_multiplier": 4,
+        "output_multiplier": 3,  # Verified via official MS docs example table (latency page)
         "global_min_ptus": 15,
         "global_increment": 5,
         "regional_min_ptus": 25,
         "regional_increment": 25,
     },
     "o3-mini": {
         "input_tpm_per_ptu": 2_500,
-        "output_multiplier": 4,
+        "output_multiplier": 3,  # Previous model; docs: "older models use a different ratio"
         "global_min_ptus": 15,
         "global_increment": 5,
         "regional_min_ptus": 25,
         "regional_increment": 25,
     },
     "o1": {
         "input_tpm_per_ptu": 230,
-        "output_multiplier": 4,
+        "output_multiplier": 3,  # Previous model; docs: "older models use a different ratio"
         "global_min_ptus": 15,
         "global_increment": 5,
         "regional_min_ptus": 25,