Merge pull request #29 from msftnadavbh/fix/ptu-multiplier-and-docs

msftnadavbh · web-flow · commit 83301f3fc674 · 2026-02-12T12:20:34.000+02:00
fix: correct output multipliers for all previous Azure OpenAI models + docs 7d→30d
diff --git a/docs/USAGE_EXAMPLES.md b/docs/USAGE_EXAMPLES.md
@@ -439,24 +439,24 @@ The tool needs three required inputs: **RPM** (requests per minute), **avg input
 
 #### Option A — Azure CLI (no Log Analytics)
 
-Copy-paste this script — it queries the last 7 days and prints your three inputs:
+Copy-paste this script — it queries the last 30 days and prints your three inputs:
 
 ```bash
 # Replace {sub}, {rg}, {name} with your values
 RES="/subscriptions/{sub}/resourceGroups/{rg}/providers/Microsoft.CognitiveServices/accounts/{name}"
-START=$(date -u -d "7 days ago" +%Y-%m-%dT%H:%M:%SZ)
+START=$(date -u -d "30 days ago" +%Y-%m-%dT%H:%M:%SZ)
 END=$(date -u +%Y-%m-%dT%H:%M:%SZ)
 
 REQS=$(az monitor metrics list --resource "$RES" --metric AzureOpenAIRequests \
-  --aggregation Total --interval P7D --start-time "$START" --end-time "$END" \
+  --aggregation Total --interval P30D --start-time "$START" --end-time "$END" \
   --query "value[0].timeseries[0].data[0].total" -o tsv)
 
 INPUT=$(az monitor metrics list --resource "$RES" --metric ProcessedPromptTokens \
-  --aggregation Total --interval P7D --start-time "$START" --end-time "$END" \
+  --aggregation Total --interval P30D --start-time "$START" --end-time "$END" \
   --query "value[0].timeseries[0].data[0].total" -o tsv)
 
 OUTPUT=$(az monitor metrics list --resource "$RES" --metric GeneratedTokens \
-  --aggregation Total --interval P7D --start-time "$START" --end-time "$END" \
+  --aggregation Total --interval P30D --start-time "$START" --end-time "$END" \
   --query "value[0].timeseries[0].data[0].total" -o tsv)
 
 PEAK=$(az monitor metrics list --resource "$RES" --metric AzureOpenAIRequests \
@@ -476,7 +476,7 @@ Enable diagnostic settings on your OpenAI resource → send to Log Analytics, th
 ```kql
 AzureMetrics
 | where ResourceProvider == "MICROSOFT.COGNITIVESERVICES"
-| where TimeGenerated >= ago(7d)
+| where TimeGenerated >= ago(30d)
 | summarize
     TotalRequests   = sumif(Total, MetricName == "AzureOpenAIRequests"),
     TotalInputTok   = sumif(Total, MetricName == "ProcessedPromptTokens"),
diff --git a/src/azure_pricing_mcp/services/ptu_models.py b/src/azure_pricing_mcp/services/ptu_models.py
@@ -58,7 +58,10 @@
 #   - gpt-5 family: explicitly documented as 8× (1 output = 8 input tokens)
 #   - gpt-4.1 family: explicitly documented as 4× (1 output = 4 input tokens)
 #   - Llama-3.3-70B-Instruct: explicitly documented as 4× (exception to pricing ratio)
-#   - Older models / others: inferred from pricing ratios where not explicitly stated
+#   - Previous Azure OpenAI models (gpt-4o, gpt-4o-mini): 3× (verified via
+#     Foundry calculator and official MS docs example tables)
+#   - o3-mini, o1: assumed 3× (same "previous model" category; docs say
+#     "older models use a different ratio" without specifying)
 # ---------------------------------------------------------------------------
 
 PTU_MODEL_TABLE: dict[str, dict] = {
@@ -154,31 +157,31 @@
     # ── Previous Azure OpenAI models ────────────────────────────────────
     "gpt-4o": {
         "input_tpm_per_ptu": 2_500,
-        "output_multiplier": 4,
+        "output_multiplier": 3,  # Verified via Foundry calculator; older model, different ratio
         "global_min_ptus": 15,
         "global_increment": 5,
         "regional_min_ptus": 50,
         "regional_increment": 50,
     },
     "gpt-4o-mini": {
         "input_tpm_per_ptu": 37_000,
-        "output_multiplier": 4,
+        "output_multiplier": 3,  # Verified via official MS docs example table (latency page)
         "global_min_ptus": 15,
         "global_increment": 5,
         "regional_min_ptus": 25,
         "regional_increment": 25,
     },
     "o3-mini": {
         "input_tpm_per_ptu": 2_500,
-        "output_multiplier": 4,
+        "output_multiplier": 3,  # Previous model; docs: "older models use a different ratio"
         "global_min_ptus": 15,
         "global_increment": 5,
         "regional_min_ptus": 25,
         "regional_increment": 25,
     },
     "o1": {
         "input_tpm_per_ptu": 230,
-        "output_multiplier": 4,
+        "output_multiplier": 3,  # Previous model; docs: "older models use a different ratio"
         "global_min_ptus": 15,
         "global_increment": 5,
         "regional_min_ptus": 25,