fix

hiworldwzj · hiworldwzj · commit da5fd35f1e94 · 2025-07-08T07:52:59.000Z
diff --git a/lightllm/utils/envs_utils.py b/lightllm/utils/envs_utils.py
@@ -137,6 +137,12 @@ def get_redundancy_expert_update_max_load_count():
     return int(os.getenv("LIGHTLLM_REDUNDANCY_EXPERT_UPDATE_MAX_LOAD_COUNT", 1))
 
 
+# get_kv_quant_calibration_warmup_count 和 get_kv_quant_calibration_inference_count 是
+# 当模型以fp8 kv quant 的在线统计量化模式启动的时候使用的配置变量，用于在线校准fp8 kv 的scale
+# 校准完成后，保存为 .json 的配置文件，后续模型可以加载该配置文件，实现离线的fp8 kv 量化推理，
+# 提升 kv cache 对应的token容量。
+
+
 @lru_cache(maxsize=None)
 def get_kv_quant_calibration_warmup_count():
     # 服务启动后前warmup次推理不计入量化校准统计