如何进一步拓展上下文长度？ #1112

vibe-Chen · 2025-04-10T16:22:01Z

vibe-Chen
Apr 10, 2025

使用 .\server\main.py 部署DeepSeek-R1-671B-Q4的时候，遇到了一个令人困扰的问题：我通过 Chatbox 在同一个会话里向api前前后后发了13次请求，后端显示input tokens的长度累积到了6698；而在模型尝试回应请求的时候，后端似乎碰到了一个8192 tokens的限制（input tokens也包含在内）。

.\server\main.py 的完整启动命令如下：
conda activate .\pyhton
python .\ktransformers\ktransformers\server\main.py --model_path .\config --gguf_path .\Model --cpu_infer 32 --max_new_tokens 2048 --port 10086 --force_think

是否有某种办法，能够解除这个8192 tokens的限制？
这些tokens消耗哪种类型的资源？ ~~遗憾的是，消耗的似乎是我已经所剩无几的VRAM~~
~~人机分离，暂时没有附图~~

vibe-Chen · 2025-04-10T17:15:05Z

vibe-Chen
Apr 10, 2025
Author

看了眼截图，是cache_lens这个参数，也确实吃VRAM ~~甚至诱发了个bug~~
图就不贴了，贴出来不太合适

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

如何进一步拓展上下文长度？ #1112

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

如何进一步拓展上下文长度？ #1112

Uh oh!

vibe-Chen Apr 10, 2025

Replies: 1 comment

Uh oh!

vibe-Chen Apr 10, 2025 Author

vibe-Chen
Apr 10, 2025

vibe-Chen
Apr 10, 2025
Author