如何进一步拓展上下文长度?
#1112
Replies: 1 comment
-
看了眼截图,是cache_lens这个参数,也确实吃VRAM |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
使用 .\server\main.py 部署DeepSeek-R1-671B-Q4的时候,遇到了一个令人困扰的问题:我通过 Chatbox 在同一个会话里向api前前后后发了13次请求,后端显示input tokens的长度累积到了6698;而在模型尝试回应请求的时候,后端似乎碰到了一个8192 tokens的限制(input tokens也包含在内)。
.\server\main.py 的完整启动命令如下:
conda activate .\pyhton
python .\ktransformers\ktransformers\server\main.py --model_path .\config --gguf_path .\Model --cpu_infer 32 --max_new_tokens 2048 --port 10086 --force_think
是否有某种办法,能够解除这个8192 tokens的限制?
这些tokens消耗哪种类型的资源?
遗憾的是,消耗的似乎是我已经所剩无几的VRAM人机分离,暂时没有附图Beta Was this translation helpful? Give feedback.
All reactions