server : fix default draft model parameters #10586

ggerganov · 2024-11-29T17:34:25Z

Use F16 KV cache for the draft model
Set draft context equal to slot context
Do not speculate during prompt processing

ggml-ci

* server : force F16 KV cache for the draft model ggml-ci * server : fix draft params ggml-ci * server : various params fixes ggml-ci

server : force F16 KV cache for the draft model

150d6e9

ggml-ci

github-actions bot added examples server labels Nov 29, 2024

ggerganov mentioned this pull request Nov 29, 2024

Misc. bug: [server] Using q8_0 for KV cache reduces performance when also using a draft model #10552

Closed

server : fix draft params

f325205

ggml-ci

ggerganov marked this pull request as ready for review December 3, 2024 08:47

server : various params fixes

11b4d58

ggml-ci

ggerganov changed the title ~~server : force F16 KV cache for the draft model~~ server : fix default draft model parameters Dec 3, 2024

ggerganov merged commit 70b98fa into master Dec 3, 2024
43 of 50 checks passed

ggerganov deleted the gg/server-force-draft-kv-f16 branch December 3, 2024 09:20

This was referenced Dec 3, 2024

Eval bug: issues with draft model and Cline+VSCode #10547

Closed

server : add speculative decoding support #10455

Merged

sammcj mentioned this pull request Dec 4, 2024

Enable speculative decoding ollama/ollama#5800

Open

tinglou pushed a commit to tinglou/llama.cpp that referenced this pull request Dec 7, 2024

server : fix default draft model parameters (ggml-org#10586)

a6cc3c5

* server : force F16 KV cache for the draft model ggml-ci * server : fix draft params ggml-ci * server : various params fixes ggml-ci

arthw pushed a commit to arthw/llama.cpp that referenced this pull request Dec 20, 2024

server : fix default draft model parameters (ggml-org#10586)

180d8d0

* server : force F16 KV cache for the draft model ggml-ci * server : fix draft params ggml-ci * server : various params fixes ggml-ci

BrickBee mentioned this pull request Jan 12, 2025

KV cache bug: llama-speculative and llama-server choose different kv cache quantization when cache quantization specified #11200

Closed

aa956 mentioned this pull request May 25, 2025

server: args for draft model cache types (#11200) #13782

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

server : fix default draft model parameters #10586

server : fix default draft model parameters #10586

Uh oh!

ggerganov commented Nov 29, 2024 •

edited

Loading

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

server : fix default draft model parameters #10586

server : fix default draft model parameters #10586

Uh oh!

Conversation

ggerganov commented Nov 29, 2024 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

ggerganov commented Nov 29, 2024 •

edited

Loading