speculative decoding in gemma3

On 0.20.0, I got an error trying to use speculative decoding because of an unsupported param. But even after plumbing it in, it's still giving me an error:

```
terminate called after throwing an instance of 'tensorrt_llm::common::TllmException'
  what():  [TensorRT-LLM][ERROR] Assertion failed: No available XQA kernels are found for speculative decoding mode. (/home/jenkins/agent/workspace/LLM/main/L0_Test-x86_64/tensorrt_llm/cpp/tensorrt_llm/common/attentionOp.cpp:2027)
```

How can the kernels be added for gemma3 models?

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

speculative decoding in gemma3 #6067

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

speculative decoding in gemma3 #6067

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions