forked from ggml-org/llama.cpp
-
Notifications
You must be signed in to change notification settings - Fork 0
Open
Description
- ROPE算子:MROPE模式支持
- ROPE算子:VISION模式支持
- ROPE算子:支持部分headSize旋转(n_dims <= src0->ne0)
- CONV_TRANSPOSE_1D算子:支持 (op->src[0]->ne[0] - 1) > 255 场景
- OUT_PROD算子:新算子支持
- GATED_LINEAR_ATTN算子:新算子支持
- L2_NORM算子:新算子支持
- CROSS_ENTROPY_LOSS算子:新算子支持
- RWKV_WKV6算子:新算子支持
- RWKV_WKV7算子:新算子支持
- SSM_CONV算子:新算子支持
- SSM_SCAN算子:新算子支持
- 重构:acl graph中,将图命中的校验沉淀至lru cache中
- 针对某些特殊模型,支持使用aclnnRopeWithSinCosCache融合算子(工作量较大)
- 优化set_device
- 新增量化方法支持Q4_1,Q8_1,QK_M
- 重构:所有调用aclnn的方法,全部提供静态方法和注释进行封装,并替换之前的使用
- 优化图顺序,多流并行 vulkan: sort graph to allow more parallel execution ggml-org/llama.cpp#15850
- 优化mul_mat_id量化,参考非量化版本,剔除device_to_host的copy动作
- llama-parallel 精度问题Bug修复
- FA 算子新增测试用例精度问题修复
- MUL_MAT算子新增测试用例精度问题修复
Metadata
Metadata
Assignees
Labels
No labels