llama.cpp需求

- [x] ROPE算子：MROPE模式支持
- [x] ROPE算子：VISION模式支持
- [x] ROPE算子：支持部分headSize旋转（n_dims <= src0->ne0）
- [ ] CONV_TRANSPOSE_1D算子：支持 (op->src[0]->ne[0] - 1) > 255 场景
- [x] OUT_PROD算子：新算子支持
- [ ] GATED_LINEAR_ATTN算子：新算子支持
- [x] L2_NORM算子：新算子支持
- [x] CROSS_ENTROPY_LOSS算子：新算子支持
- [ ] RWKV_WKV6算子：新算子支持
- [ ] RWKV_WKV7算子：新算子支持
- [ ] SSM_CONV算子：新算子支持
- [ ] SSM_SCAN算子：新算子支持
- [ ] 重构：acl graph中，将图命中的校验沉淀至lru cache中
- [ ] 针对某些特殊模型，支持使用aclnnRopeWithSinCosCache融合算子（工作量较大）
- [x] 优化set_device
- [ ] 新增量化方法支持Q4_1，Q8_1，QK_M
- [ ] 重构：所有调用aclnn的方法，全部提供静态方法和注释进行封装，并替换之前的使用
- [ ] 优化图顺序，多流并行 #15850
- [ ] 优化mul_mat_id量化，参考非量化版本，剔除device_to_host的copy动作
- [ ] llama-parallel 精度问题Bug修复
- [ ] FA 算子新增测试用例精度问题修复
- [ ] MUL_MAT算子新增测试用例精度问题修复

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

llama.cpp需求 #1

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

llama.cpp需求 #1

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions