Skip to content

llama.cpp需求 #1

@noemotiovon

Description

@noemotiovon
  • ROPE算子:MROPE模式支持
  • ROPE算子:VISION模式支持
  • ROPE算子:支持部分headSize旋转(n_dims <= src0->ne0)
  • CONV_TRANSPOSE_1D算子:支持 (op->src[0]->ne[0] - 1) > 255 场景
  • OUT_PROD算子:新算子支持
  • GATED_LINEAR_ATTN算子:新算子支持
  • L2_NORM算子:新算子支持
  • CROSS_ENTROPY_LOSS算子:新算子支持
  • RWKV_WKV6算子:新算子支持
  • RWKV_WKV7算子:新算子支持
  • SSM_CONV算子:新算子支持
  • SSM_SCAN算子:新算子支持
  • 重构:acl graph中,将图命中的校验沉淀至lru cache中
  • 针对某些特殊模型,支持使用aclnnRopeWithSinCosCache融合算子(工作量较大)
  • 优化set_device
  • 新增量化方法支持Q4_1,Q8_1,QK_M
  • 重构:所有调用aclnn的方法,全部提供静态方法和注释进行封装,并替换之前的使用
  • 优化图顺序,多流并行 vulkan: sort graph to allow more parallel execution ggml-org/llama.cpp#15850
  • 优化mul_mat_id量化,参考非量化版本,剔除device_to_host的copy动作
  • llama-parallel 精度问题Bug修复
  • FA 算子新增测试用例精度问题修复
  • MUL_MAT算子新增测试用例精度问题修复

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions