Skip to content

Commit 898856e

Browse files
committed
cleaned up unused flags from makefile, updated lite
1 parent fd84b06 commit 898856e

File tree

4 files changed

+290
-147
lines changed

4 files changed

+290
-147
lines changed

CMakeLists.txt

Lines changed: 0 additions & 32 deletions
Original file line numberDiff line numberDiff line change
@@ -42,11 +42,7 @@ endif()
4242

4343
# 3rd party libs
4444
option(LLAMA_CUBLAS "llama: use CUDA" ON)
45-
set(LLAMA_CUDA_DMMV_X "32" CACHE STRING "llama: x stride for dmmv CUDA kernels")
46-
set(LLAMA_CUDA_DMMV_Y "1" CACHE STRING "llama: y block size for dmmv CUDA kernels")
47-
set(LLAMA_CUDA_MMV_Y "1" CACHE STRING "llama: y block size for mmv CUDA kernels")
4845
option(LLAMA_CUDA_F16 "llama: use 16 bit floats for dmmv CUDA kernels" OFF)
49-
set(LLAMA_CUDA_KQUANTS_ITER "2" CACHE STRING "llama: iters./thread per block for Q2_K/Q6_K")
5046
set(LLAMA_CUDA_PEER_MAX_BATCH_SIZE "128" CACHE STRING
5147
"llama: max. batch size for using peer access")
5248

@@ -101,13 +97,9 @@ if (LLAMA_CUBLAS)
10197
add_compile_definitions(GGML_USE_CUDA)
10298
add_compile_definitions(SD_USE_CUBLAS)
10399

104-
add_compile_definitions(GGML_CUDA_DMMV_X=${LLAMA_CUDA_DMMV_X})
105-
add_compile_definitions(GGML_CUDA_DMMV_Y=${LLAMA_CUDA_DMMV_Y})
106-
add_compile_definitions(GGML_CUDA_MMV_Y=${LLAMA_CUDA_MMV_Y})
107100
if (LLAMA_CUDA_F16 OR LLAMA_CUDA_DMMV_F16)
108101
add_compile_definitions(GGML_CUDA_F16)
109102
endif()
110-
add_compile_definitions(K_QUANTS_PER_ITERATION=${LLAMA_CUDA_KQUANTS_ITER})
111103
add_compile_definitions(GGML_CUDA_PEER_MAX_BATCH_SIZE=${LLAMA_CUDA_PEER_MAX_BATCH_SIZE})
112104

113105
# only build minimal quants required for fattn quant kv
@@ -185,9 +177,6 @@ if (LLAMA_HIPBLAS)
185177
list(APPEND GGML_SOURCES_ROCM ${SRCS})
186178
add_compile_definitions(GGML_USE_HIP GGML_USE_CUDA SD_USE_CUBLAS)
187179
add_library(ggml-rocm ${GGML_SOURCES_CUDA})
188-
if (LLAMA_CUDA_FORCE_DMMV)
189-
target_compile_definitions(ggml-rocm PUBLIC GGML_CUDA_FORCE_DMMV)
190-
endif()
191180

192181
file(GLOB SRCS "ggml/src/ggml-cuda/template-instances/fattn-vec*q4_0-q4_0.cu")
193182
list(APPEND GGML_SOURCES_ROCM ${SRCS})
@@ -197,39 +186,18 @@ if (LLAMA_HIPBLAS)
197186
list(APPEND GGML_SOURCES_ROCM ${SRCS})
198187

199188
# only build minimal quants required for fattn quant kv
200-
target_compile_definitions(ggml-rocm PUBLIC GGML_CUDA_DMMV_X=${LLAMA_CUDA_DMMV_X})
201-
target_compile_definitions(ggml-rocm PUBLIC GGML_CUDA_MMV_Y=${LLAMA_CUDA_MMV_Y})
202-
target_compile_definitions(ggml-rocm PUBLIC K_QUANTS_PER_ITERATION=${LLAMA_CUDA_KQUANTS_ITER})
203189
set_source_files_properties(${GGML_SOURCES_ROCM} PROPERTIES LANGUAGE CXX)
204190
target_link_libraries(ggml-rocm PUBLIC hip::device hip::host roc::rocblas roc::hipblas)
205191

206192
add_library(ggml-v2-rocm ${GGML_V2_CUDA_SOURCES})
207-
if (LLAMA_CUDA_FORCE_DMMV)
208-
target_compile_definitions(ggml-v2-rocm PUBLIC GGML_CUDA_FORCE_DMMV)
209-
endif()
210-
target_compile_definitions(ggml-v2-rocm PUBLIC GGML_CUDA_DMMV_X=${LLAMA_CUDA_DMMV_X})
211-
target_compile_definitions(ggml-v2-rocm PUBLIC GGML_CUDA_MMV_Y=${LLAMA_CUDA_MMV_Y})
212-
target_compile_definitions(ggml-v2-rocm PUBLIC K_QUANTS_PER_ITERATION=${LLAMA_CUDA_KQUANTS_ITER})
213193
set_source_files_properties(otherarch/ggml_v2-cuda.cu PROPERTIES LANGUAGE CXX)
214194
target_link_libraries(ggml-v2-rocm PUBLIC hip::device hip::host roc::rocblas roc::hipblas)
215195

216196
add_library(ggml-v3-rocm ${GGML_V3_CUDA_SOURCES})
217-
if (LLAMA_CUDA_FORCE_DMMV)
218-
target_compile_definitions(ggml-v3-rocm PUBLIC GGML_CUDA_FORCE_DMMV)
219-
endif()
220-
target_compile_definitions(ggml-v3-rocm PUBLIC GGML_CUDA_DMMV_X=${LLAMA_CUDA_DMMV_X})
221-
target_compile_definitions(ggml-v3-rocm PUBLIC GGML_CUDA_MMV_Y=${LLAMA_CUDA_MMV_Y})
222-
target_compile_definitions(ggml-v3-rocm PUBLIC K_QUANTS_PER_ITERATION=${LLAMA_CUDA_KQUANTS_ITER})
223197
set_source_files_properties(otherarch/ggml_v3-cuda.cu PROPERTIES LANGUAGE CXX)
224198
target_link_libraries(ggml-v3-rocm PUBLIC hip::device hip::host roc::rocblas roc::hipblas)
225199

226200
add_library(ggml-v2-legacy-rocm ${GGML_V2_LEGACY_CUDA_SOURCES})
227-
if (LLAMA_CUDA_FORCE_DMMV)
228-
target_compile_definitions(ggml-v2-legacy-rocm PUBLIC GGML_CUDA_FORCE_DMMV)
229-
endif()
230-
target_compile_definitions(ggml-v2-legacy-rocm PUBLIC GGML_CUDA_DMMV_X=${LLAMA_CUDA_DMMV_X})
231-
target_compile_definitions(ggml-v2-legacy-rocm PUBLIC GGML_CUDA_MMV_Y=${LLAMA_CUDA_MMV_Y})
232-
target_compile_definitions(ggml-v2-legacy-rocm PUBLIC K_QUANTS_PER_ITERATION=${LLAMA_CUDA_KQUANTS_ITER})
233201
set_source_files_properties(otherarch/ggml_v2-cuda-legacy.cu PROPERTIES LANGUAGE CXX)
234202
target_link_libraries(ggml-v2-legacy-rocm PUBLIC hip::device hip::host roc::rocblas roc::hipblas)
235203

Makefile

Lines changed: 10 additions & 40 deletions
Original file line numberDiff line numberDiff line change
@@ -45,8 +45,8 @@ endif
4545
#
4646

4747
# keep standard at C11 and C++17
48-
CFLAGS =
49-
CXXFLAGS =
48+
CFLAGS ?=
49+
CXXFLAGS ?=
5050
ifdef KCPP_DEBUG
5151
CFLAGS = -g -O0
5252
CXXFLAGS = -g -O0
@@ -69,26 +69,26 @@ endif
6969
CFLAGS += -pthread -Wno-deprecated -Wno-deprecated-declarations -Wno-unused-variable
7070
CXXFLAGS += -pthread -Wno-multichar -Wno-write-strings -Wno-deprecated -Wno-deprecated-declarations -Wno-unused-variable
7171

72-
LDFLAGS =
72+
LDFLAGS ?=
7373
FASTCFLAGS = $(subst -O3,-Ofast,$(CFLAGS))
7474
FASTCXXFLAGS = $(subst -O3,-Ofast,$(CXXFLAGS))
7575

7676
# these are used on windows, to build some libraries with extra old device compatibility
77-
SIMPLECFLAGS =
78-
SIMPLERCFLAGS =
79-
FULLCFLAGS =
80-
NONECFLAGS =
77+
SIMPLECFLAGS ?=
78+
SIMPLERCFLAGS ?=
79+
FULLCFLAGS ?=
80+
NONECFLAGS ?=
8181

8282
CLBLAST_FLAGS = -DGGML_USE_CLBLAST
8383
FAILSAFE_FLAGS = -DUSE_FAILSAFE
8484
VULKAN_FLAGS = -DGGML_USE_VULKAN -DSD_USE_VULKAN
8585
ifdef LLAMA_CUBLAS
8686
CUBLAS_FLAGS = -DGGML_USE_CUDA -DSD_USE_CUBLAS
8787
else
88-
CUBLAS_FLAGS =
88+
CUBLAS_FLAGS ?=
8989
endif
90-
CUBLASLD_FLAGS =
91-
CUBLAS_OBJS =
90+
CUBLASLD_FLAGS ?=
91+
CUBLAS_OBJS ?=
9292

9393
OBJS_FULL += ggml-alloc.o ggml-cpu-traits.o ggml-quants.o ggml-cpu-quants.o ggml-cpu-aarch64.o unicode.o unicode-data.o ggml-threading.o ggml-cpu-cpp.o gguf.o sgemm.o common.o sampling.o kcpputils.o
9494
OBJS_SIMPLE += ggml-alloc.o ggml-cpu-traits.o ggml-quants_noavx2.o ggml-cpu-quants_noavx2.o ggml-cpu-aarch64_noavx2.o unicode.o unicode-data.o ggml-threading.o ggml-cpu-cpp.o gguf.o sgemm_noavx2.o common.o sampling.o kcpputils.o
@@ -147,8 +147,6 @@ ifeq ($(UNAME_M),$(filter $(UNAME_M),x86_64 i686 amd64))
147147
# old library NEEDS mf16c to work. so we must build with it. new one doesnt
148148
ifeq ($(OS),Windows_NT)
149149
ifdef LLAMA_PORTABLE
150-
CFLAGS +=
151-
NONECFLAGS +=
152150
SIMPLECFLAGS += -mavx -msse3 -mssse3
153151
SIMPLERCFLAGS += -msse3 -mssse3
154152
ifdef LLAMA_NOAVX2
@@ -161,8 +159,6 @@ else
161159
endif
162160
else
163161
ifdef LLAMA_PORTABLE
164-
CFLAGS +=
165-
NONECFLAGS +=
166162
SIMPLECFLAGS += -mavx -msse3 -mssse3
167163
SIMPLERCFLAGS += -msse3 -mssse3
168164
ifdef LLAMA_NOAVX2
@@ -221,32 +217,12 @@ else
221217
endif #LLAMA_PORTABLE
222218
endif # CUDA_DOCKER_ARCH
223219

224-
ifdef LLAMA_CUDA_FORCE_DMMV
225-
NVCCFLAGS += -DGGML_CUDA_FORCE_DMMV
226-
endif # LLAMA_CUDA_FORCE_DMMV
227-
ifdef LLAMA_CUDA_DMMV_X
228-
NVCCFLAGS += -DGGML_CUDA_DMMV_X=$(LLAMA_CUDA_DMMV_X)
229-
else
230-
NVCCFLAGS += -DGGML_CUDA_DMMV_X=32
231-
endif # LLAMA_CUDA_DMMV_X
232-
ifdef LLAMA_CUDA_MMV_Y
233-
NVCCFLAGS += -DGGML_CUDA_MMV_Y=$(LLAMA_CUDA_MMV_Y)
234-
else ifdef LLAMA_CUDA_DMMV_Y
235-
NVCCFLAGS += -DGGML_CUDA_MMV_Y=$(LLAMA_CUDA_DMMV_Y) # for backwards compatibility
236-
else
237-
NVCCFLAGS += -DGGML_CUDA_MMV_Y=1
238-
endif # LLAMA_CUDA_MMV_Y
239220
ifdef LLAMA_CUDA_F16
240221
NVCCFLAGS += -DGGML_CUDA_F16
241222
endif # LLAMA_CUDA_F16
242223
ifdef LLAMA_CUDA_DMMV_F16
243224
NVCCFLAGS += -DGGML_CUDA_F16
244225
endif # LLAMA_CUDA_DMMV_F16
245-
ifdef LLAMA_CUDA_KQUANTS_ITER
246-
NVCCFLAGS += -DK_QUANTS_PER_ITERATION=$(LLAMA_CUDA_KQUANTS_ITER)
247-
else
248-
NVCCFLAGS += -DK_QUANTS_PER_ITERATION=2
249-
endif
250226

251227
ifdef LLAMA_CUDA_CCBIN
252228
NVCCFLAGS += -ccbin $(LLAMA_CUDA_CCBIN)
@@ -276,9 +252,6 @@ else
276252
HCC := $(ROCM_PATH)/llvm/bin/clang
277253
HCXX := $(ROCM_PATH)/llvm/bin/clang++
278254
endif
279-
LLAMA_CUDA_DMMV_X ?= 32
280-
LLAMA_CUDA_MMV_Y ?= 1
281-
LLAMA_CUDA_KQUANTS_ITER ?= 2
282255
HIPFLAGS += -DGGML_USE_HIP -DGGML_USE_CUDA -DSD_USE_CUBLAS $(shell $(ROCM_PATH)/bin/hipconfig -C)
283256
HIPLDFLAGS += -L$(ROCM_PATH)/lib -Wl,-rpath=$(ROCM_PATH)/lib
284257
HIPLDFLAGS += -L$(ROCM_PATH)/lib64 -Wl,-rpath=$(ROCM_PATH)/lib64
@@ -288,9 +261,6 @@ endif
288261
HIP_OBJS += $(OBJS_CUDA_TEMP_INST)
289262

290263
HIPFLAGS2 += $(addprefix --offload-arch=,$(GPU_TARGETS))
291-
HIPFLAGS2 += -DGGML_CUDA_DMMV_X=$(LLAMA_CUDA_DMMV_X)
292-
HIPFLAGS2 += -DGGML_CUDA_MMV_Y=$(LLAMA_CUDA_MMV_Y)
293-
HIPFLAGS2 += -DK_QUANTS_PER_ITERATION=$(LLAMA_CUDA_KQUANTS_ITER)
294264

295265
ggml/src/ggml-cuda/%.o: ggml/src/ggml-cuda/%.cu ggml/include/ggml.h ggml/src/ggml-common.h ggml/src/ggml-cuda/common.cuh
296266
$(HCXX) $(CXXFLAGS) $(HIPFLAGS) $(HIPFLAGS2) -x hip -c -o $@ $<

0 commit comments

Comments
 (0)