fixed mrope for multiple images in qwen2vl (+1 squashed commits)

LostRuins · LostRuins · commit 61a73347c659 · 2025-03-30T17:23:58.000+08:00
Squashed commits:

[63e4d91c] fixed mrope for multiple images in qwen2vl (+1 squashed commits)

Squashed commits:

[bb78db1e] wip fixing mrope
diff --git a/Makefile b/Makefile
@@ -649,6 +649,8 @@ gguf-split: examples/gguf-split/gguf-split.cpp ggml.o ggml-cpu.o llama.o build-i
 	$(CXX) $(CXXFLAGS) $(filter-out %.h,$^) -o $@ $(LDFLAGS)
 gemma3-cli: examples/llava/gemma3-cli.cpp common/arg.cpp build-info.h ggml.o ggml-cpu.o llama.o console.o llavaclip_default.o llava.o ggml-backend_default.o ggml-backend-reg_default.o $(OBJS_FULL) $(OBJS)
 	$(CXX) $(CXXFLAGS) $(filter-out %.h,$^) -o $@ $(LDFLAGS)
+qwen2vl-cli: examples/llava/qwen2vl-cli.cpp common/arg.cpp build-info.h ggml.o ggml-cpu.o llama.o console.o llavaclip_default.o llava.o ggml-backend_default.o ggml-backend-reg_default.o $(OBJS_FULL) $(OBJS)
+	$(CXX) $(CXXFLAGS) $(filter-out %.h,$^) -o $@ $(LDFLAGS)
 
 ggml/src/ggml-vulkan-shaders.cpp:
 ifdef VULKAN_BUILD
diff --git a/gpttype_adapter.cpp b/gpttype_adapter.cpp
@@ -3146,6 +3146,7 @@ generation_outputs gpttype_generate(const generation_inputs inputs)
     int32_t nctx = kcpp_data->n_ctx;
 
     TokenizeString(kcpp_data->prompt, embd_inp, file_format, add_bos_token);
+    bool use_mrope = (file_format == FileFormat::GGUF_GENERIC && file_format_meta.model_architecture == GGUFArch::ARCH_QWEN2VL);
     TokenizeString("\n\n", llava_sep, file_format, false);
 
     if(llava_composite_image_signature=="")
@@ -3446,7 +3447,6 @@ generation_outputs gpttype_generate(const generation_inputs inputs)
                 if(embd.size()!=1 || draft_ctx==nullptr || remaining_tokens<=speculative_chunk_amt || grammar!=nullptr || startedsampling==false) //for large batch, or if no draft model, PP/TG as usual
                 {
                     draft_used = false;
-                    bool use_mrope = (file_format==FileFormat::GGUF_GENERIC && file_format_meta.model_architecture == GGUFArch::ARCH_QWEN2VL);
                     kcpp_embd_batch batch = kcpp_embd_batch(embd, n_past, use_mrope, false);
                     evalres = (llama_decode(llama_ctx_v4, batch.batch)==0);
                     if(draft_ctx)
@@ -3871,7 +3871,7 @@ generation_outputs gpttype_generate(const generation_inputs inputs)
                     {
                         PrepareLlavaEmbds(nctx, llava_sep);
                         llava_embds_built = true;
-                        printf("\nSomehow vision embd was not prepared, rebuilting it...\n");
+                        printf("\nSomehow vision embd was not prepared (maybe no fast forward), rebuilding it...\n");
                     }
 
                     //if partial batch, dispatch existing first
@@ -3902,7 +3902,8 @@ generation_outputs gpttype_generate(const generation_inputs inputs)
                             if(i>0 && sepsize>0)
                             {
                                 //add a separator between each image
-                                auto evr = llama_decode(llama_ctx_v4, llama_batch_get_one(llava_sep.data(), sepsize));
+                                kcpp_embd_batch batch = kcpp_embd_batch(llava_sep, n_past, use_mrope, false);
+                                auto evr = llama_decode(llama_ctx_v4, batch.batch);
                                 if(evr!=0)
                                 {
                                     printf("\nError when appending llava separator: %d\n",evr);

Original file line number	Diff line number	Diff line change
`@@ -3146,6 +3146,7 @@ generation_outputs gpttype_generate(const generation_inputs inputs)`
`3146`	`3146`	`int32_t nctx = kcpp_data->n_ctx;`
`3147`	`3147`
`3148`	`3148`	`TokenizeString(kcpp_data->prompt, embd_inp, file_format, add_bos_token);`
	`3149`	`+ bool use_mrope = (file_format == FileFormat::GGUF_GENERIC && file_format_meta.model_architecture == GGUFArch::ARCH_QWEN2VL);`
`3149`	`3150`	`TokenizeString("\n\n", llava_sep, file_format, false);`
`3150`	`3151`
`3151`	`3152`	`if(llava_composite_image_signature=="")`
`@@ -3446,7 +3447,6 @@ generation_outputs gpttype_generate(const generation_inputs inputs)`
`3446`	`3447`	`if(embd.size()!=1 \|\| draft_ctx==nullptr \|\| remaining_tokens<=speculative_chunk_amt \|\| grammar!=nullptr \|\| startedsampling==false) //for large batch, or if no draft model, PP/TG as usual`
`3447`	`3448`	`{`
`3448`	`3449`	`draft_used = false;`
`3449`		`- bool use_mrope = (file_format==FileFormat::GGUF_GENERIC && file_format_meta.model_architecture == GGUFArch::ARCH_QWEN2VL);`
`3450`	`3450`	`kcpp_embd_batch batch = kcpp_embd_batch(embd, n_past, use_mrope, false);`
`3451`	`3451`	`evalres = (llama_decode(llama_ctx_v4, batch.batch)==0);`
`3452`	`3452`	`if(draft_ctx)`
`@@ -3871,7 +3871,7 @@ generation_outputs gpttype_generate(const generation_inputs inputs)`
`3871`	`3871`	`{`
`3872`	`3872`	`PrepareLlavaEmbds(nctx, llava_sep);`
`3873`	`3873`	`llava_embds_built = true;`
`3874`		`- printf("\nSomehow vision embd was not prepared, rebuilting it...\n");`
	`3874`	`+ printf("\nSomehow vision embd was not prepared (maybe no fast forward), rebuilding it...\n");`
`3875`	`3875`	`}`
`3876`	`3876`
`3877`	`3877`	`//if partial batch, dispatch existing first`
`@@ -3902,7 +3902,8 @@ generation_outputs gpttype_generate(const generation_inputs inputs)`
`3902`	`3902`	`if(i>0 && sepsize>0)`
`3903`	`3903`	`{`
`3904`	`3904`	`//add a separator between each image`
`3905`		`- auto evr = llama_decode(llama_ctx_v4, llama_batch_get_one(llava_sep.data(), sepsize));`
	`3905`	`+ kcpp_embd_batch batch = kcpp_embd_batch(llava_sep, n_past, use_mrope, false);`
	`3906`	`+ auto evr = llama_decode(llama_ctx_v4, batch.batch);`
`3906`	`3907`	`if(evr!=0)`
`3907`	`3908`	`{`
`3908`	`3909`	`printf("\nError when appending llava separator: %d\n",evr);`