various corrections on IQ2_S+ and IQ3 quants

Nexesenex · Nexesenex · commit 16e9c3771aa3 · 2024-08-25T03:04:17.000+02:00
diff --git a/src/llama.cpp b/src/llama.cpp
@@ -16443,11 +16443,12 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n
             }
             else if (ftype == LLAMA_FTYPE_MOSTLY_IQ1_XL || ftype == LLAMA_FTYPE_MOSTLY_IQ2_XXS || ftype == LLAMA_FTYPE_MOSTLY_IQ2_XS) {
                 if (qs.model.hparams.n_expert >= 4) new_type = GGML_TYPE_Q6_K;
+                else if (qs.model.hparams.n_head <= 20) new_type = GGML_TYPE_IQ4_XS;
                 else new_type = GGML_TYPE_Q4_K;
             }
             else if (ftype == LLAMA_FTYPE_MOSTLY_IQ2_S  || ftype == LLAMA_FTYPE_MOSTLY_IQ2_M || ftype == LLAMA_FTYPE_MOSTLY_IQ2_XL) {
                 if (qs.model.hparams.n_expert >= 4) new_type = GGML_TYPE_Q6_K;
-                else if (qs.model.hparams.n_vocab >= 127999) new_type = GGML_TYPE_Q4_K;
+                else if (qs.model.hparams.n_vocab >= 127999 || qs.model.hparams.n_head <= 20) new_type = GGML_TYPE_Q4_K;
                 else new_type = GGML_TYPE_Q5_K;
             }
             else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XXS || ftype == LLAMA_FTYPE_MOSTLY_IQ3_XS) {
@@ -16456,7 +16457,7 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n
             }
             else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_S  || ftype == LLAMA_FTYPE_MOSTLY_IQ3_M) {
                 if (qs.model.hparams.n_expert >= 4) new_type = GGML_TYPE_Q6_K;
-                else if (qs.model.hparams.n_vocab >= 127999) new_type = GGML_TYPE_Q5_K;
+                else if (qs.model.hparams.n_vocab >= 127999 || qs.model.hparams.n_head <= 20) new_type = GGML_TYPE_Q5_K;
                 else new_type = GGML_TYPE_Q6_K;
             }
             else if (new_type != GGML_TYPE_Q8_0) {
@@ -16487,17 +16488,18 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n
                 new_type = GGML_TYPE_IQ2_S;
             }
             else if (ftype == LLAMA_FTYPE_MOSTLY_IQ2_S || ftype == LLAMA_FTYPE_MOSTLY_IQ2_M) {
-                if (qs.model.hparams.n_vocab >= 127999) new_type = GGML_TYPE_IQ2_S;
+                if (qs.model.hparams.n_vocab >= 127999 || qs.model.hparams.n_head <= 20) new_type = GGML_TYPE_IQ2_S;
                 else new_type = GGML_TYPE_IQ3_XXS;
             }
-            else if (ftype == LLAMA_FTYPE_MOSTLY_IQ2_XL) {
+            else if (ftype == LLAMA_FTYPE_MOSTLY_IQ2_XL || ftype == LLAMA_FTYPE_MOSTLY_IQ3_XXS) {
                 new_type = GGML_TYPE_IQ3_XXS;
             }
-            else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XXS || ftype == LLAMA_FTYPE_MOSTLY_IQ3_XS) {
-                if (qs.model.hparams.n_vocab >= 127999) new_type = GGML_TYPE_IQ3_XXS;
+            else if ( || ftype == LLAMA_FTYPE_MOSTLY_IQ3_XS) {
+                if (qs.model.hparams.n_vocab >= 127999 || qs.model.hparams.n_head <= 20) new_type = GGML_TYPE_IQ3_XXS;
                 else new_type = GGML_TYPE_IQ3_S;
             }
-            else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XXL) {
+            else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XL || ftype == LLAMA_FTYPE_MOSTLY_IQ3_XXL) {
+                if (qs.model.hparams.n_vocab >= 127999 || qs.model.hparams.n_head <= 20) new_type = GGML_TYPE_IQ3_S;
                 new_type = GGML_TYPE_IQ4_XS;
             }
             else if (ftype == LLAMA_FTYPE_MOSTLY_IQ2_S || ftype == LLAMA_FTYPE_MOSTLY_IQ2_M) new_type = GGML_TYPE_IQ3_XXS;
@@ -16550,10 +16552,15 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n
         }
         else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XXS) {
             if (qs.model.hparams.n_gqa() >= 2 || qs.model.hparams.n_expert >= 2)
-                new_type =  difquant_first_last_tensors(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_Q5_K : GGML_TYPE_Q4_K;
-            else new_type = difquant_three_eights_tensors(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_Q4_K : GGML_TYPE_IQ3_S;
+                new_type =  difquant_first_last_tensors(qs.i_attention_wv, qs.n_attention_wv) ? GGML_TYPE_Q5_K : GGML_TYPE_Q4_K;
+            else new_type = difquant_fl_more_tensors(qs.i_attention_wv, qs.n_attention_wv) ? GGML_TYPE_Q4_K : GGML_TYPE_IQ3_S;
+        }
+        else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XS) {
+            if (qs.model.hparams.n_gqa() >= 2 || qs.model.hparams.n_expert >= 2)
+                new_type =  difquant_five_eights_tensors(qs.i_attention_wv, qs.n_attention_wv) ? GGML_TYPE_Q5_K : GGML_TYPE_Q4_K;
+            else new_type = GGML_TYPE_Q4_K;
         }
-        else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XS || ftype == LLAMA_FTYPE_MOSTLY_IQ3_S || ftype == LLAMA_FTYPE_MOSTLY_IQ3_M ||
+        else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_S || ftype == LLAMA_FTYPE_MOSTLY_IQ3_M ||
                  ftype == LLAMA_FTYPE_MOSTLY_IQ3_XL || ftype == LLAMA_FTYPE_MOSTLY_IQ3_XXL) {
             if (qs.model.hparams.n_gqa() >= 2 || qs.model.hparams.n_expert >= 2) new_type = GGML_TYPE_Q5_K;
             else new_type = GGML_TYPE_Q4_K;
@@ -16650,7 +16657,7 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n
         else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XXS) {
             if (qs.model.hparams.n_gqa() >= 4 || qs.model.hparams.n_expert >= 2)
                new_type = difquant_first_last_tensors(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;
-            else new_type = difquant_three_eights_tensors(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_IQ3_S : GGML_TYPE_IQ3_XXS;
+            else new_type = difquant_fl_more_tensors(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_IQ3_S : GGML_TYPE_IQ3_XXS;
         }
         else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XS) {
             if (qs.model.hparams.n_gqa() >= 2 || qs.model.hparams.n_expert >= 2)
@@ -16659,8 +16666,8 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n
         }
         else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_S && (qs.model.hparams.n_gqa() >= 2 || qs.model.hparams.n_expert >= 2)) {
             if (qs.model.hparams.n_gqa() >= 2 || qs.model.hparams.n_expert >= 2)
-                new_type =  difquant_fl_more_tensors(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_Q5_K : GGML_TYPE_IQ4_XS;
-            else new_type = difquant_three_eights_tensors(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;
+                new_type =  difquant_first_last_tensors(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_Q5_K : GGML_TYPE_IQ4_XS;
+            else new_type = difquant_fl_more_tensors(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;
         }
         else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_M) {
             if (qs.model.hparams.n_gqa() >= 2 || qs.model.hparams.n_expert >= 2)
@@ -16863,8 +16870,7 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n
         }
         else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XXS) {
             if (qs.model.hparams.n_gqa() >= 2 || qs.model.hparams.n_expert >= 2)
-                new_type = (difquant_fl_more_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ3_S : GGML_TYPE_IQ3_XXS;
-            else new_type = (difquant_first_last_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ3_S : GGML_TYPE_IQ3_XXS;
+                new_type = (difquant_first_last_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ3_S : GGML_TYPE_IQ3_XXS;
         }
         else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XS) {
             if (qs.model.hparams.n_gqa() >= 2 || qs.model.hparams.n_expert >= 2)
@@ -16873,8 +16879,7 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n
         }
         else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_S) {
             if (qs.model.hparams.n_gqa() >= 2 || qs.model.hparams.n_expert >= 2)
-                new_type = (difquant_fl_more_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;
-            else new_type = (difquant_first_last_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;
+                new_type = (difquant_first_last_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;
         }
         else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_M) {
             if (qs.model.hparams.n_gqa() >= 2 || qs.model.hparams.n_expert >= 2)
@@ -16947,8 +16952,8 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n
         }
         else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XXS) {
             if (qs.model.hparams.n_gqa() >= 2 || qs.model.hparams.n_expert >= 2)
-                new_type = (difquant_fl_more_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ3_S : GGML_TYPE_IQ3_XXS;
-            else new_type = (difquant_three_eights_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ3_S : GGML_TYPE_IQ3_XXS;
+                new_type = (difquant_first_last_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ3_S : GGML_TYPE_IQ3_XXS;
+            else new_type = (difquant_fl_more_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ3_S : GGML_TYPE_IQ3_XXS;
         }
         else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XS) {
             if (qs.model.hparams.n_gqa() >= 2 || qs.model.hparams.n_expert >= 2)
@@ -16957,8 +16962,8 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n
         }
         else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_S) {
             if (qs.model.hparams.n_gqa() >= 2 || qs.model.hparams.n_expert >= 2)
-                new_type = (difquant_fl_more_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;
-            else new_type = (difquant_three_eights_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;
+                new_type = (difquant_first_last_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;
+            else new_type = (difquant_fl_more_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;
         }
         else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_M) {
             if (qs.model.hparams.n_gqa() >= 2 || qs.model.hparams.n_expert >= 2)
@@ -17102,8 +17107,7 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n
         }
         else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XXS) {
             if (qs.model.hparams.n_gqa() >= 2 || qs.model.hparams.n_expert >= 2)
-                new_type = (difquant_fl_more_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ3_S : GGML_TYPE_IQ3_XXS;
-            else new_type = (difquant_first_last_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ3_S : GGML_TYPE_IQ3_XXS;
+                new_type = (difquant_first_last_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ3_S : GGML_TYPE_IQ3_XXS;
         }
         else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XS) {
             if (qs.model.hparams.n_gqa() >= 2 || qs.model.hparams.n_expert >= 2)
@@ -17112,8 +17116,7 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n
         }
         else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_S) {
             if (qs.model.hparams.n_gqa() >= 2 || qs.model.hparams.n_expert >= 2)
-                new_type = (difquant_fl_more_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;
-            else new_type = (difquant_first_last_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;
+                new_type = (difquant_first_last_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;
         }
         else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_M) {
             if (qs.model.hparams.n_gqa() >= 2 || qs.model.hparams.n_expert >= 2)

Original file line number	Diff line number	Diff line change
`@@ -16443,11 +16443,12 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n`
`16443`	`16443`	`}`
`16444`	`16444`	`else if (ftype == LLAMA_FTYPE_MOSTLY_IQ1_XL \|\| ftype == LLAMA_FTYPE_MOSTLY_IQ2_XXS \|\| ftype == LLAMA_FTYPE_MOSTLY_IQ2_XS) {`
`16445`	`16445`	`if (qs.model.hparams.n_expert >= 4) new_type = GGML_TYPE_Q6_K;`
	`16446`	`+ else if (qs.model.hparams.n_head <= 20) new_type = GGML_TYPE_IQ4_XS;`
`16446`	`16447`	`else new_type = GGML_TYPE_Q4_K;`
`16447`	`16448`	`}`
`16448`	`16449`	`else if (ftype == LLAMA_FTYPE_MOSTLY_IQ2_S \|\| ftype == LLAMA_FTYPE_MOSTLY_IQ2_M \|\| ftype == LLAMA_FTYPE_MOSTLY_IQ2_XL) {`
`16449`	`16450`	`if (qs.model.hparams.n_expert >= 4) new_type = GGML_TYPE_Q6_K;`
`16450`		`- else if (qs.model.hparams.n_vocab >= 127999) new_type = GGML_TYPE_Q4_K;`
	`16451`	`+ else if (qs.model.hparams.n_vocab >= 127999 \|\| qs.model.hparams.n_head <= 20) new_type = GGML_TYPE_Q4_K;`
`16451`	`16452`	`else new_type = GGML_TYPE_Q5_K;`
`16452`	`16453`	`}`
`16453`	`16454`	`else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XXS \|\| ftype == LLAMA_FTYPE_MOSTLY_IQ3_XS) {`
`@@ -16456,7 +16457,7 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n`
`16456`	`16457`	`}`
`16457`	`16458`	`else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_S \|\| ftype == LLAMA_FTYPE_MOSTLY_IQ3_M) {`
`16458`	`16459`	`if (qs.model.hparams.n_expert >= 4) new_type = GGML_TYPE_Q6_K;`
`16459`		`- else if (qs.model.hparams.n_vocab >= 127999) new_type = GGML_TYPE_Q5_K;`
	`16460`	`+ else if (qs.model.hparams.n_vocab >= 127999 \|\| qs.model.hparams.n_head <= 20) new_type = GGML_TYPE_Q5_K;`
`16460`	`16461`	`else new_type = GGML_TYPE_Q6_K;`
`16461`	`16462`	`}`
`16462`	`16463`	`else if (new_type != GGML_TYPE_Q8_0) {`
`@@ -16487,17 +16488,18 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n`
`16487`	`16488`	`new_type = GGML_TYPE_IQ2_S;`
`16488`	`16489`	`}`
`16489`	`16490`	`else if (ftype == LLAMA_FTYPE_MOSTLY_IQ2_S \|\| ftype == LLAMA_FTYPE_MOSTLY_IQ2_M) {`
`16490`		`- if (qs.model.hparams.n_vocab >= 127999) new_type = GGML_TYPE_IQ2_S;`
	`16491`	`+ if (qs.model.hparams.n_vocab >= 127999 \|\| qs.model.hparams.n_head <= 20) new_type = GGML_TYPE_IQ2_S;`
`16491`	`16492`	`else new_type = GGML_TYPE_IQ3_XXS;`
`16492`	`16493`	`}`
`16493`		`- else if (ftype == LLAMA_FTYPE_MOSTLY_IQ2_XL) {`
	`16494`	`+ else if (ftype == LLAMA_FTYPE_MOSTLY_IQ2_XL \|\| ftype == LLAMA_FTYPE_MOSTLY_IQ3_XXS) {`
`16494`	`16495`	`new_type = GGML_TYPE_IQ3_XXS;`
`16495`	`16496`	`}`
`16496`		`- else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XXS \|\| ftype == LLAMA_FTYPE_MOSTLY_IQ3_XS) {`
`16497`		`- if (qs.model.hparams.n_vocab >= 127999) new_type = GGML_TYPE_IQ3_XXS;`
	`16497`	`+ else if ( \|\| ftype == LLAMA_FTYPE_MOSTLY_IQ3_XS) {`
	`16498`	`+ if (qs.model.hparams.n_vocab >= 127999 \|\| qs.model.hparams.n_head <= 20) new_type = GGML_TYPE_IQ3_XXS;`
`16498`	`16499`	`else new_type = GGML_TYPE_IQ3_S;`
`16499`	`16500`	`}`
`16500`		`- else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XXL) {`
	`16501`	`+ else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XL \|\| ftype == LLAMA_FTYPE_MOSTLY_IQ3_XXL) {`
	`16502`	`+ if (qs.model.hparams.n_vocab >= 127999 \|\| qs.model.hparams.n_head <= 20) new_type = GGML_TYPE_IQ3_S;`
`16501`	`16503`	`new_type = GGML_TYPE_IQ4_XS;`
`16502`	`16504`	`}`
`16503`	`16505`	`else if (ftype == LLAMA_FTYPE_MOSTLY_IQ2_S \|\| ftype == LLAMA_FTYPE_MOSTLY_IQ2_M) new_type = GGML_TYPE_IQ3_XXS;`
`@@ -16550,10 +16552,15 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n`
`16550`	`16552`	`}`
`16551`	`16553`	`else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XXS) {`
`16552`	`16554`	`if (qs.model.hparams.n_gqa() >= 2 \|\| qs.model.hparams.n_expert >= 2)`
`16553`		`- new_type = difquant_first_last_tensors(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_Q5_K : GGML_TYPE_Q4_K;`
`16554`		`- else new_type = difquant_three_eights_tensors(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_Q4_K : GGML_TYPE_IQ3_S;`
	`16555`	`+ new_type = difquant_first_last_tensors(qs.i_attention_wv, qs.n_attention_wv) ? GGML_TYPE_Q5_K : GGML_TYPE_Q4_K;`
	`16556`	`+ else new_type = difquant_fl_more_tensors(qs.i_attention_wv, qs.n_attention_wv) ? GGML_TYPE_Q4_K : GGML_TYPE_IQ3_S;`
	`16557`	`+ }`
	`16558`	`+ else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XS) {`
	`16559`	`+ if (qs.model.hparams.n_gqa() >= 2 \|\| qs.model.hparams.n_expert >= 2)`
	`16560`	`+ new_type = difquant_five_eights_tensors(qs.i_attention_wv, qs.n_attention_wv) ? GGML_TYPE_Q5_K : GGML_TYPE_Q4_K;`
	`16561`	`+ else new_type = GGML_TYPE_Q4_K;`
`16555`	`16562`	`}`
`16556`		`- else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XS \|\| ftype == LLAMA_FTYPE_MOSTLY_IQ3_S \|\| ftype == LLAMA_FTYPE_MOSTLY_IQ3_M \|\|`
	`16563`	`+ else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_S \|\| ftype == LLAMA_FTYPE_MOSTLY_IQ3_M \|\|`
`16557`	`16564`	`ftype == LLAMA_FTYPE_MOSTLY_IQ3_XL \|\| ftype == LLAMA_FTYPE_MOSTLY_IQ3_XXL) {`
`16558`	`16565`	`if (qs.model.hparams.n_gqa() >= 2 \|\| qs.model.hparams.n_expert >= 2) new_type = GGML_TYPE_Q5_K;`
`16559`	`16566`	`else new_type = GGML_TYPE_Q4_K;`
`@@ -16650,7 +16657,7 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n`
`16650`	`16657`	`else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XXS) {`
`16651`	`16658`	`if (qs.model.hparams.n_gqa() >= 4 \|\| qs.model.hparams.n_expert >= 2)`
`16652`	`16659`	`new_type = difquant_first_last_tensors(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;`
`16653`		`- else new_type = difquant_three_eights_tensors(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_IQ3_S : GGML_TYPE_IQ3_XXS;`
	`16660`	`+ else new_type = difquant_fl_more_tensors(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_IQ3_S : GGML_TYPE_IQ3_XXS;`
`16654`	`16661`	`}`
`16655`	`16662`	`else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XS) {`
`16656`	`16663`	`if (qs.model.hparams.n_gqa() >= 2 \|\| qs.model.hparams.n_expert >= 2)`
`@@ -16659,8 +16666,8 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n`
`16659`	`16666`	`}`
`16660`	`16667`	`else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_S && (qs.model.hparams.n_gqa() >= 2 \|\| qs.model.hparams.n_expert >= 2)) {`
`16661`	`16668`	`if (qs.model.hparams.n_gqa() >= 2 \|\| qs.model.hparams.n_expert >= 2)`
`16662`		`- new_type = difquant_fl_more_tensors(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_Q5_K : GGML_TYPE_IQ4_XS;`
`16663`		`- else new_type = difquant_three_eights_tensors(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;`
	`16669`	`+ new_type = difquant_first_last_tensors(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_Q5_K : GGML_TYPE_IQ4_XS;`
	`16670`	`+ else new_type = difquant_fl_more_tensors(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;`
`16664`	`16671`	`}`
`16665`	`16672`	`else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_M) {`
`16666`	`16673`	`if (qs.model.hparams.n_gqa() >= 2 \|\| qs.model.hparams.n_expert >= 2)`
`@@ -16863,8 +16870,7 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n`
`16863`	`16870`	`}`
`16864`	`16871`	`else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XXS) {`
`16865`	`16872`	`if (qs.model.hparams.n_gqa() >= 2 \|\| qs.model.hparams.n_expert >= 2)`
`16866`		`- new_type = (difquant_fl_more_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ3_S : GGML_TYPE_IQ3_XXS;`
`16867`		`- else new_type = (difquant_first_last_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ3_S : GGML_TYPE_IQ3_XXS;`
	`16873`	`+ new_type = (difquant_first_last_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ3_S : GGML_TYPE_IQ3_XXS;`
`16868`	`16874`	`}`
`16869`	`16875`	`else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XS) {`
`16870`	`16876`	`if (qs.model.hparams.n_gqa() >= 2 \|\| qs.model.hparams.n_expert >= 2)`
`@@ -16873,8 +16879,7 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n`
`16873`	`16879`	`}`
`16874`	`16880`	`else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_S) {`
`16875`	`16881`	`if (qs.model.hparams.n_gqa() >= 2 \|\| qs.model.hparams.n_expert >= 2)`
`16876`		`- new_type = (difquant_fl_more_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;`
`16877`		`- else new_type = (difquant_first_last_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;`
	`16882`	`+ new_type = (difquant_first_last_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;`
`16878`	`16883`	`}`
`16879`	`16884`	`else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_M) {`
`16880`	`16885`	`if (qs.model.hparams.n_gqa() >= 2 \|\| qs.model.hparams.n_expert >= 2)`
`@@ -16947,8 +16952,8 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n`
`16947`	`16952`	`}`
`16948`	`16953`	`else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XXS) {`
`16949`	`16954`	`if (qs.model.hparams.n_gqa() >= 2 \|\| qs.model.hparams.n_expert >= 2)`
`16950`		`- new_type = (difquant_fl_more_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ3_S : GGML_TYPE_IQ3_XXS;`
`16951`		`- else new_type = (difquant_three_eights_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ3_S : GGML_TYPE_IQ3_XXS;`
	`16955`	`+ new_type = (difquant_first_last_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ3_S : GGML_TYPE_IQ3_XXS;`
	`16956`	`+ else new_type = (difquant_fl_more_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ3_S : GGML_TYPE_IQ3_XXS;`
`16952`	`16957`	`}`
`16953`	`16958`	`else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XS) {`
`16954`	`16959`	`if (qs.model.hparams.n_gqa() >= 2 \|\| qs.model.hparams.n_expert >= 2)`
`@@ -16957,8 +16962,8 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n`
`16957`	`16962`	`}`
`16958`	`16963`	`else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_S) {`
`16959`	`16964`	`if (qs.model.hparams.n_gqa() >= 2 \|\| qs.model.hparams.n_expert >= 2)`
`16960`		`- new_type = (difquant_fl_more_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;`
`16961`		`- else new_type = (difquant_three_eights_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;`
	`16965`	`+ new_type = (difquant_first_last_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;`
	`16966`	`+ else new_type = (difquant_fl_more_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;`
`16962`	`16967`	`}`
`16963`	`16968`	`else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_M) {`
`16964`	`16969`	`if (qs.model.hparams.n_gqa() >= 2 \|\| qs.model.hparams.n_expert >= 2)`
`@@ -17102,8 +17107,7 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n`
`17102`	`17107`	`}`
`17103`	`17108`	`else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XXS) {`
`17104`	`17109`	`if (qs.model.hparams.n_gqa() >= 2 \|\| qs.model.hparams.n_expert >= 2)`
`17105`		`- new_type = (difquant_fl_more_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ3_S : GGML_TYPE_IQ3_XXS;`
`17106`		`- else new_type = (difquant_first_last_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ3_S : GGML_TYPE_IQ3_XXS;`
	`17110`	`+ new_type = (difquant_first_last_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ3_S : GGML_TYPE_IQ3_XXS;`
`17107`	`17111`	`}`
`17108`	`17112`	`else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XS) {`
`17109`	`17113`	`if (qs.model.hparams.n_gqa() >= 2 \|\| qs.model.hparams.n_expert >= 2)`
`@@ -17112,8 +17116,7 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n`
`17112`	`17116`	`}`
`17113`	`17117`	`else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_S) {`
`17114`	`17118`	`if (qs.model.hparams.n_gqa() >= 2 \|\| qs.model.hparams.n_expert >= 2)`
`17115`		`- new_type = (difquant_fl_more_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;`
`17116`		`- else new_type = (difquant_first_last_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;`
	`17119`	`+ new_type = (difquant_first_last_tensors(i_layer, n_layer)) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;`
`17117`	`17120`	`}`
`17118`	`17121`	`else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_M) {`
`17119`	`17122`	`if (qs.model.hparams.n_gqa() >= 2 \|\| qs.model.hparams.n_expert >= 2)`