fix qwen2_5_vl awq (#4436)

Jintao-Huang · web-flow · commit e9c3722ec620 · 2025-06-01T16:38:17.000+08:00
diff --git a/examples/export/quantize/mllm/awq.sh b/examples/export/quantize/mllm/awq.sh
@@ -1,6 +1,3 @@
-pip uninstall autoawq
-pip install git+https://github.com/casper-hansen/AutoAWQ.git --no-deps  # or "autoawq>=0.2.9"
-
 CUDA_VISIBLE_DEVICES=0 \
 MAX_PIXELS=1003520 \
 VIDEO_MAX_PIXELS=50176 \
diff --git a/examples/export/quantize/moe/awq.sh b/examples/export/quantize/moe/awq.sh
@@ -1,6 +1,3 @@
-pip uninstall autoawq
-pip install git+https://github.com/casper-hansen/AutoAWQ.git --no-deps  # or "autoawq>=0.2.9"
-
 CUDA_VISIBLE_DEVICES=0,1 \
 swift export \
     --model Qwen/Qwen3-30B-A3B \
diff --git a/swift/llm/model/model/qwen.py b/swift/llm/model/model/qwen.py
@@ -583,13 +583,14 @@ def get_model_tokenizer_qwen2_vl(*args, **kwargs):
     kwargs['automodel_class'] = kwargs['automodel_class'] or Qwen2VLForConditionalGeneration
     model, tokenizer = get_model_tokenizer_multimodal(*args, **kwargs)
     if model is not None:
-        if hasattr(model.model, 'embed_tokens'):
-            embed_tokens = model.model.embed_tokens
+        base_model = model.model if 'AWQ' in model.__class__.__name__ else model
+        if hasattr(base_model.model, 'embed_tokens'):
+            embed_tokens = base_model.model.embed_tokens
         else:
-            embed_tokens = model.model.language_model.embed_tokens
+            embed_tokens = base_model.model.language_model.embed_tokens
         patch_output_clone(embed_tokens)
         patch_output_to_input_device(embed_tokens)
-        patch_get_input_embeddings(model.visual, 'patch_embed')
+        patch_get_input_embeddings(base_model.visual, 'patch_embed')
 
     from qwen_vl_utils import vision_process
     patch_qwen_vl_utils(vision_process)
@@ -712,10 +713,11 @@ def get_model_tokenizer_qwen2_5_omni(model_dir, *args, **kwargs):
     kwargs['model_config'].enable_audio_output = get_env_args('ENABLE_AUDIO_OUTPUT', bool, True)
     model, _ = get_model_tokenizer_with_flash_attn(model_dir, *args, **kwargs)
     if model:
-        use_submodel_func(model, 'thinker')
-        model.config.keys_to_ignore_at_inference += ['hidden_states', 'attention_mask']
-        model.config.talker_config.pad_token_id = None
-        patch_get_input_embeddings(model.thinker.visual, 'patch_embed')
+        base_model = model.model if 'AWQ' in model.__class__.__name__ else model
+        use_submodel_func(base_model, 'thinker')
+        base_model.config.keys_to_ignore_at_inference += ['hidden_states', 'attention_mask']
+        base_model.config.talker_config.pad_token_id = None
+        patch_get_input_embeddings(base_model.thinker.visual, 'patch_embed')
     return model, processor