huggingface
diff --git a/‎.github/workflows/build_documentation.yml‎
Lines changed: 1 addition & 1 deletion b/‎.github/workflows/build_documentation.yml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎.github/workflows/build_pr_documentation.yml‎
Lines changed: 4 additions & 3 deletions b/‎.github/workflows/build_pr_documentation.yml‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎.github/workflows/test_openvino.yml‎
Lines changed: 1 addition & 1 deletion b/‎.github/workflows/test_openvino.yml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎.github/workflows/test_openvino_nightly.yml‎
Lines changed: 1 addition & 1 deletion b/‎.github/workflows/test_openvino_nightly.yml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎.github/workflows/test_openvino_notebooks.yml‎
Lines changed: 1 addition & 1 deletion b/‎.github/workflows/test_openvino_notebooks.yml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎.github/workflows/test_openvino_slow.yml‎
Lines changed: 1 addition & 1 deletion b/‎.github/workflows/test_openvino_slow.yml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎docs/source/openvino/optimization.mdx‎
Lines changed: 7 additions & 4 deletions b/‎docs/source/openvino/optimization.mdx‎
Lines changed: 7 additions & 4 deletions
diff --git a/‎notebooks/openvino/vision_language_quantization.ipynb‎
Lines changed: 1 addition & 1 deletion b/‎notebooks/openvino/vision_language_quantization.ipynb‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎optimum/exporters/ipex/modeling_utils.py‎
Lines changed: 24 additions & 5 deletions b/‎optimum/exporters/ipex/modeling_utils.py‎
Lines changed: 24 additions & 5 deletions
diff --git a/‎optimum/exporters/openvino/__main__.py‎
Lines changed: 10 additions & 1 deletion b/‎optimum/exporters/openvino/__main__.py‎
Lines changed: 10 additions & 1 deletion
@@ -51,7 +51,7 @@ jobs:
         run: |
           pip install --upgrade pip uv
           uv pip install git+https://github.com/huggingface/doc-builder
-          uv pip install .[quality] nncf openvino neural-compressor[pt]>3.4 diffusers accelerate
+          uv pip install .[quality] nncf openvino neural-compressor[pt]>3.4 diffusers accelerate datasets
 
       - name: Make documentation
         shell: bash
 
@@ -38,17 +38,18 @@ jobs:
         run: |
           pip install --upgrade pip uv
           uv pip install git+https://github.com/huggingface/doc-builder
-          uv pip install .[quality] nncf openvino neural-compressor[pt]>3.4 diffusers accelerate
+          uv pip install .[quality] nncf openvino neural-compressor[pt]>3.4 diffusers accelerate datasets
 
       - name: Make documentation
         shell: bash
         run: |
           make doc BUILD_DIR=./doc-build VERSION=pr_${{ env.PR_NUMBER }}
-          mv ./doc-build/optimum.intel optimum-intel
+          cd doc-build
+          mv optimum.intel optimum-intel
           echo ${{ env.COMMIT_SHA }} > ./commit_sha
           echo ${{ env.PR_NUMBER }} > ./pr_number
 
       - uses: actions/upload-artifact@v4
         with:
           name: doc-build-artifact
-          path: optimum-intel
+          path: doc-build
@@ -48,7 +48,7 @@ jobs:
       - name: Setup Python
         uses: actions/setup-python@v5
         with:
-          python-version: 3.9
+          python-version: "3.10"
 
       - name: Install dependencies
         run: |
 
@@ -70,7 +70,7 @@ jobs:
       - name: Setup Python
         uses: actions/setup-python@v5
         with:
-          python-version: 3.9
+          python-version: "3.10"
 
       - name: Install dependencies
         run: |
 
@@ -24,7 +24,7 @@ jobs:
     strategy:
       fail-fast: false
       matrix:
-        python-version: [3.9]
+        python-version: "3.10"
         test_file: [
             "optimum_openvino_inference.ipynb",
             "question_answering_quantization.ipynb",
 
@@ -54,7 +54,7 @@ jobs:
       - name: Setup Python
         uses: actions/setup-python@v5
         with:
-          python-version: 3.9
+          python-version: "3.10"
 
       - name: Install dependencies
         run: |
 
@@ -889,23 +889,26 @@ If quantization_config is not provided, model will be exported in 8 bits by defa
 4-bit weight quantization can be achieved in a similar way:
 
 ```python
-from optimum.intel import OVModelForCausalLM, OVWeightQuantizationConfig
+from optimum.intel import OVModelForCausalLM
 
-quantization_config = OVWeightQuantizationConfig(bits=4)
-model = OVModelForCausalLM.from_pretrained(model_id, quantization_config=quantization_config)
+model = OVModelForCausalLM.from_pretrained(model_id, quantization_config={"bits": 4})
 ```
 
+For some models, we provide preconfigured 4-bit weight-only quantization [configurations](https://github.com/huggingface/optimum-intel/blob/main/optimum/intel/openvino/configuration.py) that offer a good trade-off between quality and speed. This default 4-bit configuration is applied automatically when you specify `quantization_config={"bits": 4}`.
+
 Or for vision-language pipelines:
 ```python
 model = OVModelForVisualCausalLM.from_pretrained(
     "llava-hf/llava-v1.6-mistral-7b-hf",
-    quantization_config=quantization_config
+    quantization_config={"bits": 4}
 )
 ```
 
 You can tune quantization parameters to achieve a better performance accuracy trade-off as follows:
 
 ```python
+from optimum.intel import OVWeightQuantizationConfig
+
 quantization_config = OVWeightQuantizationConfig(
     bits=4,
     sym=False,
 
@@ -44,7 +44,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "! pip install \"optimum-intel[openvino]\" datasets num2words torchvision\n",
+    "! pip install \"optimum-intel[openvino]\" datasets num2words torchvision transformers==4.52.*\n",
     "! pip install git+https://github.com/huggingface/optimum-benchmark.git"
    ]
   },
 
@@ -1030,7 +1030,17 @@ def forward(
 class _IPEXLlamaAttention(_IPEXAttention):
     def __init__(self, module, device, config) -> None:
         super().__init__(module, device, config)
-        if getattr(config, "quantization_config", None) is None:
+        # Skip concat_qkv creation for TP mode (when using DTensor)
+        is_tp_mode = (
+            hasattr(self.q_proj, "weight")
+            and type(self.q_proj.weight).__name__ == "DTensor"
+            or hasattr(self.k_proj, "weight")
+            and type(self.k_proj.weight).__name__ == "DTensor"
+            or hasattr(self.v_proj, "weight")
+            and type(self.v_proj.weight).__name__ == "DTensor"
+        )
+
+        if getattr(config, "quantization_config", None) is None and not is_tp_mode:
             concat_weight = torch.concat([self.q_proj.weight, self.k_proj.weight, self.v_proj.weight]).contiguous()
             bias_list = [bias for bias in [self.q_proj.bias, self.k_proj.bias, self.v_proj.bias] if bias is not None]
             use_bias = bias_list != []
@@ -1131,11 +1141,20 @@ def __init__(self, module, device, config) -> None:
         self.module_device = device
 
         if not config.compile and getattr(config, "quantization_config", None) is None:
-            # LinearAllreduce cannot use fused op LinearAdd
-            if module.down_proj.__class__.__name__ not in ["LinearAllreduce"]:
+            # Check if in TP mode (using DTensor)
+            is_tp_mode = (
+                hasattr(module.down_proj, "weight")
+                and type(module.down_proj.weight).__name__ == "DTensor"
+                or hasattr(module.gate_proj, "weight")
+                and type(module.gate_proj.weight).__name__ == "DTensor"
+                or hasattr(module.up_proj, "weight")
+                and type(module.up_proj.weight).__name__ == "DTensor"
+            )
+
+            if not is_tp_mode:
                 self.mlp_linear_add = LinearAdd(module.down_proj)
-            if isinstance(self.act_fn, nn.SiLU):
-                self.linear_silu_mul = Linear2SiluMul(module.gate_proj, module.up_proj)
+                if isinstance(self.act_fn, nn.SiLU):
+                    self.linear_silu_mul = Linear2SiluMul(module.gate_proj, module.up_proj)
 
     def forward(self, hidden_states: torch.Tensor, residual: torch.Tensor = None, **kwargs):
         if hasattr(self, "linear_silu_mul"):
 
@@ -520,9 +520,18 @@ class StoreAttr(object):
                     "Quantization of the weights requires nncf, please install it with `pip install nncf`"
                 )
 
+            from optimum.intel.openvino.configuration import _GPTOSSQuantizationConfig
             from optimum.intel.openvino.quantization import _weight_only_quantization
 
-            _weight_only_quantization(submodel, quantization_config)
+            if isinstance(quantization_config, _GPTOSSQuantizationConfig):
+                # A workaround for GPT-OSS model is required to run quantization twice, this way it is possible to
+                # selectively quantize some weights to 4 bits and some to 8 bits.
+                _weight_only_quantization(submodel, quantization_config.quantization_config1)
+                _weight_only_quantization(
+                    submodel, quantization_config.quantization_config2, verify_not_optimized=False
+                )
+            else:
+                _weight_only_quantization(submodel, quantization_config)
             compressed_submodel_path = submodel_path.parent / f"{submodel_path.stem}_compressed.xml"
             save_model(submodel, compressed_submodel_path, compress_to_fp16=False)
             del submodel
Original file line number	Diff line number	Diff line change
`@@ -44,7 +44,7 @@`
`44`	`44`	`"metadata": {},`
`45`	`45`	`"outputs": [],`
`46`	`46`	`"source": [`
`47`		`- "! pip install \"optimum-intel[openvino]\" datasets num2words torchvision\n",`
	`47`	`+ "! pip install \"optimum-intel[openvino]\" datasets num2words torchvision transformers==4.52.*\n",`
`48`	`48`	`"! pip install git+https://github.com/huggingface/optimum-benchmark.git"`
`49`	`49`	`]`
`50`	`50`	`},`