ModelTC
diff --git a/‎llmc/__main__.py‎
Lines changed: 40 additions & 33 deletions b/‎llmc/__main__.py‎
Lines changed: 40 additions & 33 deletions
diff --git a/‎llmc/compression/blockwise_optimization.py‎
Lines changed: 3 additions & 1 deletion b/‎llmc/compression/blockwise_optimization.py‎
Lines changed: 3 additions & 1 deletion
diff --git a/‎llmc/compression/quantization/adadim.py‎
Lines changed: 2 additions & 2 deletions b/‎llmc/compression/quantization/adadim.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎llmc/compression/quantization/awq.py‎
Lines changed: 2 additions & 2 deletions b/‎llmc/compression/quantization/awq.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎llmc/compression/quantization/base_blockwise_quantization.py‎
Lines changed: 4 additions & 3 deletions b/‎llmc/compression/quantization/base_blockwise_quantization.py‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎llmc/compression/quantization/dgq.py‎
Lines changed: 2 additions & 2 deletions b/‎llmc/compression/quantization/dgq.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎llmc/compression/quantization/gptq.py‎
Lines changed: 2 additions & 2 deletions b/‎llmc/compression/quantization/gptq.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎llmc/compression/quantization/hqq.py‎
Lines changed: 2 additions & 2 deletions b/‎llmc/compression/quantization/hqq.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎llmc/compression/quantization/llmint8.py‎
Lines changed: 2 additions & 2 deletions b/‎llmc/compression/quantization/llmint8.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎llmc/compression/quantization/ntweak.py‎
Lines changed: 2 additions & 2 deletions b/‎llmc/compression/quantization/ntweak.py‎
Lines changed: 2 additions & 2 deletions
@@ -69,43 +69,50 @@ def main(config):
                 for ppl_eval in eval_list:
                     ppl = ppl_eval.eval(model)
                     logger.info(f'{ppl_eval.dataset} ppl : {ppl}')
-
-    if not config.get('calib', False):
-        blockwise_opt = ALGO_REGISTRY[config.quant.method](
-            model,
-            quant_config=config.quant,
-            input=None,
-            padding_mask=None,
-            config=config
-        )
-        blockwise_opt.run_block_loop()
-        dist.barrier()
-    else:
-        dataset = BaseDataset(tokenizer.get_tokenizer(), config.calib, model.batch_process)
-        calib_data, padding_mask = dataset.get_calib_dataset()
-        padding_side = getattr(tokenizer.get_tokenizer(), 'padding_side', None)
-        model.collect_first_block_input(calib_data, padding_mask, padding_side, config.calib.type)
-        del calib_data
-        gc.collect()
-        torch.cuda.empty_cache()
-        if not config.get('sparse', False):
+    for modality in config.quant.get('quant_objects', ['language']):
+        if not config.get('calib', False):
             blockwise_opt = ALGO_REGISTRY[config.quant.method](
                 model,
-                config.quant,
-                model.get_first_block_input(),
-                model.get_padding_mask(),
-                config
+                quant_config=config.quant,
+                input=None,
+                padding_mask=None,
+                config=config,
+                modality=modality,
             )
+            blockwise_opt.run_block_loop()
+            dist.barrier()
         else:
-            blockwise_opt = ALGO_REGISTRY[config.sparse.method](
-                model,
-                config.sparse,
-                model.get_first_block_input(),
-                model.get_padding_mask(),
-                config
-            )
-        blockwise_opt.run_block_loop()
-        dist.barrier()
+            dataset = BaseDataset(tokenizer.get_tokenizer(), config.calib, model.batch_process)
+            calib_data, padding_mask = dataset.get_calib_dataset()
+            padding_side = getattr(tokenizer.get_tokenizer(), 'padding_side', None)
+            model.collect_first_block_input(calib_data,
+                                            padding_mask,
+                                            padding_side,
+                                            config.calib.type,
+                                            modality)
+            del calib_data
+            gc.collect()
+            torch.cuda.empty_cache()
+            if not config.get('sparse', False):
+                blockwise_opt = ALGO_REGISTRY[config.quant.method](
+                    model,
+                    config.quant,
+                    model.get_first_block_input(),
+                    model.get_padding_mask(),
+                    config,
+                    modality
+                )
+            else:
+                blockwise_opt = ALGO_REGISTRY[config.sparse.method](
+                    model,
+                    config.sparse,
+                    model.get_first_block_input(),
+                    model.get_padding_mask(),
+                    config,
+                    modality
+                )
+            blockwise_opt.run_block_loop()
+            dist.barrier()
 
     if int(os.environ['RANK']) == 0:
         if 'eval' in config and 'transformed' in config.eval.eval_pos:
 
@@ -6,8 +6,10 @@
 
 
 class BlockwiseOpt(metaclass=ABCMeta):
-    def __init__(self, model, quant_config, input, padding_mask, config):
+    def __init__(self, model, quant_config, input, padding_mask, config, modality='language'):
         self.model = model
+        self.modality = modality
+        self.model.find_blocks(modality)
         self.blocks = model.get_blocks()
         self.quant_config = quant_config
         self.sparsity_config = quant_config
 
@@ -9,8 +9,8 @@
 
 @ALGO_REGISTRY
 class AdaDim(BaseBlockwiseQuantization):
-    def __init__(self, model, quant_config, input, config):
-        super().__init__(model, quant_config, input, config)
+    def __init__(self, model, quant_config, input, config, modality='language'):
+        super().__init__(model, quant_config, input, config, modality)
 
     def get_layer_out(self, x, layer):
         with torch.no_grad():
 
@@ -17,8 +17,8 @@
 
 @ALGO_REGISTRY
 class Awq(BaseBlockwiseQuantization):
-    def __init__(self, model, quant_config, input, padding_mask, config):
-        super().__init__(model, quant_config, input, padding_mask, config)
+    def __init__(self, model, quant_config, input, padding_mask, config, modality='language'):
+        super().__init__(model, quant_config, input, padding_mask, config, modality)
         special_config = self.quant_config.get('special', {})
         self.trans = special_config.get('trans', True)
         self.trans_version = special_config.get('trans_version', 'v2')
 
@@ -27,8 +27,8 @@
 
 
 class BaseBlockwiseQuantization(BlockwiseOpt):
-    def __init__(self, model, quant_config, input, padding_mask, config):
-        super().__init__(model, quant_config, input, padding_mask, config)
+    def __init__(self, model, quant_config, input, padding_mask, config, modality='language'):
+        super().__init__(model, quant_config, input, padding_mask, config, modality)
         self.set_quant_config()
 
     def w_qdq(self, module, wquantizer):
@@ -439,7 +439,8 @@ def run(self, block, input_feat, handles):
 
     def block_transform(self, block, input_feat, block_kwargs):
         logger.info(f'Start transform the {self.block_idx}-th block')
-        subsets = self.model.get_subsets_in_block(block)
+        subsets = self.model.get_subsets_in_block(block) \
+            if self.modality == 'language' else self.model.get_vision_subsets_in_block(block)
 
         if self.act_static:
             self.register_non_linear_qparams(block, input_feat)
 
@@ -13,8 +13,8 @@
 
 @ALGO_REGISTRY
 class DGQ(BaseBlockwiseQuantization):
-    def __init__(self, model, quant_config, input, padding_mask, config):
-        super().__init__(model, quant_config, input, padding_mask, config)
+    def __init__(self, model, quant_config, input, padding_mask, config, modality='language'):
+        super().__init__(model, quant_config, input, padding_mask, config, modality)
         self.model_dtype = next(self.model.model.parameters()).dtype
 
     def w_qdq(self, module, wquantizer):
 
@@ -17,8 +17,8 @@
 
 @ALGO_REGISTRY
 class GPTQ(BaseBlockwiseQuantization):
-    def __init__(self, model, quant_config, input, padding_mask, config):
-        super().__init__(model, quant_config, input, padding_mask, config)
+    def __init__(self, model, quant_config, input, padding_mask, config, modality='language'):
+        super().__init__(model, quant_config, input, padding_mask, config, modality)
         self.dev = torch.device('cuda')
         self.model_dtype = next(self.model.model.parameters()).dtype
         self.add_quant_config()
 
@@ -11,8 +11,8 @@
 
 @ALGO_REGISTRY
 class HQQ(BaseBlockwiseQuantization):
-    def __init__(self, model, quant_config, input, padding_mask, config):
-        super().__init__(model, quant_config, input, padding_mask, config)
+    def __init__(self, model, quant_config, input, padding_mask, config, modality='language'):
+        super().__init__(model, quant_config, input, padding_mask, config, modality)
         self.add_quant_config()
 
     @torch.no_grad()
 
@@ -9,8 +9,8 @@
 
 @ALGO_REGISTRY
 class LlmInt8(BaseBlockwiseQuantization):
-    def __init__(self, model, quant_config, input, padding_mask, config):
-        super().__init__(model, quant_config, input, padding_mask, config)
+    def __init__(self, model, quant_config, input, padding_mask, config, modality='language'):
+        super().__init__(model, quant_config, input, padding_mask, config, modality)
         self.add_quant_config()
 
     @torch.no_grad()
 
@@ -19,8 +19,8 @@
 
 @ALGO_REGISTRY
 class NormTweaking(BaseBlockwiseQuantization):
-    def __init__(self, model, quant_config, input, padding_mask, config):
-        super().__init__(model, quant_config, input, padding_mask, config)
+    def __init__(self, model, quant_config, input, padding_mask, config, modality='language'):
+        super().__init__(model, quant_config, input, padding_mask, config, modality)
         self.add_quant_config()
 
         model_type = self.config['model']['type']