huggingface
diff --git a/‎.github/workflows/tests.yml
Lines changed: 1 addition & 1 deletion b/‎.github/workflows/tests.yml
Lines changed: 1 addition & 1 deletion
diff --git a/‎README.md
Lines changed: 12 additions & 0 deletions b/‎README.md
Lines changed: 12 additions & 0 deletions
diff --git a/‎docs/snippets/6_supported-models.snippet
Lines changed: 12 additions & 0 deletions b/‎docs/snippets/6_supported-models.snippet
Lines changed: 12 additions & 0 deletions
diff --git a/‎examples/demo-site/src/index.html
Lines changed: 7 additions & 7 deletions b/‎examples/demo-site/src/index.html
Lines changed: 7 additions & 7 deletions
diff --git a/‎examples/demo-site/src/main.js
Lines changed: 7 additions & 1 deletion b/‎examples/demo-site/src/main.js
Lines changed: 7 additions & 1 deletion
diff --git a/‎scripts/convert.py
Lines changed: 53 additions & 2 deletions b/‎scripts/convert.py
Lines changed: 53 additions & 2 deletions
diff --git a/‎scripts/extra/marian.py
Lines changed: 47 additions & 34 deletions b/‎scripts/extra/marian.py
Lines changed: 47 additions & 34 deletions
@@ -27,7 +27,7 @@ jobs:
           node-version: ${{ matrix.node-version }}
       - run: npm ci
       - run: npm run build
-      - run: pip install -r scripts/requirements.txt
+      - run: pip install -r tests/requirements.txt
 
       # Setup the testing environment
       - run: npm run generate-tests
 
@@ -87,16 +87,16 @@ <h2 class="fw-bolder">Demo</h2>
           <div class="col-12 mt-1">
             <select id="task" class="form-select">
               <option value="translation" selected>
-                Translation w/ t5-small (95 MB)
+                Translation w/ t5-small (78 MB)
               </option>
               <option value="text-generation">
-                Text generation w/ distilgpt2 (122 MB)
+                Text generation w/ distilgpt2 (85 MB)
               </option>
               <option value="masked-language-modelling">
-                Masked language modelling w/ bert-base-cased (132 MB)
+                Masked language modelling w/ bert-base-cased (110 MB)
               </option>
               <option value="sequence-classification">
-                Text classification w/ bert-base-multilingual-uncased-sentiment (168 MB)
+                Text classification w/ bert-base-multilingual-uncased-sentiment (169 MB)
               </option>
               <option value="token-classification">
                 Token classification w/ Davlan/bert-base-multilingual-cased-ner-hrl (178 MB)
@@ -108,16 +108,16 @@ <h2 class="fw-bolder">Demo</h2>
                 Question answering w/ distilbert-base-uncased-distilled-squad (66 MB)
               </option>
               <option value="summarization">
-                Summarization w/ distilbart-cnn-6-6 (335 MB)
+                Summarization w/ distilbart-cnn-6-6 (284 MB)
               </option>
               <option value="code-completion">
                 Code completion w/ Salesforce/codegen-350M-mono (369 MB)
               </option>
               <option value="automatic-speech-recognition">
-                Speech to text w/ whisper-tiny.en (61 MB)
+                Speech to text w/ whisper-tiny.en (41 MB)
               </option>
               <option value="image-to-text">
-                Image to text w/ vit-gpt2-image-captioning (283 MB)
+                Image to text w/ vit-gpt2-image-captioning (246 MB)
               </option>
               <option value="image-classification">
                 Image classification w/ google/vit-base-patch16-224 (88 MB)
 
@@ -124,7 +124,13 @@ const TASK_DEFAULT_PARAMS = {
     multi_label: false
   },
   'question-answering': {},
-  'summarization': DEFAULT_GREEDY_PARAMS,
+  'summarization': {
+    max_new_tokens: 50,
+    num_beams: 2,
+    temperature: 1,
+    top_k: 0,
+    do_sample: false
+  },
   'automatic-speech-recognition': DEFAULT_GREEDY_PARAMS,
   'image-to-text': DEFAULT_GREEDY_PARAMS,
   'image-classification': {},
 
@@ -26,18 +26,62 @@
 }
 
 MODEL_SPECIFIC_QUANTIZE_PARAMS = {
-    'whisper': {
+    # Decoder-only models
+    'codegen': {
+        'per_channel': False,
+        'reduce_range': False,
+    },
+    'gpt2': {
+        'per_channel': False,
+        'reduce_range': False,
+    },
+    'gpt_bigcode': {
+        'per_channel': False,
+        'reduce_range': False,
+    },
+    'gptj': {
+        'per_channel': False,
+        'reduce_range': False,
+    },
+    'gpt-neo': {
+        'per_channel': False,
+        'reduce_range': False,
+    },
+    'gpt-neox': {
+        'per_channel': False,
+        'reduce_range': False,
+    },
+    'mpt': {
         'per_channel': False,
         'reduce_range': False,
     },
     'bloom': {
         'per_channel': False,
         'reduce_range': False,
+    },
+    'llama': {
+        'per_channel': False,
+        'reduce_range': False,
+    },
+    'opt': {
+        'per_channel': False,
+        'reduce_range': False,
+    },
+
+    # Encoder-decoder models
+    'whisper': {
+        'per_channel': False,
+        'reduce_range': False,
+    },
+    'vision-encoder-decoder': {
+        'per_channel': False,
+        'reduce_range': False,
     }
 }
 
 MODELS_WITHOUT_TOKENIZERS = [
-    'wav2vec2'
+    'wav2vec2',
+    'wavlm',
 ]
 
 
@@ -294,6 +338,13 @@ def main():
         quantize_config = MODEL_SPECIFIC_QUANTIZE_PARAMS.get(
             config.model_type, DEFAULT_QUANTIZE_PARAMS)
 
+        # Update if user specified values
+        if conv_args.per_channel is not None:
+            quantize_config['per_channel'] = conv_args.per_channel
+
+        if conv_args.reduce_range is not None:
+            quantize_config['reduce_range'] = conv_args.reduce_range
+
         quantize([
             os.path.join(output_model_folder, x)
             for x in os.listdir(output_model_folder)
 
@@ -6,41 +6,54 @@
 # and make a pull request to this repo.
 
 SUPPORTED_HELSINKI_NLP_MODELS = [
-    'en-es', 'es-en',       # English <-> Spanish
-    'en-fr', 'fr-en',       # English <-> French
-    'en-hi', 'hi-en',       # English <-> Hindi
-    'en-de', 'de-en',       # English <-> German
-    'en-ru', 'ru-en',       # English <-> Russian
-    'en-it', 'it-en',       # English <-> Italian
-    'en-ar', 'ar-en',       # English <-> Arabic
-    'en-zh', 'zh-en',       # English <-> Chinese
-    'en-sv', 'sv-en',       # English <-> Swedish
-    'en-mul', 'mul-en',     # English <-> Multilingual
-    'en-nl', 'nl-en',       # English <-> Dutch
-    'en-fi', 'fi-en',       # English <-> Finnish
-    'en-jap', 'jap-en',     # English <-> Japanese
-    'en-cs', 'cs-en',       # English <-> Czech
-    'en-vi', 'vi-en',       # English <-> Vietnamese
-    'en-xh', 'xh-en',       # English <-> Xhosa
-    'en-hu', 'hu-en',       # English <-> Hungarian
-    'en-da', 'da-en',       # English <-> Danish
-    'en-id', 'id-en',       # English <-> Indonesia
-    'en-uk', 'uk-en',       # English <-> Ukranian
-    'en-af', 'af-en',       # English <-> Afrikaans
-    'de-es', 'es-de',       # German <-> Spanish
-    'fr-es', 'es-fr',       # French <-> Spanish
-    'fr-de', 'de-fr',       # French <-> German
-    'es-it', 'it-es',       # Spanish <-> Italian
+    'en-es', 'es-en',            # English <-> Spanish
+    'en-fr', 'fr-en',            # English <-> French
+    'en-hi', 'hi-en',            # English <-> Hindi
+    'en-de', 'de-en',            # English <-> German
+    'en-ru', 'ru-en',            # English <-> Russian
+    'en-it', 'it-en',            # English <-> Italian
+    'en-ar', 'ar-en',            # English <-> Arabic
+    'en-zh', 'zh-en',            # English <-> Chinese
+    'en-sv', 'sv-en',            # English <-> Swedish
+    'en-mul', 'mul-en',          # English <-> Multilingual
+    'en-nl', 'nl-en',            # English <-> Dutch
+    'en-fi', 'fi-en',            # English <-> Finnish
+    'en-jap', 'jap-en',          # English <-> Japanese
+    'en-cs', 'cs-en',            # English <-> Czech
+    'en-vi', 'vi-en',            # English <-> Vietnamese
+    'en-xh', 'xh-en',            # English <-> Xhosa
+    'en-hu', 'hu-en',            # English <-> Hungarian
+    'en-da', 'da-en',            # English <-> Danish
+    'en-id', 'id-en',            # English <-> Indonesia
+    'en-uk', 'uk-en',            # English <-> Ukranian
+    'en-af', 'af-en',            # English <-> Afrikaans
+    'en-ROMANCE', 'ROMANCE-en',  # English <-> ROMANCE
+    'de-es', 'es-de',            # German <-> Spanish
+    'fr-es', 'es-fr',            # French <-> Spanish
+    'fr-de', 'de-fr',            # French <-> German
+    'es-it', 'it-es',            # Spanish <-> Italian
+    'es-ru', 'ru-es',            # Spanish <-> Russian
+    'fr-ru', 'ru-fr',            # French <-> Russian
+    'fr-ro', 'ro-fr',            # French <-> Romanian
+    'uk-ru', 'ru-uk',            # Ukranian <-> Russian
 
-    'en-ro',                # English --> Romanian
-    'pl-en',                # Poland --> English
-    'tr-en',                # Turkey --> English
-    'ko-en',                # Korean --> English
-
-    'es-ru', 'ru-es',       # Spanish <-> Russian
-    'fr-ru', 'ru-fr',       # French <-> Russian
-    'fr-ro', 'ro-fr',       # French <-> Romanian
-    'uk-ru', 'ru-uk',       # Ukranian <-> Russian
+    'it-fr',                     # Italian --> French
+    'en-ro',                     # English --> Romanian
+    'pl-en',                     # Poland --> English
+    'tr-en',                     # Turkey --> English
+    'ko-en',                     # Korean --> English
+    'bat-en',                    # Baltic --> English
+    'et-en',                     # Estonian --> English
+    'fi-de',                     # Finnish --> German
+    'gem-gem',                   # Germanic <-> Germanic
+    'gmw-gmw',                   # West Germanic <-> West Germanic
+    'da-de',                     # Danish <-> German
+    'ja-en',                     # Japanese --> English
+    'nl-fr',                     # Netherlands --> French
+    'no-de',                     # Norwegian --> German
+    'tc-big-tr-en',              # Turkish --> English
+    'th-en',                     # Thai --> English
+    'en-cs',                     # English --> Czech
 ]