nod-ai
diff --git a/‎docs/model_cookbook.md‎
Lines changed: 0 additions & 11 deletions b/‎docs/model_cookbook.md‎
Lines changed: 0 additions & 11 deletions
diff --git a/‎sharktank/sharktank/evaluate/perplexity_iree.py‎
Lines changed: 3 additions & 12 deletions b/‎sharktank/sharktank/evaluate/perplexity_iree.py‎
Lines changed: 3 additions & 12 deletions
diff --git a/‎sharktank/sharktank/evaluate/perplexity_prefill.py‎
Lines changed: 0 additions & 276 deletions b/‎sharktank/sharktank/evaluate/perplexity_prefill.py‎
Lines changed: 0 additions & 276 deletions
diff --git a/‎sharktank/sharktank/evaluate/perplexity_torch.py‎
Lines changed: 3 additions & 12 deletions b/‎sharktank/sharktank/evaluate/perplexity_torch.py‎
Lines changed: 3 additions & 12 deletions
@@ -269,14 +269,3 @@ python -m sharktank.examples.paged_llm_v1 \
   --dump-decode-steps=1 \
   --dump-path='/tmp'
 ```
-
-## Generating data for llama models
-
-```bash
-set TURBINE_DEBUG=log_level=info
-python -m sharktank.models.llama.tools.generate_data \
-  --tokenizer=openlm-research/open_llama_3b_v2 \
-  --config=/tmp/open_llama_3b_v2/open-llama-3b-v2-f16.json \
-  --output-dir=/tmp/open_llama_3b_v2/inputs \
-  --prompt="What is the meaning of life?"
-```
@@ -21,11 +21,8 @@
 from torch.nn import CrossEntropyLoss
 import iree.runtime
 
-from sharktank.models.llama.llama import *
-from sharktank.models.mixtral.mixtral import *
-from sharktank.models.grok.grok import *
-
-from ..models.llama.sharding import shard_theta
+from sharktank.models.llm import *
+from sharktank.models.llama.sharding import shard_theta
 
 from sharktank.layers import *
 from sharktank.types import *
@@ -187,13 +184,7 @@ def load_model(self, weight_path, tokenizer):
 
         theta = weight_path.root_theta
 
-        if self.config.hp.expert_count:
-            if self.config.hp.model_arch == "grok":
-                model = PagedGrokModelV1(theta, self.config)
-            else:
-                model = PagedMixtralModelV1(theta, self.config)
-        else:
-            model = PagedLlamaModelV1(theta, self.config)
+        model = PagedLlmModelV1(theta, self.config)
 
         self.generator = TorchGenerator(model, tokenizer)
 
 
@@ -18,11 +18,8 @@
 from sharktank.layers import *
 from sharktank.types import *
 
-from sharktank.models.llama.llama import *
-from sharktank.models.mixtral.mixtral import *
-from sharktank.models.grok.grok import *
-
-from ..models.llama.sharding import shard_theta
+from sharktank.models.llm import *
+from sharktank.models.llama.sharding import shard_theta
 
 from sharktank.utils import cli
 from sharktank.utils.load_llm import *
@@ -106,13 +103,7 @@ def load_model(self, dataset, tokenizer, tensor_parallelism_size, attention_kern
 
         theta = dataset.root_theta
 
-        if self.config.hp.expert_count:
-            if self.config.hp.model_arch == "grok":
-                model = PagedGrokModelV1(theta, self.config)
-            else:
-                model = PagedMixtralModelV1(theta, self.config)
-        else:
-            model = PagedLlamaModelV1(theta, self.config)
+        model = PagedLlmModelV1(theta, self.config)
 
         self.generator = TorchGenerator(model, tokenizer)