shoutsid
diff --git a/‎.vscode/settings.json‎
Lines changed: 8 additions & 1 deletion b/‎.vscode/settings.json‎
Lines changed: 8 additions & 1 deletion
diff --git a/‎app/models/improved_agent.py‎
Lines changed: 2 additions & 2 deletions b/‎app/models/improved_agent.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎app/models/llama/attention.py‎
Lines changed: 24 additions & 3 deletions b/‎app/models/llama/attention.py‎
Lines changed: 24 additions & 3 deletions
diff --git a/‎app/models/llama/constants.py‎
Lines changed: 151 additions & 16 deletions b/‎app/models/llama/constants.py‎
Lines changed: 151 additions & 16 deletions
@@ -1,5 +1,12 @@
 {
   "[python]": {
-    "editor.defaultFormatter": "ms-python.autopep8"
+    "editor.defaultFormatter": "ms-python.python",
+    "editor.formatOnSave": true,
+    "editor.formatOnSaveMode": "modifications",
+    "editor.formatOnType": true,
+    "editor.formatOnPaste": true,
+    "editor.codeActionsOnSave": {
+      "source.organizeImports": false
+    }
   }
 }
@@ -38,8 +38,8 @@ def __init__(self, agent_id: int, num_tasks: int, num_features: int):
         self.policy_net: DQN = DQN(num_features).to(self.device)
         self.target_net.load_state_dict(self.policy_net.state_dict())
         self.target_net.eval()
-        self.optimizer = optim.RMSprop(self.policy_net.parameters())
-        self.memory = ReplayMemory(10000)
+        self.optimizer: optim.RMSprop = optim.RMSprop(self.policy_net.parameters())
+        self.memory: ReplayMemory = ReplayMemory(10000)
         self.previous_loss: List[float] = [0] * num_tasks
 
     def observe(self, task: int) -> Tuple[float, float]:
 
@@ -33,7 +33,16 @@ class Attention:
         wo (Linear): Linear layer for output projection.
 
     Methods:
-        __call__(self, x: Tensor, cache_k: Optional[Tensor], cache_v: Optional[Tensor], start_pos: int, freqs_cis: Tensor, mask: Optional[Tensor], jit_ctx: Optional[Dict[Variable, int]] = None) -> Tuple[Tensor, Tensor, Tensor]:
+        __call__(
+            self,
+            x: Tensor,
+            cache_k: Optional[Tensor],
+            cache_v: Optional[Tensor],
+            start_pos: int,
+            freqs_cis: Tensor,
+            mask: Optional[Tensor],
+            jit_ctx: Optional[Dict[Variable, int]] = None
+        ) -> Tuple[Tensor, Tensor, Tensor]:
             Apply multi-head attention to the input sequence `x`.
     """
 
@@ -48,7 +57,16 @@ def __init__(self, dim, n_heads, n_kv_heads, linear=Linear):
         self.wv = linear(dim, self.n_kv_heads * self.head_dim, bias=False)
         self.wo = linear(self.n_heads * self.head_dim, dim, bias=False)
 
-    def __call__(self, x:Tensor, cache_k:Optional[Tensor], cache_v:Optional[Tensor], start_pos:int, freqs_cis:Tensor, mask:Optional[Tensor], jit_ctx:Optional[Dict[Variable,int]]=None) -> Tuple[Tensor, Tensor, Tensor]:
+    def __call__(
+        self,
+        x: Tensor,
+        cache_k: Optional[Tensor],
+        cache_v: Optional[Tensor],
+        start_pos: int,
+        freqs_cis: Tensor,
+        mask: Optional[Tensor],
+        jit_ctx: Optional[Dict[Variable, int]] = None
+    ) -> Tuple[Tensor, Tensor, Tensor]:
         """
         Apply multi-head attention to the input sequence `x`.
 
@@ -85,5 +103,8 @@ def __call__(self, x:Tensor, cache_k:Optional[Tensor], cache_v:Optional[Tensor],
 
         cache_k, cache_v = keys, values
         keys, values = repeat_kv(keys, self.n_rep).realize(), repeat_kv(values, self.n_rep).realize()
-        attn = Tensor.scaled_dot_product_attention(xq.transpose(1, 2), keys.transpose(1, 2), values.transpose(1, 2), mask).transpose(1, 2).reshape(bsz, seqlen, -1)
+        attn = (Tensor.scaled_dot_product_attention(xq.transpose(1, 2), keys.transpose(1, 2), values.transpose(1, 2), mask)
+                .transpose(1, 2)
+                .reshape(bsz, seqlen, -1))
+
         return self.wo(attn).realize(), cache_k.realize(), cache_v.realize()
@@ -5,71 +5,206 @@
 MODEL_PARAMS = {
     "1": {
         "7B": {
-            "args": {"dim": 4096, "multiple_of": 256, "n_heads": 32, "n_layers": 32, "norm_eps": 1e-06, "vocab_size": 32000},
+            "args": {
+                "dim": 4096,
+                "multiple_of": 256,
+                "n_heads": 32,
+                "n_layers": 32,
+                "norm_eps": 1e-06,
+                "vocab_size": 32000
+            },
             "files": 1,
         },
         "13B": {
-            "args": {"dim": 5120, "multiple_of": 256, "n_heads": 40, "n_layers": 40, "norm_eps": 1e-06, "vocab_size": 32000},
+            "args": {
+                "dim": 5120,
+                "multiple_of": 256,
+                "n_heads": 40,
+                "n_layers": 40,
+                "norm_eps": 1e-06,
+                "vocab_size": 32000
+            },
             "files": 2,
         },
         "30B": {
-            "args": {"dim": 6656, "multiple_of": 256, "n_heads": 52, "n_layers": 60, "norm_eps": 1e-06, "vocab_size": 32000},
+            "args": {
+                "dim": 6656,
+                "multiple_of": 256,
+                "n_heads": 52,
+                "n_layers": 60,
+                "norm_eps": 1e-06,
+                "vocab_size": 32000
+            },
             "files": 4,
         },
         "65B": {
-            "args": {"dim": 8192, "multiple_of": 256, "n_heads": 64, "n_layers": 80, "norm_eps": 1e-05, "vocab_size": 32000},
+            "args": {
+                "dim": 8192,
+                "multiple_of": 256,
+                "n_heads": 64,
+                "n_layers": 80,
+                "norm_eps": 1e-05,
+                "vocab_size": 32000
+            },
             "files": 8,
         },
     },
     "2": {
         "7B": {
-            "args": {"dim": 4096, "multiple_of": 256, "n_heads": 32, "n_layers": 32, "norm_eps": 1e-05, "vocab_size": 32000},
+            "args": {
+                "dim": 4096,
+                "multiple_of": 256,
+                "n_heads": 32,
+                "n_layers": 32,
+                "norm_eps": 1e-05,
+                "vocab_size": 32000
+            },
             "files": 1,
         },
         "13B": {
-            "args": {"dim": 5120, "multiple_of": 256, "n_heads": 40, "n_layers": 40, "norm_eps": 1e-05, "vocab_size": 32000},
+            "args": {
+                "dim": 5120,
+                "multiple_of": 256,
+                "n_heads": 40,
+                "n_layers": 40,
+                "norm_eps": 1e-05,
+                "vocab_size": 32000
+            },
             "files": 2,
         },
         "70B": {
-            "args": {"dim": 8192, "multiple_of": 4096, "ffn_dim_multiplier": 1.3, "n_heads": 64, "n_kv_heads": 8, "n_layers": 80, "norm_eps": 1e-05, "vocab_size": 32000},
+            "args": {
+                "dim": 8192,
+                "multiple_of": 4096,
+                "ffn_dim_multiplier": 1.3,
+                "n_heads": 64,
+                "n_kv_heads": 8,
+                "n_layers": 80,
+                "norm_eps": 1e-05,
+                "vocab_size": 32000
+            },
             "files": 8,
         },
     },
     "code": {
         "7B": {
-            "args": {"dim": 4096, "n_layers": 32, "n_heads": 32, "multiple_of": 256, "ffn_dim_multiplier": 1.0, "norm_eps": 1e-5, "rope_theta": 1000000, "vocab_size": 32016},
+            "args": {
+                "dim": 4096,
+                "n_layers": 32,
+                "n_heads": 32,
+                "multiple_of": 256,
+                "ffn_dim_multiplier": 1.0,
+                "norm_eps": 1e-5,
+                "rope_theta": 1000000,
+                "vocab_size": 32016
+            },
             "files": 1,
         },
         "7B-Python": {
-            "args": {"dim": 4096, "n_layers": 32, "n_heads": 32, "multiple_of": 256, "ffn_dim_multiplier": 1.0, "norm_eps": 1e-5, "rope_theta": 1000000, "vocab_size": 32000},
+            "args": {
+                "dim": 4096,
+                "n_layers": 32,
+                "n_heads": 32,
+                "multiple_of": 256,
+                "ffn_dim_multiplier": 1.0,
+                "norm_eps": 1e-5,
+                "rope_theta": 1000000,
+                "vocab_size": 32000
+            },
             "files": 1,
         },
         "7B-Instruct": {
-            "args": {"dim": 4096, "n_layers": 32, "n_heads": 32, "multiple_of": 256, "ffn_dim_multiplier": 1.0, "norm_eps": 1e-5, "rope_theta": 1000000, "vocab_size": 32016},
+            "args": {
+                "dim": 4096,
+                "n_layers": 32,
+                "n_heads": 32,
+                "multiple_of": 256,
+                "ffn_dim_multiplier": 1.0,
+                "norm_eps": 1e-5,
+                "rope_theta": 1000000,
+                "vocab_size": 32016
+            },
             "files": 1,
         },
         "13B": {
-            "args": {"dim": 5120, "n_layers": 40, "n_heads": 40, "multiple_of": 256, "ffn_dim_multiplier": 1.0, "norm_eps": 1e-5, "rope_theta": 1000000, "vocab_size": 32016},
+            "args": {
+                "dim": 5120,
+                "n_layers": 40,
+                "n_heads": 40,
+                "multiple_of": 256,
+                "ffn_dim_multiplier": 1.0,
+                "norm_eps": 1e-5,
+                "rope_theta": 1000000,
+                "vocab_size": 32016
+            },
             "files": 2,
         },
         "13B-Python": {
-            "args": {"dim": 5120, "n_layers": 40, "n_heads": 40, "multiple_of": 256, "ffn_dim_multiplier": 1.0, "norm_eps": 1e-5, "rope_theta": 1000000, "vocab_size": 32000},
+            "args": {
+                "dim": 5120,
+                "n_layers": 40,
+                "n_heads": 40,
+                "multiple_of": 256,
+                "ffn_dim_multiplier": 1.0,
+                "norm_eps": 1e-5,
+                "rope_theta": 1000000,
+                "vocab_size": 32000
+            },
             "files": 2,
         },
         "13B-Instruct": {
-            "args": {"dim": 5120, "n_layers": 40, "n_headvocab_sizes": 40, "multiple_of": 256, "ffn_dim_multiplier": 1.0, "norm_eps": 1e-5, "rope_theta": 1000000, "vocab_size": 32000},
+            "args": {
+                "dim": 5120,
+                "n_layers": 40,
+                "n_headvocab_sizes": 40,
+                "multiple_of": 256,
+                "ffn_dim_multiplier": 1.0,
+                "norm_eps": 1e-5,
+                "rope_theta": 1000000,
+                "vocab_size": 32000
+            },
             "files": 2,
         },
         "34B": {
-            "args": {"dim": 8192, "n_layers": 48, "n_heads": 64, "n_kv_heads": 8, "multiple_of": 256, "ffn_dim_multiplier": 1.0, "norm_eps": 1e-5, "rope_theta": 1000000, "vocab_size": 32016},
+            "args": {
+                "dim": 8192,
+                "n_layers": 48,
+                "n_heads": 64,
+                "n_kv_heads": 8,
+                "multiple_of": 256,
+                "ffn_dim_multiplier": 1.0,
+                "norm_eps": 1e-5,
+                "rope_theta": 1000000,
+                "vocab_size": 32016
+            },
             "files": 4,
         },
         "34B-Python": {
-            "args": {"dim": 8192, "n_layers": 48, "n_heads": 64, "n_kv_heads": 8, "multiple_of": 256, "ffn_dim_multiplier": 1.0, "norm_eps": 1e-5, "rope_theta": 1000000, "vocab_size": 32000},
+            "args": {
+                "dim": 8192,
+                "n_layers": 48,
+                "n_heads": 64,
+                "n_kv_heads": 8,
+                "multiple_of": 256,
+                "ffn_dim_multiplier": 1.0,
+                "norm_eps": 1e-5,
+                "rope_theta": 1000000,
+                "vocab_size": 32000
+            },
             "files": 4,
         },
         "34B-Instruct": {
-            "args": {"dim": 8192, "n_layers": 48, "n_heads": 64, "n_kv_heads": 8, "multiple_of": 256, "ffn_dim_multiplier": 1.0, "norm_eps": 1e-5, "rope_theta": 1000000, "vocab_size": 32000},
+            "args": {
+                "dim": 8192,
+                "n_layers": 48,
+                "n_heads": 64,
+                "n_kv_heads": 8,
+                "multiple_of": 256,
+                "ffn_dim_multiplier": 1.0,
+                "norm_eps": 1e-5,
+                "rope_theta": 1000000,
+                "vocab_size": 32000
+            },
             "files": 4,
         },
     }
Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,12 @@`
`1`	`1`	`{`
`2`	`2`	`"[python]": {`
`3`		`- "editor.defaultFormatter": "ms-python.autopep8"`
	`3`	`+ "editor.defaultFormatter": "ms-python.python",`
	`4`	`+ "editor.formatOnSave": true,`
	`5`	`+ "editor.formatOnSaveMode": "modifications",`
	`6`	`+ "editor.formatOnType": true,`
	`7`	`+ "editor.formatOnPaste": true,`
	`8`	`+ "editor.codeActionsOnSave": {`
	`9`	`+ "source.organizeImports": false`
	`10`	`+ }`
`4`	`11`	`}`
`5`	`12`	`}`