zhudotexe
diff --git a/‎bench_engines.py‎
Lines changed: 38 additions & 0 deletions b/‎bench_engines.py‎
Lines changed: 38 additions & 0 deletions
diff --git a/‎pyproject.toml‎
Lines changed: 1 addition & 1 deletion b/‎pyproject.toml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎redel/tools/fanoutqa/impl.py‎
Lines changed: 3 additions & 3 deletions b/‎redel/tools/fanoutqa/impl.py‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎slurm/gen_slurm.py‎
Lines changed: 31 additions & 4 deletions b/‎slurm/gen_slurm.py‎
Lines changed: 31 additions & 4 deletions
diff --git a/‎slurm/gpt-oss/fanoutqa-1-full.sh‎
Lines changed: 18 additions & 0 deletions b/‎slurm/gpt-oss/fanoutqa-1-full.sh‎
Lines changed: 18 additions & 0 deletions
diff --git a/‎slurm/gpt-oss/fanoutqa-2-root-fc.sh‎
Lines changed: 18 additions & 0 deletions b/‎slurm/gpt-oss/fanoutqa-2-root-fc.sh‎
Lines changed: 18 additions & 0 deletions
diff --git a/‎slurm/gpt-oss/fanoutqa-3-baseline.sh‎
Lines changed: 18 additions & 0 deletions b/‎slurm/gpt-oss/fanoutqa-3-baseline.sh‎
Lines changed: 18 additions & 0 deletions
diff --git a/‎slurm/gpt-oss/fanoutqa-4-small-leaf.sh‎
Lines changed: 18 additions & 0 deletions b/‎slurm/gpt-oss/fanoutqa-4-small-leaf.sh‎
Lines changed: 18 additions & 0 deletions
diff --git a/‎slurm/gpt-oss/fanoutqa-5-small-all.sh‎
Lines changed: 18 additions & 0 deletions b/‎slurm/gpt-oss/fanoutqa-5-small-all.sh‎
Lines changed: 18 additions & 0 deletions
diff --git a/‎slurm/gpt-oss/fanoutqa-6-small-baseline.sh‎
Lines changed: 18 additions & 0 deletions b/‎slurm/gpt-oss/fanoutqa-6-small-baseline.sh‎
Lines changed: 18 additions & 0 deletions
@@ -168,6 +168,44 @@ def get_engine(model_class: str, model_id: str, context_size: int = None):
                 },
                 sampling_params=SamplingParams(temperature=0.7, max_tokens=2048, min_tokens=1),
             )
+    # ===== GPTOSS =====
+    if model_class == "gpt-oss":
+        from kani.ext.vllm import VLLMServerEngine
+        from kani.model_specific.gpt_oss import GPTOSSParser
+
+        model = VLLMServerEngine(
+            model_id=model_id,
+            max_context_size=context_size or 131072,
+            vllm_args={
+                "tensor_parallel_size": 8,
+                "enable_prefix_caching": True,
+            },
+            temperature=0.7,
+            max_tokens=8192,
+            min_tokens=1,
+        )
+        return GPTOSSParser(model)
+    # ===== QWEN3 =====
+    if model_class == "qwen3":
+        from kani.ext.vllm import VLLMServerEngine
+        from kani.model_specific.qwen3 import Qwen3ThinkingParser
+
+        model = VLLMServerEngine(
+            model_id=model_id,
+            max_context_size=context_size or 262144,
+            vllm_args={
+                "tensor_parallel_size": 8,
+                "enable_prefix_caching": True,
+            },
+            # suggested from model card
+            temperature=0.6,
+            top_p=0.95,
+            top_k=20,
+            min_p=0,
+            max_tokens=8192,
+            min_tokens=1,
+        )
+        return Qwen3ThinkingParser(model)
     raise ValueError("unknown engine")
 
 
 
@@ -21,7 +21,7 @@ classifiers = [
     "Topic :: Scientific/Engineering :: Artificial Intelligence",
 ]
 dependencies = [
-    "kani>=1.1.0,<2.0.0",
+    "kani>=1.7.0,<2.0.0",
     "kani-ratelimits",
     "pydantic>=2.0.0,<3.0.0",
     "rapidfuzz>=3.9.0,<4.0.0",
 
@@ -75,7 +75,7 @@ def search(self, query: str):
         # if the content fits in the context, return that
         wiki_content = fanoutqa.wiki_content(found_article)
         full_content = prompt.format(f"<content>\n{wiki_content}\n</content>\n")
-        if (retrieved_tokens := self.kani.message_token_len(ChatMessage.user(full_content))) <= self.max_search_tokens:
+        if (retrieved_tokens := len(full_content)) <= self.max_search_tokens:
             self.app.dispatch(
                 FOQARetrievalType(
                     id=self.kani.id,
@@ -96,14 +96,14 @@ def search(self, query: str):
         for doc in corpus.best(user_query):
             formatted = f"<fragment>\n{doc.content}\n</fragment>\n"
             content = prompt.format("".join(retrieved_docs) + formatted)
-            doc_len = self.kani.engine.message_len(ChatMessage.user(content))
+            doc_len = len(content)
             if doc_len > self.max_search_tokens:
                 break
             retrieved_docs.append(formatted)
 
         # return
         out = prompt.format("".join(retrieved_docs))
-        retrieved_tokens = self.kani.engine.message_len(ChatMessage.user(out))
+        retrieved_tokens = len(out)
         self.app.dispatch(
             FOQARetrievalType(
                 id=self.kani.id,
 
@@ -1,5 +1,6 @@
+import dataclasses
 import os
-from collections import namedtuple
+from dataclasses import dataclass
 
 HEADER_TEMPLATE = """\
 #!/bin/bash
@@ -43,7 +44,16 @@
     "short-baseline",
 ]
 
-ModelConfig = namedtuple("ModelConfig", "model_class large small size extras")
+
+@dataclasses.dataclass
+class ModelConfig:
+    model_class: str
+    large: str
+    small: str
+    size: int
+    extras: str
+    benches: list[str] = dataclasses.field(default_factory=lambda: BENCHES)
+
 
 MODELS = [
     # model class, large, small, size, extras
@@ -72,6 +82,23 @@
         size=8,
         extras="--engine-timeout 1800",  # 30 min timeout per trial
     ),
+    # oct25
+    ModelConfig(
+        model_class="qwen3",
+        large="Qwen/Qwen3-235B-A22B-Thinking-2507",
+        small="Qwen/Qwen3-4B-Thinking-2507",
+        size=8,
+        extras="--engine-timeout 1800",  # 30 min timeout per trial
+        benches=["fanoutqa", "travelplanner"],
+    ),
+    ModelConfig(
+        model_class="gpt-oss",
+        large="openai/gpt-oss-120b",
+        small="openai/gpt-oss-20b",
+        size=8,
+        extras="--engine-timeout 1800",  # 30 min timeout per trial
+        benches=["fanoutqa", "travelplanner"],
+    ),
 ]
 
 
@@ -82,7 +109,7 @@ def main():
         gpus = model.size
         gpuconstraint = "#SBATCH --constraint=48GBgpu" if model.size else ""
 
-        for bench in BENCHES:
+        for bench in model.benches:
             # WA needs extra env vars
             if bench == "webarena":
                 bench_extras = "bash slurm/webarena-startup.sh\nsleep 600"
@@ -126,7 +153,7 @@ def main():
                 ).strip()
                 all_commands.append(content)
                 os.makedirs(f"slurm/{model.model_class}", exist_ok=True)
-                with open(f"slurm/{model.model_class}/{bench}-{idx+1}-{config}.sh", "w") as f:
+                with open(f"slurm/{model.model_class}/{bench}-{idx + 1}-{config}.sh", "w") as f:
                     f.write(header)
                     f.write("\n")
                     f.write(content)
 
@@ -0,0 +1,18 @@
+#!/bin/bash
+#
+#SBATCH --partition=p_nlp
+#SBATCH --job-name=rd-full-fanoutqa-gpt-oss
+#SBATCH --output=/nlpgpu/data/andrz/logs/%j.%x.log
+#SBATCH --error=/nlpgpu/data/andrz/logs/%j.%x.log
+#SBATCH --time=7-0
+#SBATCH --nodes=1
+#SBATCH -c 16
+#SBATCH --mem=400G
+#SBATCH --gpus=8
+#SBATCH --mail-user=andrz@seas.upenn.edu
+#SBATCH --mail-type=END,FAIL
+#SBATCH --constraint=48GBgpu
+
+source slurm/env.sh
+export VLLM_WORKER_MULTIPROC_METHOD=spawn
+python bench_fanoutqa.py --config full --model-class gpt-oss --large-model openai/gpt-oss-120b --small-model openai/gpt-oss-20b --save-dir /nlpgpu/data/andrz/redel/experiments/fanoutqa/gpt-oss/full --engine-timeout 1800
@@ -0,0 +1,18 @@
+#!/bin/bash
+#
+#SBATCH --partition=p_nlp
+#SBATCH --job-name=rd-root-fc-fanoutqa-gpt-oss
+#SBATCH --output=/nlpgpu/data/andrz/logs/%j.%x.log
+#SBATCH --error=/nlpgpu/data/andrz/logs/%j.%x.log
+#SBATCH --time=7-0
+#SBATCH --nodes=1
+#SBATCH -c 16
+#SBATCH --mem=400G
+#SBATCH --gpus=8
+#SBATCH --mail-user=andrz@seas.upenn.edu
+#SBATCH --mail-type=END,FAIL
+#SBATCH --constraint=48GBgpu
+
+source slurm/env.sh
+export VLLM_WORKER_MULTIPROC_METHOD=spawn
+python bench_fanoutqa.py --config root-fc --model-class gpt-oss --large-model openai/gpt-oss-120b --small-model openai/gpt-oss-20b --save-dir /nlpgpu/data/andrz/redel/experiments/fanoutqa/gpt-oss/root-fc --engine-timeout 1800
@@ -0,0 +1,18 @@
+#!/bin/bash
+#
+#SBATCH --partition=p_nlp
+#SBATCH --job-name=rd-baseline-fanoutqa-gpt-oss
+#SBATCH --output=/nlpgpu/data/andrz/logs/%j.%x.log
+#SBATCH --error=/nlpgpu/data/andrz/logs/%j.%x.log
+#SBATCH --time=7-0
+#SBATCH --nodes=1
+#SBATCH -c 16
+#SBATCH --mem=400G
+#SBATCH --gpus=8
+#SBATCH --mail-user=andrz@seas.upenn.edu
+#SBATCH --mail-type=END,FAIL
+#SBATCH --constraint=48GBgpu
+
+source slurm/env.sh
+export VLLM_WORKER_MULTIPROC_METHOD=spawn
+python bench_fanoutqa.py --config baseline --model-class gpt-oss --large-model openai/gpt-oss-120b --small-model openai/gpt-oss-20b --save-dir /nlpgpu/data/andrz/redel/experiments/fanoutqa/gpt-oss/baseline --engine-timeout 1800
@@ -0,0 +1,18 @@
+#!/bin/bash
+#
+#SBATCH --partition=p_nlp
+#SBATCH --job-name=rd-small-leaf-fanoutqa-gpt-oss
+#SBATCH --output=/nlpgpu/data/andrz/logs/%j.%x.log
+#SBATCH --error=/nlpgpu/data/andrz/logs/%j.%x.log
+#SBATCH --time=7-0
+#SBATCH --nodes=1
+#SBATCH -c 16
+#SBATCH --mem=400G
+#SBATCH --gpus=8
+#SBATCH --mail-user=andrz@seas.upenn.edu
+#SBATCH --mail-type=END,FAIL
+#SBATCH --constraint=48GBgpu
+
+source slurm/env.sh
+export VLLM_WORKER_MULTIPROC_METHOD=spawn
+python bench_fanoutqa.py --config small-leaf --model-class gpt-oss --large-model openai/gpt-oss-120b --small-model openai/gpt-oss-20b --save-dir /nlpgpu/data/andrz/redel/experiments/fanoutqa/gpt-oss/small-leaf --engine-timeout 1800
@@ -0,0 +1,18 @@
+#!/bin/bash
+#
+#SBATCH --partition=p_nlp
+#SBATCH --job-name=rd-small-all-fanoutqa-gpt-oss
+#SBATCH --output=/nlpgpu/data/andrz/logs/%j.%x.log
+#SBATCH --error=/nlpgpu/data/andrz/logs/%j.%x.log
+#SBATCH --time=7-0
+#SBATCH --nodes=1
+#SBATCH -c 16
+#SBATCH --mem=400G
+#SBATCH --gpus=8
+#SBATCH --mail-user=andrz@seas.upenn.edu
+#SBATCH --mail-type=END,FAIL
+#SBATCH --constraint=48GBgpu
+
+source slurm/env.sh
+export VLLM_WORKER_MULTIPROC_METHOD=spawn
+python bench_fanoutqa.py --config small-all --model-class gpt-oss --large-model openai/gpt-oss-120b --small-model openai/gpt-oss-20b --save-dir /nlpgpu/data/andrz/redel/experiments/fanoutqa/gpt-oss/small-all --engine-timeout 1800
@@ -0,0 +1,18 @@
+#!/bin/bash
+#
+#SBATCH --partition=p_nlp
+#SBATCH --job-name=rd-small-baseline-fanoutqa-gpt-oss
+#SBATCH --output=/nlpgpu/data/andrz/logs/%j.%x.log
+#SBATCH --error=/nlpgpu/data/andrz/logs/%j.%x.log
+#SBATCH --time=7-0
+#SBATCH --nodes=1
+#SBATCH -c 16
+#SBATCH --mem=400G
+#SBATCH --gpus=8
+#SBATCH --mail-user=andrz@seas.upenn.edu
+#SBATCH --mail-type=END,FAIL
+#SBATCH --constraint=48GBgpu
+
+source slurm/env.sh
+export VLLM_WORKER_MULTIPROC_METHOD=spawn
+python bench_fanoutqa.py --config small-baseline --model-class gpt-oss --large-model openai/gpt-oss-120b --small-model openai/gpt-oss-20b --save-dir /nlpgpu/data/andrz/redel/experiments/fanoutqa/gpt-oss/small-baseline --engine-timeout 1800
Original file line number	Diff line number	Diff line change
`@@ -21,7 +21,7 @@ classifiers = [`
`21`	`21`	`"Topic :: Scientific/Engineering :: Artificial Intelligence",`
`22`	`22`	`]`
`23`	`23`	`dependencies = [`
`24`		`- "kani>=1.1.0,<2.0.0",`
	`24`	`+ "kani>=1.7.0,<2.0.0",`
`25`	`25`	`"kani-ratelimits",`
`26`	`26`	`"pydantic>=2.0.0,<3.0.0",`
`27`	`27`	`"rapidfuzz>=3.9.0,<4.0.0",`