From fd3d48df2a765155645dea1edd9c205ceff71050 Mon Sep 17 00:00:00 2001
From: tzhangR <tzhang@roblox.com>
Date: Wed, 15 Oct 2025 15:23:14 -0700
Subject: [PATCH] Add LLM leaderboard for Roblox Studio Assistant in OpenEval
 open-source repo

This file contains a leaderboard for various LLM models used in Roblox Studio Assistant, including their pass rates and safety metrics. The data is pulled from https://docs.google.com/document/d/1Hdy8bp5VvqRZ7JGLvjDReLzjSlNneBfO5OS5cO8kBiw/edit?tab=t.0
---
 LLM_LEADERBOARD.md | 109 +++++++++++++++++++++++++++++++++++++++++++++
 1 file changed, 109 insertions(+)
 create mode 100644 LLM_LEADERBOARD.md
diff --git a/LLM_LEADERBOARD.md b/LLM_LEADERBOARD.md
new file mode 100644
index 0000000..9c21d31
--- /dev/null
+++ b/LLM_LEADERBOARD.md
@@ -0,0 +1,109 @@
+<!DOCTYPE html>
+<html>
+
+<body>
+
+## LLM Leaderboard on Roblox Studio Assistant
+
+<table>
+<thead>
+    <tr>
+        <th rowspan="2">Model</th>
+        <th colspan="4" class="eval-pass">Pass Rate </th>
+        <th colspan="1" class="safety">Safety</th>
+        <th colspan="2" class="response-behavior">Tool Calling</th>
+    </tr>
+    <tr>
+        <th class="eval-pass"><strong>Pass@1</strong></th>
+        <th class="eval-pass"><strong>Pass@5</strong></th>
+        <th class="eval-pass"><strong>Cons@5</strong></th>
+        <th class="eval-pass"><strong>All@5</strong></th>
+        <th class="safety"><strong>Safety Pass Rate</strong></th>
+        <th class="response-behavior"><strong>Avg Tool Error Rate </strong></th>
+        <th class="response-behavior"><strong>Explanation Rate with Tools</strong></th>
+    </tr>
+</thead>
+<tbody>
+    <tr>
+        <td class="model-name">Claude-4-sonnet-20250514</td>
+        <td>55.59%</td>
+        <td>75.99%</td>
+        <td>56.68%</td>
+        <td>34.80%</td>
+        <td>68.7%</td>
+        <td>40%</td>
+        <td>97%</td>
+    </tr>
+    <tr>
+        <td class="model-name">Claude-sonnet-4-5-20250929</td>
+        <td class="best-score">57.87%</td>
+        <td>74.43%</td>
+        <td class="best-score">59.91%</td>
+        <td class="best-score">38.73%</td>
+        <td class="best-score">78.0%</td>
+        <td class="best-score">22%</td>
+        <td class="best-score">90%</td>
+    </tr>
+    <tr>
+        <td class="model-name">Qwen3-Coder 480B/A35B Instruct</td>
+        <td>49.61%</td>
+        <td class="best-score">76.26%</td>
+        <td>50.56%</td>
+        <td>23.84%</td>
+        <td>69.7%</td>
+        <td>67%</td>
+        <td>47.30%</td>
+    </tr>
+    <tr>
+        <td class="model-name">GLM 4.6</td>
+        <td>47.72%</td>
+        <td>71.15%</td>
+        <td>48.20%</td>
+        <td>26.01%</td>
+        <td>-</td>
+        <td class="best-score">15%</td>
+        <td>-</td>
+    </tr>
+    <tr>
+        <td class="model-name">GLM 4.5</td>
+        <td>41.34%</td>
+        <td>70.57%</td>
+        <td>40.18%</td>
+        <td>18.11%</td>
+        <td>61.6%</td>
+        <td>88%</td>
+        <td>37.6%</td>
+    </tr>
+    <tr>
+        <td class="model-name">Gemini-2.5-pro<br>AUTO thinking, NO web</td>
+        <td>48.58%</td>
+        <td>67.00%</td>
+        <td>49.16%</td>
+        <td>30.59%</td>
+        <td>59.60%</td>
+        <td>40%</td>
+        <td>92%</td>
+    </tr>
+    <tr>
+        <td class="model-name">Gemini-2.5-flash-preview-09-2025<br>AUTO thinking, NO web</td>
+        <td>37.24%</td>
+        <td>63.04%</td>
+        <td>35.61%</td>
+        <td>17.72%</td>
+        <td>68.70%</td>
+        <td>69%</td>
+        <td>49.50%</td>
+    </tr>
+</tbody>
+</table>
+</body>
+</html>
+
+## Metrics Explaination
+- Pass@1 -- average probability of success in 1 attempt
+- Pass@5 -- average probability of success in at least 1 out of 5 attempts
+- Cons@5 -- average probability of success in at least 3 out of 5 attempts
+- All@5 -- average probability of success in 5 out of 5 attempts
+- Safety Pass Rate -- average rate whether it handles safety/appropriateness correctly
+- Avg Tool Error Rate -- average tool call error rates
+- Explanation Rate with Tools -- quality of explanations when using tools

Model	Pass Rate				Safety	Tool Calling
Model	Pass@1	Pass@5	Cons@5	All@5	Safety Pass Rate	Avg Tool Error Rate	Explanation Rate with Tools
Claude-4-sonnet-20250514	55.59%	75.99%	56.68%	34.80%	68.7%	40%	97%
Claude-sonnet-4-5-20250929	57.87%	74.43%	59.91%	38.73%	78.0%	22%	90%
Qwen3-Coder 480B/A35B Instruct	49.61%	76.26%	50.56%	23.84%	69.7%	67%	47.30%
GLM 4.6	47.72%	71.15%	48.20%	26.01%	-	15%	-
GLM 4.5	41.34%	70.57%	40.18%	18.11%	61.6%	88%	37.6%
Gemini-2.5-pro AUTO thinking, NO web	48.58%	67.00%	49.16%	30.59%	59.60%	40%	92%
Gemini-2.5-flash-preview-09-2025 AUTO thinking, NO web	37.24%	63.04%	35.61%	17.72%	68.70%	69%	49.50%