agentscope-ai
diff --git a/‎.gitignore‎
Lines changed: 1 addition & 0 deletions b/‎.gitignore‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎.pre-commit-config.yaml‎
Lines changed: 1 addition & 7 deletions b/‎.pre-commit-config.yaml‎
Lines changed: 1 addition & 7 deletions
diff --git a/‎cookbooks/auto_arena/report_generator.py‎
Lines changed: 1 addition & 1 deletion b/‎cookbooks/auto_arena/report_generator.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎cookbooks/ref_hallucination_arena/collectors/bib_extractor.py‎
Lines changed: 1 addition & 1 deletion b/‎cookbooks/ref_hallucination_arena/collectors/bib_extractor.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎cookbooks/ref_hallucination_arena/pipeline.py‎
Lines changed: 2 additions & 2 deletions b/‎cookbooks/ref_hallucination_arena/pipeline.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎experiments/run_grader_evaluations.py‎
Lines changed: 3 additions & 3 deletions b/‎experiments/run_grader_evaluations.py‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎openjudge/graders/common/search_correctness.py‎
Lines changed: 1 addition & 1 deletion b/‎openjudge/graders/common/search_correctness.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎openjudge/graders/skills/__init__.py‎
Lines changed: 31 additions & 0 deletions b/‎openjudge/graders/skills/__init__.py‎
Lines changed: 31 additions & 0 deletions
@@ -38,6 +38,7 @@ local/
 
 # Test Artifacts
 tests/plt_*
+tests/graders/skills/*.json
 
 # Security Files
 *.pem
 
@@ -1,8 +1,4 @@
 repos:
-  - repo: https://github.com/gitleaks/gitleaks
-    rev: v8.18.4
-    hooks:
-      - id: gitleaks
   - repo: https://github.com/pre-commit/pre-commit-hooks
     rev: v6.0.0
     hooks:
@@ -12,8 +8,6 @@ repos:
       - id: check-toml
       - id: check-json
       - id: detect-private-key
-      - id: detect-aws-credentials
-        args: ['--allow-missing-credentials']
       - id: trailing-whitespace
   - repo: https://github.com/PyCQA/autoflake
     rev: v2.2.1
@@ -111,4 +105,4 @@ repos:
           "--ignore=tests/generator",
           "--ignore=data",
           "--ignore=examples"
-        ]
+        ]
@@ -69,7 +69,7 @@ def _prepare_context(
         original_details = [d for d in details if d.order == "original"]
 
         # Format rankings
-        rankings_text = "\n".join(f"{i+1}. {name}: {rate:.1%}" for i, (name, rate) in enumerate(result.rankings))
+        rankings_text = "\n".join(f"{i + 1}. {name}: {rate:.1%}" for i, (name, rate) in enumerate(result.rankings))
 
         # Format rubrics
         rubrics_text = "\n".join(f"- {r}" for r in rubrics)
 
@@ -293,7 +293,7 @@ def _parse_plain_text(self, text: str) -> List[Reference]:
 
                 refs.append(
                     Reference(
-                        key=f"ref_{len(refs)+1}",
+                        key=f"ref_{len(refs) + 1}",
                         title=title.strip(),
                         authors=authors.strip() if authors else None,
                         year=year.strip(),
 
@@ -545,7 +545,7 @@ def _verify_one(model_name: str, idx: int) -> None:
             total_v = sum(m.verified for m in model_results)
             total_r = sum(m.total_refs for m in model_results)
             if total_r > 0:
-                logger.info(f"  {model_name}: {total_v}/{total_r} verified " f"({total_v/total_r:.1%})")
+                logger.info(f"  {model_name}: {total_v}/{total_r} verified " f"({total_v / total_r:.1%})")
             else:
                 logger.info(f"  {model_name}: 0 refs")
 
@@ -735,7 +735,7 @@ def _on_query_complete(local_idx: int, result_dict: dict) -> None:
             tv = sum(m.verified for m in mr)
             tr = sum(m.total_refs for m in mr)
             if tr > 0:
-                logger.info(f"  {mn}: {tv}/{tr} verified ({tv/tr:.1%})")
+                logger.info(f"  {mn}: {tv}/{tr} verified ({tv / tr:.1%})")
             else:
                 logger.info(f"  {mn}: 0 refs")
 
 
@@ -342,16 +342,16 @@ async def run_all_evaluations(
         "agent": agent_model,
     }
 
-    print(f"\n{'='*70}")
+    print(f"\n{'=' * 70}")
     print("OpenJudge Grader Evaluation Suite")
-    print(f"{'='*70}")
+    print(f"{'=' * 70}")
     print(f"Categories: {', '.join(categories)}")
     print(f"Text Model: {text_model}")
     print(f"Multimodal Model: {multimodal_model}")
     print(f"Agent Model: {agent_model}")
     print(f"Max Workers: {max_workers}")
     print(f"Total Evaluations: {len(configs_to_run)}")
-    print(f"{'='*70}\n")
+    print(f"{'=' * 70}\n")
 
     # Create semaphore for concurrency control
     semaphore = asyncio.Semaphore(max_workers)
 
@@ -73,7 +73,7 @@ async def aexecute(self, query: str, search_depth: str = "advanced", **kwargs) -
             for i, r in enumerate(results[:5]):
                 content = r.get("content", "")[:1500]
                 summary_parts.append(
-                    f"[{i+1}] {r.get('title', '')}\n" f"URL: {r.get('url', '')}\n" f"Content: {content}"
+                    f"[{i + 1}] {r.get('title', '')}\n" f"URL: {r.get('url', '')}\n" f"Content: {content}"
                 )
 
             return ToolResult(
 
@@ -0,0 +1,31 @@
+# -*- coding: utf-8 -*-
+"""
+Skill Graders
+
+This module contains graders for evaluating AI Agent Skill packages:
+- Safety evaluation: detects dangerous operations, overly broad permissions, and missing safeguards
+- Relevance evaluation: measures how well a skill's capabilities address a task description
+- Completeness evaluation: measures whether a skill provides sufficient detail to accomplish a task
+- Structure evaluation: assesses structural design quality across anti-pattern quality,
+  specification compliance, progressive disclosure, and freedom calibration
+- Comprehensive evaluation: holistic multi-dimensional assessment combining all four dimensions
+- Comprehensive pairwise evaluation: head-to-head comparison of two skill candidates
+"""
+
+from openjudge.graders.skills.completeness import SkillCompletenessGrader
+from openjudge.graders.skills.comprehensive import SkillComprehensiveGrader
+from openjudge.graders.skills.comprehensive_pairwise import (
+    SkillComprehensivePairwiseGrader,
+)
+from openjudge.graders.skills.relevance import SkillRelevanceGrader
+from openjudge.graders.skills.safety import SkillSafetyGrader
+from openjudge.graders.skills.structure import SkillStructureGrader
+
+__all__ = [
+    "SkillSafetyGrader",
+    "SkillRelevanceGrader",
+    "SkillCompletenessGrader",
+    "SkillStructureGrader",
+    "SkillComprehensiveGrader",
+    "SkillComprehensivePairwiseGrader",
+]
Original file line number	Diff line number	Diff line change
`@@ -73,7 +73,7 @@ async def aexecute(self, query: str, search_depth: str = "advanced", **kwargs) -`
`73`	`73`	`for i, r in enumerate(results[:5]):`
`74`	`74`	`content = r.get("content", "")[:1500]`
`75`	`75`	`summary_parts.append(`
`76`		`- f"[{i+1}] {r.get('title', '')}\n" f"URL: {r.get('url', '')}\n" f"Content: {content}"`
	`76`	`+ f"[{i + 1}] {r.get('title', '')}\n" f"URL: {r.get('url', '')}\n" f"Content: {content}"`
`77`	`77`	`)`
`78`	`78`
`79`	`79`	`return ToolResult(`