alibaba
diff --git a/‎docs/dev/agent/JobConfig.md‎
Lines changed: 111 additions & 0 deletions b/‎docs/dev/agent/JobConfig.md‎
Lines changed: 111 additions & 0 deletions
diff --git a/‎examples/evaluation/swe_bench/common.py‎
Lines changed: 3 additions & 1 deletion b/‎examples/evaluation/swe_bench/common.py‎
Lines changed: 3 additions & 1 deletion
diff --git a/‎examples/evaluation/swe_bench/swe_bench_verified_demo.py‎
Lines changed: 2 additions & 1 deletion b/‎examples/evaluation/swe_bench/swe_bench_verified_demo.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎rock/admin/metrics/gc_view_instrument_match.py‎
Lines changed: 14 additions & 19 deletions b/‎rock/admin/metrics/gc_view_instrument_match.py‎
Lines changed: 14 additions & 19 deletions
diff --git a/‎rock/admin/scheduler/task_factory.py‎
Lines changed: 1 addition & 3 deletions b/‎rock/admin/scheduler/task_factory.py‎
Lines changed: 1 addition & 3 deletions
diff --git a/‎rock/common/port_validation.py‎
Lines changed: 1 addition & 0 deletions b/‎rock/common/port_validation.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎rock/rocklet/local_api.py‎
Lines changed: 7 additions & 19 deletions b/‎rock/rocklet/local_api.py‎
Lines changed: 7 additions & 19 deletions
@@ -0,0 +1,111 @@
+# JobConfig 字段分析: `namespace` 与 `experiment_id`
+
+## 1. 现状分析
+
+### 1.1 字段定义位置
+
+| 字段 | 定义位置 | 类型 |
+|------|---------|------|
+| `namespace` | `JobConfig` (`models/job/config.py:143`) | `str \| None = None` |
+| `experiment_id` | `JobConfig` (`models/job/config.py:147`) | `str \| None = None` |
+| `experiment_id` | `SandboxConfig` (`sdk/sandbox/config.py:40`) | `str \| None = None` |
+| `namespace` | `SandboxConfig` (`sdk/sandbox/config.py:42`) | `str \| None = None` |
+| `_namespace` | `Sandbox` (`sdk/sandbox/client.py:78`) | `str \| None = None` |
+| `_experiment_id` | `Sandbox` (`sdk/sandbox/client.py:79`) | `str \| None = None` |
+
+注意: `JobConfig.environment` 类型为 `RockEnvironmentConfig`，继承自 `SandboxConfig`，因此 `self.environment.experiment_id` 来自 `SandboxConfig`。
+
+### 1.2 当前数据流
+
+```
+用户构造 JobConfig(experiment_id="exp-1", environment=RockEnvironmentConfig(experiment_id=?))
+                                                        ↑ 来自 SandboxConfig
+
+Sandbox.start()
+  └─ get_status() 获取 sandbox_info
+       ├─ sandbox_info.namespace  → Sandbox._namespace   (client.py:203)
+       └─ sandbox_info.experiment_id → Sandbox._experiment_id (client.py:205)
+
+Job.submit()
+  └─ _prepare_and_start()
+       └─ _autofill_sandbox_info()   (job.py:268-269)
+            └─ self._config.namespace = self._sandbox._namespace
+            └─ (experiment_id 未处理)
+```
+
+### 1.3 `to_harbor_yaml()` 序列化
+
+`JobConfig.to_harbor_yaml()` 将 `namespace` 和 `experiment_id` 序列化到 Harbor YAML 中（`exclude={"environment"}, exclude_none=True`），最终传给 `harbor jobs start -c`。
+
+---
+
+## 2. 问题
+
+### 2.1 `experiment_id` 两处定义未同步
+
+- `JobConfig.experiment_id` — Harbor YAML 层面的实验标识
+- `SandboxConfig.experiment_id`（通过 `JobConfig.environment`）— sandbox 创建时传递的实验标识
+- **问题**: 两个 `experiment_id` 各自独立，没有同步或校验逻辑。用户可能在两处设置不同的值，导致 sandbox 创建和 Harbor 执行使用不同的 experiment_id。
+
+### 2.2 `namespace` 缺少一致性校验
+
+- `_autofill_sandbox_info()` 直接覆盖 `self._config.namespace = self._sandbox._namespace`
+- **问题**: 如果用户已经设置了 `namespace`（非 None），当前逻辑会静默覆盖，不做任何校验。
+
+---
+
+## 3. 改进方案
+
+### 3.1 `experiment_id`: 在 JobConfig 中增加 model_validator (post init)
+
+**保留** `JobConfig.experiment_id` 作为唯一权威来源，通过 `model_validator(mode="after")` 做三件事：
+
+1. **校验非空**: `JobConfig.experiment_id` 不能为 None 或空字符串
+2. **一致性校验**: 如果 `environment.experiment_id`（即 SandboxConfig 的）已有值，必须与 `JobConfig.experiment_id` 一致，否则抛异常
+3. **向下同步**: 将 `JobConfig.experiment_id` 设置到 `environment.experiment_id`
+
+```python
+@model_validator(mode="after")
+def _sync_experiment_id(self):
+    if not self.experiment_id:
+        raise ValueError("experiment_id must not be empty")
+    env_exp = self.environment.experiment_id
+    if env_exp is not None and env_exp != self.experiment_id:
+        raise ValueError(
+            f"experiment_id mismatch: JobConfig has '{self.experiment_id}', "
+            f"but environment (SandboxConfig) has '{env_exp}'"
+        )
+    self.environment.experiment_id = self.experiment_id
+    return self
+```
+
+**行为矩阵**:
+
+| JobConfig.experiment_id | environment.experiment_id | 行为 |
+|------------------------|--------------------------|------|
+| `None` 或 `""` | 任意 | **抛出 ValueError**: experiment_id 不能为空 |
+| `"exp-1"` | `None` | 同步: `environment.experiment_id = "exp-1"` |
+| `"exp-1"` | `"exp-1"` | 通过，一致 |
+| `"exp-1"` | `"exp-2"` | **抛出 ValueError**: mismatch |
+
+### 3.2 `namespace`: 保持由 sandbox 返回值设置（运行时回填）
+
+`namespace` 与 `experiment_id` 不同 — 它的权威来源是 sandbox 运行时返回值，用户通常不需要设置。保持在 `_autofill_sandbox_info()` 中处理，但增加一致性校验：
+
+| 用户设置 | sandbox 返回 | 行为 |
+|---------|-------------|------|
+| `None` | 有值 | 自动回填 sandbox 返回值 |
+| `None` | `None` | 保持 `None` |
+| 有值 | 有值且一致 | 保持不变 |
+| 有值 | 有值且不一致 | **抛出 ValueError** |
+| 有值 | `None` | 保留用户设置值 |
+
+---
+
+## 4. 涉及文件
+
+| 文件 | 变更内容 |
+|------|---------|
+| `rock/sdk/agent/models/job/config.py` | 新增 `_sync_experiment_id` model_validator |
+| `rock/sdk/agent/job.py` | 更新 `_autofill_sandbox_info()`，namespace 增加一致性校验 |
+| `tests/unit/sdk/agent/` | 补充测试: validator 校验逻辑、mismatch 异常、空值异常 |
@@ -1,7 +1,8 @@
 import re
-import yaml
 from pathlib import Path
 
+import yaml
+
 from rock.logger import init_logger
 from rock.sdk.sandbox.client import RunMode, Sandbox
 from rock.sdk.sandbox.config import SandboxConfig
@@ -15,6 +16,7 @@
 
 logger = init_logger(__name__)
 
+
 def load_task_config(task_dir: Path) -> dict:
     """Load task configuration from task.yaml."""
     task_yaml_path = task_dir / "task.yaml"
 
@@ -18,8 +18,8 @@
        python -m examples.evaluation.swe_bench.swe_bench_verified_demo
 """
 
-import sys
 import asyncio
+import sys
 from pathlib import Path
 
 from examples.evaluation.swe_bench.common import load_task_config, parse_swebench_result, setup_test_env, start_sandbox
@@ -31,6 +31,7 @@
 test_timeout_sec = 3600
 logger = init_logger(__name__)
 
+
 async def run_swe_evaluation(sandbox: Sandbox, task_dir: Path, instruction: str, agent_config_path: str) -> bool:
     """Run SWE evaluation on the sandbox."""
     task_name = task_dir.name
 
@@ -1,5 +1,5 @@
+from collections.abc import Sequence
 from time import time_ns
-from typing import Dict, List, Optional, Sequence
 
 from opentelemetry.sdk.metrics._internal._view_instrument_match import (
     _ViewInstrumentMatch as _OrigViewInstrumentMatch,
@@ -15,28 +15,23 @@ class _GcViewInstrumentMatch(_OrigViewInstrumentMatch):
     metric series (based on attributes). This is useful for preventing memory
     leaks when dealing with high-cardinality metrics.
     """
+
     # Idle metric series are cleaned up after 20 minutes. This can be adjusted.
     _IDLE_TIMEOUT_NS = 20 * 60 * 1_000_000_000
 
     def __init__(self, *args, **kwargs):
         super().__init__(*args, **kwargs)
-        self._last_used_ns: Dict[frozenset, int] = {}
+        self._last_used_ns: dict[frozenset, int] = {}
 
-    def consume_measurement(
-            self, measurement: Measurement, should_sample_exemplar: bool = True
-    ) -> None:
+    def consume_measurement(self, measurement: Measurement, should_sample_exemplar: bool = True) -> None:
         """
         Consumes a measurement, aggregates it, and tracks its usage for GC.
         """
         attributes = measurement.attributes or {}
         measurement_for_aggregation = measurement
 
         if self._view._attribute_keys is not None:
-            filtered_attributes = {
-                key: value
-                for key, value in attributes.items()
-                if key in self._view._attribute_keys
-            }
+            filtered_attributes = {key: value for key, value in attributes.items() if key in self._view._attribute_keys}
 
             # If attributes were filtered, a new Measurement object must be used
             # for aggregation. This ensures that if an exemplar is recorded, it
@@ -61,22 +56,20 @@ def consume_measurement(
                 should_sample_exemplar,
             )
         else:
-            self._attributes_aggregation[aggr_key].aggregate(
-                measurement_for_aggregation, should_sample_exemplar
-            )
+            self._attributes_aggregation[aggr_key].aggregate(measurement_for_aggregation, should_sample_exemplar)
         self._last_used_ns[aggr_key] = now_ns
 
     def collect(
-            self,
-            collection_aggregation_temporality: AggregationTemporality,
-            collection_start_nanos: int,
-    ) -> Optional[Sequence[DataPointT]]:
+        self,
+        collection_aggregation_temporality: AggregationTemporality,
+        collection_start_nanos: int,
+    ) -> Sequence[DataPointT] | None:
         """
         Collects all data points for the metric, and garbage collects idle series.
         """
-        data_points: List[DataPointT] = []
+        data_points: list[DataPointT] = []
         now_ns = time_ns()
-        to_delete: List[frozenset] = []
+        to_delete: list[frozenset] = []
 
         with self._lock:
             # First, collect data points and identify idle series
@@ -104,7 +97,9 @@ def patch_view_instrument_match() -> None:
     # Call this once at application startup, before initializing any metric
     # readers or providers, to replace the SDK's internal class.
     import opentelemetry.sdk.metrics._internal._view_instrument_match as vim_mod
+
     vim_mod._ViewInstrumentMatch = _GcViewInstrumentMatch
 
     from opentelemetry.sdk.metrics._internal import metric_reader_storage as mrs
+
     mrs._ViewInstrumentMatch = _GcViewInstrumentMatch
@@ -62,8 +62,6 @@ def register_all_tasks(cls, scheduler_config: SchedulerConfig):
             try:
                 task = cls.create_task(task_config)
                 TaskRegistry.register(task)
-                logger.info(
-                    f"Registered task '{task.type}' with interval {task.interval_seconds}s"
-                )
+                logger.info(f"Registered task '{task.type}' with interval {task.interval_seconds}s")
             except Exception as e:
                 logger.error(f"Failed to create task '{task_config.task_class}': {e}")
@@ -1,4 +1,5 @@
 """Port validation utilities for port forwarding."""
+
 from rock.logger import init_logger
 
 logger = init_logger(__name__)
 
@@ -180,19 +180,13 @@ async def portforward(websocket: WebSocket, port: int):
 
     try:
         # Connect to local TCP port
-        reader, writer = await asyncio.wait_for(
-            asyncio.open_connection("127.0.0.1", port),
-            timeout=TCP_CONNECT_TIMEOUT
-        )
+        reader, writer = await asyncio.wait_for(asyncio.open_connection("127.0.0.1", port), timeout=TCP_CONNECT_TIMEOUT)
         logger.info(
             f"[Portforward] TCP connection established: target_port={port}, "
             f"local_addr={writer.get_extra_info('sockname')}"
         )
     except asyncio.TimeoutError:
-        logger.error(
-            f"[Portforward] TCP connection timeout: target_port={port}, "
-            f"timeout={TCP_CONNECT_TIMEOUT}s"
-        )
+        logger.error(f"[Portforward] TCP connection timeout: target_port={port}, " f"timeout={TCP_CONNECT_TIMEOUT}s")
         await websocket.close(code=1011, reason=f"Connection to port {port} timed out")
         return
     except OSError as e:
@@ -204,8 +198,7 @@ async def portforward(websocket: WebSocket, port: int):
         return
     except Exception as e:
         logger.error(
-            f"[Portforward] Unexpected TCP error: target_port={port}, "
-            f"error_type={type(e).__name__}, error={e}"
+            f"[Portforward] Unexpected TCP error: target_port={port}, " f"error_type={type(e).__name__}, error={e}"
         )
         await websocket.close(code=1011, reason=f"Unexpected error: {e}")
         return
@@ -232,13 +225,10 @@ async def ws_to_tcp():
                     f"bytes={len(data)}, total_msgs={ws_to_tcp_msgs}, total_bytes={ws_to_tcp_bytes}"
                 )
         except WebSocketDisconnect as e:
-            logger.info(
-                f"[Portforward] ws->tcp: client disconnected: target_port={port}, code={e.code}"
-            )
+            logger.info(f"[Portforward] ws->tcp: client disconnected: target_port={port}, code={e.code}")
         except Exception as e:
             logger.debug(
-                f"[Portforward] ws->tcp error: target_port={port}, "
-                f"error_type={type(e).__name__}, error={e}"
+                f"[Portforward] ws->tcp error: target_port={port}, " f"error_type={type(e).__name__}, error={e}"
             )
         finally:
             writer.close()
@@ -261,8 +251,7 @@ async def tcp_to_ws():
                 )
         except Exception as e:
             logger.debug(
-                f"[Portforward] tcp->ws error: target_port={port}, "
-                f"error_type={type(e).__name__}, error={e}"
+                f"[Portforward] tcp->ws error: target_port={port}, " f"error_type={type(e).__name__}, error={e}"
             )
         finally:
             try:
@@ -275,8 +264,7 @@ async def tcp_to_ws():
         await asyncio.gather(ws_to_tcp(), tcp_to_ws())
     except Exception as e:
         logger.debug(
-            f"[Portforward] Forwarding error: target_port={port}, "
-            f"error_type={type(e).__name__}, error={e}"
+            f"[Portforward] Forwarding error: target_port={port}, " f"error_type={type(e).__name__}, error={e}"
         )
     finally:
         writer.close()
Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,5 @@`
`1`	`1`	`"""Port validation utilities for port forwarding."""`
	`2`	`+`
`2`	`3`	`from rock.logger import init_logger`
`3`	`4`
`4`	`5`	`logger = init_logger(__name__)`