neavo
diff --git a/‎01_ner.py‎
Lines changed: 12 additions & 12 deletions b/‎01_ner.py‎
Lines changed: 12 additions & 12 deletions
diff --git a/‎92_corpus_ner.py‎
Lines changed: 118 additions & 118 deletions b/‎92_corpus_ner.py‎
Lines changed: 118 additions & 118 deletions
@@ -61,10 +61,10 @@
 # 数据
 EVAL_DATA = 4096
 DATASET_PATH = [
-    ("/mnt/e/ai/dataset/ner/zh", 2 * 10000 + EVAL_DATA / 4),
-    ("/mnt/e/ai/dataset/ner/en", 2 * 10000 + EVAL_DATA / 4),
-    ("/mnt/e/ai/dataset/ner/jp", 2 * 10000 + EVAL_DATA / 4),
-    ("/mnt/e/ai/dataset/ner/ko", 2 * 10000 + EVAL_DATA / 4),
+    ("/mnt/e/ai/dataset/ner/zh/20250102", 2 * 10000 + EVAL_DATA / 4),
+    ("/mnt/e/ai/dataset/ner/en/20250102", 2 * 10000 + EVAL_DATA / 4),
+    ("/mnt/e/ai/dataset/ner/ja/20250102", 2 * 10000 + EVAL_DATA / 4),
+    ("/mnt/e/ai/dataset/ner/ko/20250102", 2 * 10000 + EVAL_DATA / 4),
 ]
 
 # 加载模型
@@ -101,12 +101,12 @@ def sample(data: list[dict], limit: int) -> list[dict]:
     type_count = {}
     for item in data:
         for entity in item.get("entities", []):
-            type_count[entity.get("entity_type")] = type_count.get(entity.get("entity_type"), 0) + 1
+            type_count[entity.get("entity_group")] = type_count.get(entity.get("entity_group"), 0) + 1
     max_k = max(type_count, key = lambda k: type_count.get(k), default="")
 
     # 拆分数据
-    data_x = [item for item in data if any(entity.get("entity_type") != max_k for entity in item.get("entities", []))]
-    data_y = [item for item in data if not any(entity.get("entity_type") != max_k for entity in item.get("entities", []))]
+    data_x = [item for item in data if any(entity.get("entity_group") != max_k for entity in item.get("entities", []))]
+    data_y = [item for item in data if not any(entity.get("entity_group") != max_k for entity in item.get("entities", []))]
 
     # 随机取样
     if len(data_x) >= limit:
@@ -140,8 +140,8 @@ def load_dataset(tokenizer: PreTrainedTokenizerFast) -> tuple[Dataset, Dataset,
     types = set()
     for v in data:
         for entity in v.get("entities", []):
-            if entity.get("entity_type") != "":
-                types.add(entity.get("entity_type"))
+            if entity.get("entity_group") != "":
+                types.add(entity.get("entity_group"))
     id2label = {0: "O"}
     for c in list(sorted(types)):
         id2label[len(id2label)] = f"B-{c}"
@@ -211,14 +211,14 @@ def load_dataset_map_function(samples: dict, tokenizer: PreTrainedTokenizerFast,
         result = []
         for entity in entities:
             surface = entity.get("surface", "")
-            entity_type = entity.get("entity_type", "")
+            entity_group = entity.get("entity_group", "")
 
             # 获取实体词语在字符串中的位置
             char_start = sentence.find(surface)
             char_end = char_start + len(surface)
 
             # 有效性检查
-            if char_start < 0 or surface == "" or entity_type == "":
+            if char_start < 0 or surface == "" or entity_group == "":
                 continue
 
             # 通过字符位置反查 Token 位置
@@ -228,7 +228,7 @@ def load_dataset_map_function(samples: dict, tokenizer: PreTrainedTokenizerFast,
             if token_start == -1 or token_end == -1:
                 continue
 
-            result.append((token_start, token_end, entity_type))
+            result.append((token_start, token_end, entity_group))
 
         # 生成 labels
         labels = [0 for _ in range(len(input_ids))]
 
@@ -1,4 +1,3 @@
-import re
 import json
 import asyncio
 import argparse
@@ -8,6 +7,8 @@
 from openai import AsyncOpenAI
 from aiolimiter import AsyncLimiter
 
+from moudle.TextHelper import TextHelper
+
 # 设置接口
 BATCH = 16
 MODEL = "no"
@@ -17,11 +18,12 @@
 TEMPERATURE = 0.50
 
 # 设置任务参数
-TIMEOUT = 180
-CHUNK_SIZE = 10
+TIMEOUT = 300
+CHUNK_SIZE = 4
 
-# 线程锁
-LOCK = threading.Lock()
+# 锁
+LOCK_ASYNCIO = asyncio.Lock()
+LOCK_THREADING = threading.Lock()
 
 # 限制器
 SEMAPHORE = asyncio.Semaphore(BATCH)
@@ -37,117 +39,119 @@
 def split(datas: list[str], size: int) -> list[list[str]]:
     return [datas[i:i + size] for i in range(0, len(datas), size)]
 
-# 安全加载 JSON 字典
-def safe_load_json_dict(json_str: str) -> dict:
-    result = {}
-
-    # 移除首尾空白符（含空格、制表符、换行符）
-    json_str = json_str.strip()
-
-    # 移除代码标识
-    json_str = json_str.removeprefix("```json").removeprefix("```").strip()
-
-    # 先尝试使用 json.loads 解析
-    try:
-        result = json.loads(json_str)
-    except Exception:
-        pass
-
-    # 否则使用正则表达式匹配
-    if len(result) == 0:
-        for item in re.findall(r"['\"].+?['\"]\s*\:\s*['\"].+?['\"]\s*(?=[,}])", json_str, flags = re.IGNORECASE):
-            p = item.split(":")
-            result[p[0].strip().strip("'\"").strip()] = p[1].strip().strip("'\"").strip()
-
-    return result
-
-# 安全加载 JSON 列表
-def safe_load_json_list(json_str: str) -> list:
-    result = []
-
-    # 移除首尾空白符（含空格、制表符、换行符）
-    json_str = json_str.strip()
-
-    # 移除代码标识
-    json_str = json_str.removeprefix("```json").removeprefix("```").strip()
-
-    # 先尝试使用 json.loads 解析
-    try:
-        result = json.loads(json_str)
-    except Exception:
-        pass
-
-    # 否则使用正则表达式匹配
-    if len(result) == 0:
-        for item in re.findall(r"\{.+?\}", json_str, flags = re.IGNORECASE):
-            result.append(safe_load_json_dict(item))
-
-    return result
+# 写入文件
+def write(target: str, data: dict) -> None:
+    with LOCK_THREADING:
+        with open(target, "w", encoding = "utf-8") as writer:
+            writer.write(json.dumps(data, indent = 4, ensure_ascii = False))
 
 # 发起请求
-async def request(lines: list[str], prompt: str, tasks: list[asyncio.Task], success: list[str], failure: list[str]) -> None:
-    async with SEMAPHORE, ASYNCLIMITER:
-        try:
-            llm_request, llm_response, error = None, None, None
-
-            messages = [
-                {
-                    "role": "system",
-                    "content": prompt,
-                },
-                {
-                    "role": "user",
-                    "content": "\n".join(lines),
-                }
-            ]
-
-            llm_request = {
-                "model": MODEL,
-                "stream": False,
-                "temperature": TEMPERATURE,
-                "top_p": TOP_P,
-                "max_tokens": 4096,
-                # "frequency_penalty" : 0.2 if retry == True else 0,
-                "messages": messages,
+async def request(prompt: str, content: str) -> tuple[Exception, dict, dict]:
+    try:
+        llm_request, llm_response, error = None, None, None
+
+        messages = [
+            {
+                "role": "system",
+                "content": prompt,
+            },
+            {
+                "role": "user",
+                "content": content,
             }
-
-            completion = await OPENAICLIENT.chat.completions.create(**llm_request)
-
-            # OpenAI 的 API 返回的对象通常是 OpenAIObject 类型
-            # 该类有一个内置方法可以将其转换为字典
-            llm_response = completion.to_dict()
-            usage = completion.usage
-            content = completion.choices[0].message.content.strip()
-
-            # 检查是否超过最大 token 限制
-            if usage.completion_tokens >= 4096:
-                raise Exception("超过最大 token 限制")
-
-            json_list = safe_load_json_list(content)
-            if len(json_list) == 0:
-                raise Exception("无法解析 JSON 列表")
-        except Exception as e:
-            error = e
-        finally:
-            with LOCK:
-                if error == None:
-                    success.append({
-                        "request": llm_request,
-                        "response": llm_response,
-                    })
-                    print(f"成功 {len(success)} 个，失败 {len(failure)} 个，剩余 {len(tasks) - len(success) - len(failure)} 个任务 ... ")
-                else:
-                    failure.append({
-                        "error": str(error),
-                        "request": llm_request,
-                        "response": llm_response,
-                    })
-                    print(f"成功 {len(success)} 个，失败 {len(failure)} 个，剩余 {len(tasks) - len(success) - len(failure)} 个任务 ... {str(error)}")
+        ]
+
+        llm_request = {
+            "model": MODEL,
+            "stream": False,
+            "temperature": TEMPERATURE,
+            "top_p": TOP_P,
+            "max_tokens": 2048,
+            "messages": messages,
+        }
+
+        # 获取回复
+        completion = await OPENAICLIENT.chat.completions.create(**llm_request)
+
+        # OpenAI 的 API 返回的对象通常是 OpenAIObject 类型
+        # 该类有一个内置方法可以将其转换为字典
+        llm_response = completion.to_dict()
+        result = TextHelper.safe_load_json_list(completion.choices[0].message.content.strip())
+        if len(result) == 0:
+            raise Exception("没有解析到有效 JSON 数据 ...")
+    except Exception as e:
+        error = e
+    finally:
+        return llm_request, llm_response, error
+
+# 成功时
+async def on_success(llm_request: dict, llm_response: dict, error: Exception, tasks: list[asyncio.Task], success: list[str], failure: list[str]) -> None:
+    async with LOCK_ASYNCIO:
+        success.append({
+            "request": llm_request,
+            "response": llm_response,
+        })
+    print(f"成功 {len(success)} 个，失败 {len(failure)} 个，剩余 {len(tasks) - len(success) - len(failure)} 个任务 ...")
+
+# 失败时
+async def on_failure(llm_request: dict, llm_response: dict, error: Exception, tasks: list[asyncio.Task], success: list[str], failure: list[str]) -> None:
+    async with LOCK_ASYNCIO:
+        failure.append({
+            "error": str(error),
+            "request": llm_request,
+            "response": llm_response,
+        })
+    print(f"成功 {len(success)} 个，失败 {len(failure)} 个，剩余 {len(tasks) - len(success) - len(failure)} 个任务 ... {str(error)}")
+
+# 执行任务
+async def start(target: str, prompt_llm_check: str, prompt_llm_recognize: str, lines: list[str], tasks: list[asyncio.Task], success: list[str], failure: list[str]) -> None:
+    async with SEMAPHORE, ASYNCLIMITER:
+        # 获取 LLM 识别结果
+        error = None
+        llm_request, llm_response, error = await request(
+            prompt_llm_recognize,
+            "\n".join(lines),
+        )
+
+        if error == None:
+            pass
+        else:
+            await on_failure(llm_request, llm_response, error, tasks, success, failure)
+            return
+
+        # 数据处理
+        result = {}
+        result["entities"] = TextHelper.safe_load_json_list(llm_response.get("choices")[0].get("message").get("content").strip())
+        result["sentences"] = "\n".join(lines)
+
+        # 获取 LLM 检查结果
+        error = None
+        llm_request, llm_response, error = await request(
+            prompt_llm_check,
+            json.dumps(
+                result,
+                indent = None,
+                ensure_ascii = False,
+            ),
+        )
+
+        if error == None:
+            await on_success(llm_request, llm_response, error, tasks, success, failure)
+        else:
+            await on_failure(llm_request, llm_response, error, tasks, success, failure)
+
+        # 写入文件
+        if len(success) + len(failure) > 0 and (len(success) + len(failure)) % 5 == 0:
+            write(f"{target.replace(".txt", "")}_failure.log", failure)
+            write(f"{target.replace(".txt", "")}_success.log", success)
 
 # 主函数
 async def main(target: str) -> None:
-    with open("prompt/llm_ner.txt", "r", encoding = "utf-8") as reader:
-        prompt = reader.read().strip()
+    with open("prompt/llm_check.txt", "r", encoding = "utf-8") as reader:
+        prompt_llm_check = reader.read().strip()
+
+    with open("prompt/llm_recognize.txt", "r", encoding = "utf-8") as reader:
+        prompt_llm_recognize = reader.read().strip()
 
     with open(target, "r", encoding = "utf-8") as reader:
         lines = [line.strip() for line in reader.readlines() if line.strip() != ""]
@@ -161,16 +165,12 @@ async def main(target: str) -> None:
     # 执行并发任务
     tasks = []
     for lines in line_chunks:
-        tasks.append(asyncio.create_task(request(lines, prompt, tasks, success, failure)))
+        tasks.append(asyncio.create_task(start(target, prompt_llm_check, prompt_llm_recognize, lines, tasks, success, failure)))
     await asyncio.gather(*tasks, return_exceptions = True)
 
-    # 写入成功日志
-    with open(f"{target.replace(".txt", "")}_success.log", "w", encoding = "utf-8") as writer:
-        writer.write(json.dumps(success, indent = 4, ensure_ascii = False))
-
-    # 写入失败日志
-    with open(f"{target.replace(".txt", "")}_failure.log", "w", encoding = "utf-8") as writer:
-        writer.write(json.dumps(failure, indent = 4, ensure_ascii = False))
+    # 写入文件
+    write(f"{target.replace(".txt", "")}_failure.log", failure)
+    write(f"{target.replace(".txt", "")}_success.log", success)
 
 # 入口函数
 if __name__ == "__main__":