MedicalAiBenchEval/irrelevant_content_grading.py at main · AQ-MedAI/MedicalAiBenchEval · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
#!/usr/bin/env python3
"""
Irrelevant Content Grading Assessment Script: Specifically assess the severity level of extracted irrelevant content

Main Functions:
1. Perform S1-S4 level assessment on extracted irrelevant content
2. Support multi-model voting mechanism to ensure assessment accuracy
3. Provide multiple voting strategies (conservative, majority, average)
4. Generate detailed assessment reports and statistical information

Usage Workflow:
1. First use extract_irrelevant_content.py to extract irrelevant content
2. Use this script to perform grading assessment on extracted content
3. Output detailed reports containing levels and reasons
"""

import json
import logging
import re
import asyncio
import pandas as pd
from pathlib import Path
from typing import List, Dict
from judge_engine import MODEL_CFG, get_client
from langchain_core.messages import HumanMessage

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)


class ContentGrader:
    """
    Irrelevant Content Grading Assessor

    Main Functions:
    1. Build professional medical content assessment prompts
    2. Call AI models for content level assessment
    3. Parse model returned assessment results
    4. Support batch assessment of multiple irrelevant contents

    Level Standards:
    - S1: Content irrelevant but no factual errors (correct but redundant)
    - S2: Content irrelevant with minor factual errors (numerical range deviation)
    - S3: Content irrelevant with obvious factual errors (specific information errors)
    - S4: Content irrelevant with serious factual errors (involving risks such as wrong dosage, contraindications, etc.)
    """

    def __init__(self):
        """
        Initialize content grading assessor

        Note:
            - Load available AI model configurations
            - Prepare model list for assessment
        """
        self.models = MODEL_CFG

    def _build_grading_prompt(self, question: str, answer: str, irrelevant_content: str, rubrics: List[Dict]) -> str:
        """
        Build level assessment prompt

        Args:
            question: Original clinical question
            answer: Complete model answer
            irrelevant_content: Irrelevant content to be assessed
            rubrics: Assessment criteria list

        Returns:
            str: Built assessment prompt

        Note:
            - Provide clear S1-S4 level judgment standards
            - Combine specific clinical questions and answer content
            - Require model to return structured JSON format results
            - Focus on accuracy and safety of medical content
        """
        rubric_text = "\n".join([f"- {r.get('desc', '')}" for r in rubrics])

        return f"""作为医学内容审核专家，请基于S1-S4等级标准评估以下无关内容的严重程度。

                【临床问题】
                {question}

                【完整回答】
                {answer}

                【待评估的无关内容】
                {irrelevant_content}

                【评测要点】
                {rubric_text}

                【S等级判定标准】
                - **S1**：内容无关但无事实错误（正确但冗余）
                - **S2**：内容无关且有轻微事实错误（数字范围偏差）
                - **S3**：内容无关且有明显事实错误（具体信息错误）
                - **S4**：内容无关且有严重事实错误（涉及风险，如错误剂量、禁忌症等）

                【输出要求】
                仅返回JSON格式：{{"level":"S等级","reasoning":"简要说明"}}
                示例：{{"level":"S3","reasoning":"对药物剂量存在明显错误"}}
                """

    def _parse_grading_response(self, content: str) -> Dict:
        """
        Parse AI model returned level assessment results

        Args:
            content: Original text content returned by model

        Returns:
            Dict: Parsed results containing level and reasoning

        Note:
            - Prioritize parsing standard JSON format
            - Support extracting JSON code blocks from text
            - Provide multi-level backup parsing strategies
            - Ensure always return valid S1-S4 levels
            - Handle various format exceptions
        """
        try:
            content = content.strip()

            # Try to parse as JSON directly
            try:
                parsed = json.loads(content)
                if "level" in parsed and parsed["level"] in ["S1", "S2", "S3", "S4"]:
                    return {
                        "level": parsed["level"],
                        "reasoning": parsed.get("reasoning", "No specific explanation")
                    }
            except:
                pass

            # Try to extract JSON code block
            json_match = re.search(r'\{[^}]*"level"[^}]*\}', content)
            if json_match:
                parsed = json.loads(json_match.group(0))
                if "level" in parsed and parsed["level"] in ["S1", "S2", "S3", "S4"]:
                    return {
                        "level": parsed["level"],
                        "reasoning": parsed.get("reasoning", "No specific explanation")
                    }

            # Backup: extract level only
            level_match = re.search(r'"level"\s*:\s*"(S[1-4])"', content)
            if level_match:
                return {
                    "level": level_match.group(1),
                    "reasoning": "System automatic assessment"
                }

            # Final backup: find S1-S4 pattern
            level_match = re.search(r'\b(S[1-4])\b', content)
            if level_match:
                return {
                    "level": level_match.group(1),
                    "reasoning": "Basic assessment"
                }

            return {"level": "S1", "reasoning": "Default level"}

        except Exception as e:
            logger.error(f"Parsing failed: {e}, content: {content[:100]}...")
            return {"level": "S1", "reasoning": "Parsing failed"}

    async def grade_single_content(self, model_id: str, question: str, answer: str, irrelevant_content: str, rubrics: List[Dict]) -> Dict:
        """
        Perform level assessment on single irrelevant content

        Args:
            model_id: AI model ID to use
            question: Original question
            answer: Complete answer
            irrelevant_content: Irrelevant content to be assessed
            rubrics: Assessment standards

        Returns:
            Dict: Assessment results including content, level, reasoning, etc.

        Note:
            - Call specified AI model for assessment
            - Handle API call exceptions
            - Return structured assessment results
            - Record detailed debugging information
        """
        try:
            client = get_client(model_id)
            prompt = self._build_grading_prompt(question, answer, irrelevant_content, rubrics)

            logger.debug(f"Using model {model_id} to assess: {irrelevant_content[:50]}...")
            response = await client.ainvoke([HumanMessage(content=prompt)])

            grade_info = self._parse_grading_response(response.content)
            return {
                "content": irrelevant_content,
                **grade_info,
                "model_id": model_id
            }

        except Exception as e:
            logger.error(f"Assessment failed: {e}")
            return {
                "content": irrelevant_content,
                "level": "S1",
                "reasoning": f"Assessment failed: {str(e)}",
                "model_id": model_id
            }

    async def grade_multiple_content(self, model_id: str, question: str, answer: str, irrelevant_contents: List[str], rubrics: List[Dict]) -> List[Dict]:
        """
        Batch assess multiple irrelevant contents

        Args:
            model_id: AI model ID
            question: Original question
            answer: Complete answer
            irrelevant_contents: List of irrelevant contents
            rubrics: Assessment standards

        Returns:
            List[Dict]: Assessment results list for all contents

        Note:
            - Assess each irrelevant content in the list one by one
            - Maintain consistency of assessment result order
            - Handle empty list cases
        """
        if not irrelevant_contents:
            return []

        results = []
        for content in irrelevant_contents:
            result = await self.grade_single_content(model_id, question, answer, content, rubrics)
            results.append(result)

        return results


class VoteProcessor:
    """
    Multi-Model Voting Processor

    Main Functions:
    1. Implement multiple voting strategies (conservative, majority, average)
    2. Handle voting tie situations
    3. Ensure consistency and reliability of assessment results

    Voting Strategy Explanation:
    - Conservative strategy: S4 priority, then handle ties by severity
    - Majority strategy: Majority vote, choose median severity on ties
    - Average strategy: Numerical average then rounding
    """

    def _get_conservative_level(self, levels: List[str]) -> str:
        """
        Conservative strategy: S4 priority, then majority vote (including tie handling)

        Args:
            levels: List of levels given by each model

        Returns:
            str: Finally determined level

        Note:
            - If any model gives S4, directly return S4 (most conservative)
            - Otherwise follow majority voting principle
            - Choose higher severity level on ties
            - Suitable for medical content scenarios with high safety requirements
        """
        if "S4" in levels:
            return "S4"

        level_counts = {}
        for level in levels:
            level_counts[level] = level_counts.get(level, 0) + 1

        max_count = max(level_counts.values())
        tied_levels = [level for level, count in level_counts.items() if count == max_count]

        if len(tied_levels) > 1:
            severity_order = {"S1": 1, "S2": 2, "S3": 3, "S4": 4}
            return max(tied_levels, key=lambda x: severity_order[x])

        return max(level_counts.items(), key=lambda x: x[1])[0]

    def _get_majority_level(self, levels: List[str]) -> str:
        """
        Majority voting strategy (including tie handling)

        Args:
            levels: List of levels given by each model

        Returns:
            str: Finally determined level

        Note:
            - Choose the level with most votes
            - Calculate median severity on ties
            - More balanced compared to conservative strategy
            - Suitable for scenarios requiring balance between accuracy and strictness
        """
        level_counts = {}
        for level in levels:
            level_counts[level] = level_counts.get(level, 0) + 1

        max_count = max(level_counts.values())
        tied_levels = [level for level, count in level_counts.items() if count == max_count]

        if len(tied_levels) > 1:
            severity_order = {"S1": 1, "S2": 2, "S3": 3, "S4": 4}
            tied_severities = [severity_order[level] for level in tied_levels]
            tied_severities.sort()
            median_index = len(tied_severities) // 2
            return ["S1", "S2", "S3", "S4"][tied_severities[median_index] - 1]

        return max(level_counts.items(), key=lambda x: x[1])[0]

    def _get_average_level(self, levels: List[str]) -> str:
        """
        Numerical average strategy

        Args:
            levels: List of levels given by each model

        Returns:
            str: Finally determined level

        Note:
            - Convert S1-S4 to numerical values 1-4
            - Calculate average and round
            - Convert back to corresponding S level
            - Suitable for scenarios requiring numerical processing
        """
        level_map = {"S1": 1, "S2": 2, "S3": 3, "S4": 4}
        numeric_levels = [level_map[level] for level in levels if level in level_map]

        if not numeric_levels:
            return "S1"

        avg_level = round(sum(numeric_levels) / len(numeric_levels))
        reverse_map = {1: "S1", 2: "S2", 3: "S3", 4: "S4"}
        return reverse_map[min(max(avg_level, 1), 4)]


class DataHandler:
    """
    Data Processing and File IO Processor

    Main Functions:
    1. Load input data in different formats (JSON, Excel)
    2. Save assessment results to multiple formats
    3. Generate detailed summary reports
    4. Handle data format conversion
    """

    @staticmethod
    def load_extracted_data(file_path: str) -> List[Dict]:
        """
        Load extracted irrelevant content data

        Args:
            file_path: Input file path, supporting JSON and Excel formats

        Returns:
            List[Dict]: Standardized data record list

        Note:
            - Automatically recognize file format (JSON or Excel)
            - Convert data in different formats to unified structure
            - Handle missing fields and data type conversion
            - Ensure data format consistency
        """
        if file_path.endswith('.json'):
            with open(file_path, 'r', encoding='utf-8') as f:
                return json.load(f)
        elif file_path.endswith('.xlsx'):
            df = pd.read_excel(file_path)
            results = []
            for _, row in df.iterrows():
                result = {
                    "row": int(row.get("Row Number", 0)) - 1,
                    "question": str(row.get("Question", "")),
                    "answer": str(row.get("Answer", "")),
                    "extracted_contents": [
                        {
                            "content": str(row.get("Irrelevant Content", "")),
                            "reasoning": str(row.get("Judgment Reasoning", ""))
                        }
                    ],
                    "rubric": str(row.get("Assessment Criteria", ""))
                }
                results.append(result)
            return results

    @staticmethod
    def save_grading_results(results: List[Dict], output_file: str):
        """
        Save grading assessment results

        Args:
            results: Assessment results list
            output_file: Output file path

        Note:
            - Generate detailed Excel format report (including summary and details sheets)
            - Also save JSON format raw data
            - Summary sheet includes final levels and reasons
            - Details sheet includes voting situation of each model
            - Handle display of error records
        """
        summary = []
        details = []

        for r in results:
            if "error" in r:
                summary.append({
                    "Row Number": r["row"]+1,
                    "Error": r["error"],
                    "Final Level": "",
                    "Judgment Reason": "",
                    "Voting Strategy": ""
                })
                continue

            for item in r.get("final_grades", []):
                summary.append({
                    "Row Number": r["row"]+1,
                    "Irrelevant Content": item["content"],
                    "Level": item["level"],
                    "Reason": item["reasoning"],
                    "Voting Strategy": item.get("voting_strategy", "conservative")
                })

                # Model detailed results
                for level, count in item.get("model_votes", {}).items():
                    details.append({
                        "Row Number": r["row"]+1,
                        "Irrelevant Content": item["content"],
                        "Level": level,
                        "Vote Count": count,
                        "Voting Strategy": item.get("voting_strategy", "conservative")
                    })

        with pd.ExcelWriter(output_file, engine='openpyxl') as writer:
            pd.DataFrame(summary).to_excel(writer, sheet_name='Grading Summary', index=False)
            if details:
                pd.DataFrame(details).to_excel(writer, sheet_name='Model Details', index=False)

        # Save JSON format
        json_output = str(Path(output_file).with_suffix('.json'))
        with open(json_output, 'w', encoding='utf-8') as f:
            json.dump(results, f, ensure_ascii=False, indent=2, default=str)


async def process_grading(config: Dict = None) -> str:
    """
    Main Processing Workflow - Grading Assessment

    Args:
        config: Configuration parameter dictionary including input file, model list, voting strategy, etc.

    Returns:
        str: Output file path

    Note:
        - Execute complete irrelevant content grading assessment workflow
        - Support multi-model parallel assessment and voting
        - Generate detailed statistical information and reports
        - Handle various exception situations
        - Provide progress tracking and logging

    Processing Workflow:
        1. Load extracted irrelevant content data
        2. Use multiple models to assess each irrelevant content
        3. Determine final level based on voting strategy
        4. Generate statistical reports and detailed results
        5. Save to Excel and JSON format files
    """
    if config is None:
        config = {
            "input_file": "data/input/extracted_content.json",
            "level_models": ["m1", "m2", "m4"],
            "voting_strategy": "conservative",
            "question_column": "question",
            "answer_column": "answer",
            "rubric_column": "rubric"
        }

    grader = ContentGrader()
    vote_processor = VoteProcessor()
    handler = DataHandler()

    logger.info("Starting irrelevant content grading assessment...")

    # Load extracted irrelevant content data
    data = handler.load_extracted_data(config["input_file"])
    logger.info(f"Data loaded successfully, total {len(data)} records")

    results = []
    total_records = len(data)

    for idx, record in enumerate(data):
        logger.info(f"Progress: {idx+1}/{total_records} ({(idx+1)/total_records*100:.1f}%)")

        try:
            row = record["row"]
            question = record["question"]
            answer = record["answer"]
            extracted_contents = record.get("extracted_contents", [])
            rubric = record.get("rubric", "")

            if not extracted_contents:
                results.append({
                    "row": row,
                    "question": question,
                    "answer": answer,
                    "rubric": rubric,
                    "extracted_contents": extracted_contents,
                    "final_grades": []
                })
                logger.info(f" Row {row+1} has no irrelevant content to grade")
                continue

            # Parse assessment criteria
            try:
                rubrics = [{"desc": rubric}] if not rubric.startswith('[') else [
                    {"desc": r.get("desc", "")} for r in json.loads(rubric)
                ]
            except:
                rubrics = [{"desc": rubric}]

            # Use multiple models to assess levels
            level_models = config.get("level_models", ["m1", "m2", "m3"])
            voting_strategy = config.get("voting_strategy", "conservative")

            logger.info(f"Using {len(level_models)} models to assess {len(extracted_contents)} irrelevant contents")

            final_grades = []

            # Perform voting assessment for each irrelevant content
            for content_item in extracted_contents:
                content = content_item["content"]

                # Collect assessment results from all models
                model_results = []
                for model_id in level_models:
                    model_result = await grader.grade_single_content(
                        model_id, question, answer, content, rubrics
                    )
                    model_results.append(model_result)

                # Voting processing
                levels = [r["level"] for r in model_results]
                reasonings = [r["reasoning"] for r in model_results]

                # Use voting strategy to determine final level
                if voting_strategy == "conservative":
                    final_level = vote_processor._get_conservative_level(levels)
                elif voting_strategy == "average":
                    final_level = vote_processor._get_average_level(levels)
                elif voting_strategy == "majority":
                    final_level = vote_processor._get_majority_level(levels)
                else:
                    final_level = vote_processor._get_conservative_level(levels)

                final_reasoning = max(reasonings, key=len) if reasonings else "Based on majority model judgment"

                # Calculate model consistency
                level_counts = {}
                for level in levels:
                    level_counts[level] = level_counts.get(level, 0) + 1

                final_grades.append({
                    "content": content,
                    "level": final_level,
                    "reasoning": final_reasoning,
                    "model_votes": level_counts,
                    "voting_strategy": voting_strategy
                })

            results.append({
                "row": row,
                "extracted_contents": extracted_contents,
                "final_grades": final_grades
            })

            logger.info(f" Row {row+1} processing completed, assessed {len(final_grades)} irrelevant contents")

        except Exception as e:
            logger.error(f"Row {record.get('row', idx)+1} processing failed: {e}")
            results.append({
                "row": record.get("row", idx),
                "error": str(e)
            })

    # Final summary statistics
    successful_results = [r for r in results if "error" not in r]
    failed_results = [r for r in results if "error" in r]
    total_graded = sum(len(r.get("final_grades", [])) for r in successful_results)

    logger.info("=" * 50)
    logger.info("Grading assessment completion statistics:")
    logger.info(f"Total processed records: {len(data)}")
    logger.info(f"Successfully assessed: {len(successful_results)}")
    logger.info(f"Failed records: {len(failed_results)}")
    logger.info(f"Total graded: {total_graded} items")

    # Statistics of level distribution
    level_counts = {}
    for r in successful_results:
        for item in r.get("final_grades", []):
            level = item["level"]
            level_counts[level] = level_counts.get(level, 0) + 1

    logger.info("Level distribution:")
    for level in ["S1", "S2", "S3", "S4"]:
        logger.info(f"  {level}: {level_counts.get(level, 0)} items")

    logger.info("=" * 50)

    # Save results
    output_file = Path(config["input_file"]).parent / f"graded_content_{voting_strategy}_{pd.Timestamp.now().strftime('%Y%m%d_%H%M%S')}.xlsx"
    handler.save_grading_results(results, str(output_file))

    logger.info(f"Completed! Output: {output_file}")
    return str(output_file)


def main():
    """
    Main Function - Entry point for irrelevant content grading assessment system

    Note:
        - Provide system usage instructions and operation guide
        - Execute grading assessment workflow with default configuration
        - Display supported voting strategies and usage methods

    Usage Workflow:
        1. First use extract_irrelevant_content.py to extract irrelevant content
        2. Run this script for grading assessment
        3. View generated Excel and JSON report files

    Voting Strategy Selection:
        - conservative: Conservative strategy, prioritize more severe levels
        - majority: Majority vote, choose the level with most votes
        - average: Average strategy, calculate level based on numerical average
    """
    print("  Irrelevant Content Grading System - Specifically assess level severity")
    print(" Usage:")
    print("  1. First use extract_irrelevant_content.py to extract irrelevant content")
    print("  2. Then use this script for grading assessment")
    print("  3. Supported voting strategies: conservative|majority|average")
    print()

    asyncio.run(process_grading())


if __name__ == "__main__":
    main()