Skip to content

bor799/Medical-insurance-Fraud-detection-and-Risk-prevention

Repository files navigation

医疗保险:欺诈识别与风险防范,模型->+策略(Agentic AI) / Healthcare Insurance Fraud Detection System

📋 项目概述

本项目构建了一个端到端的医疗保险欺诈检测系统,集成了数据分析、模型训练、特征解释和防控策略生成等功能。系统基于美国医疗保险和医疗补助服务中心(CMS)以及美国卫生与公众服务部监察长办公室(OIG)的公开数据构建。项目创新性地引入了智能风控Agent架构,通过PM/工程师双层设计实现了从欺诈识别到风险防范的全流程智能化,尤其实现了工程架构上的创新,极大程度实现提效的目的。

🌟 核心特性

  • 全流程自动化:从数据预处理到模型部署的完整流程自动化
  • 多模型集成:集成了逻辑回归、随机森林、XGBoost和深度神经网络等多个模型
  • 可解释性分析:使用SHAP值提供详细的模型解释
  • 防控策略生成:自动生成可执行的风险防控规则
  • 智能Agent架构:PM/工程师双层架构,实现从需求分析到代码实现的智能协作

📊 数据说明

数据来源与处理

本项目利用两个主要数据源构建医疗保险欺诈检测数据集:

  1. CMS Medicare Part B 数据
  • 来源:美国医疗保险和医疗补助服务中心(CMS)
  • 内容:医生执行的具体诊疗项目及费用信息
  • 特点:
    • 基于医生NPI(National Provider Identifier)唯一标识
    • 使用HCPCS(Healthcare Common Procedure Coding System)编码标识医疗程序
    • 包含平均支付金额、收费次数、医疗专业等信息
    • 按提供者NPI、HCPCS代码和服务地点进行聚合
  1. LEIE(List of Excluded Individuals/Entities)数据
  • 来源:美国卫生与公众服务部监察长办公室(OIG)
  • 更新频率:每月更新
  • 用途:识别被排除在联邦医疗保健计划之外的个人或实体
  • 特点:包含医疗保险欺诈相关刑事定罪记录

数据整合过程

  1. 通过医疗实体唯一识别码(NPI)将CMS数据与LEIE黑名单关联
  2. 提取相关特征并进行标准化处理
  3. 生成最终包含95万条记录的特征库

特征维度

  • 样本规模:95万条医疗记录
  • 特征数量:11个特征(7个数值特征,4个类别特征)

数据结构

每条记录包含:

  • 医生唯一标识(NPI)
  • 提供者类型(专业领域)
  • HCPCS服务代码
  • 服务地点(医院/诊所)
  • 索赔计数和相关属性

🧠 技术创新

特征工程

  • 梯度剥离噪声技术:通过梯度下降法识别并剥离数据中的噪声,提高特征质量
  • 时序比值特征:融合就诊频次与费用波动构建时序比值特征,捕捉异常模式
  • 决策树逆向解析:通过决策树模型逆向解析异常场景关联规律,提取高价值特征

欺诈识别模型

  • 三层级模型体系:构建"快筛-精筛-归因"三层级模型体系
    • 快筛层:基于轻量级模型快速筛选高风险案例
    • 精筛层:使用复杂模型对高风险案例进行精细分析
    • 归因层:通过可解释AI技术对欺诈行为进行归因分析
  • 双层筛查机制:耦合有监督与无监督检测方法,提高检测准确性
  • 模型性能:KS值达0.37,F2分数达0.76

策略优化

  • 欺诈路径逆向解析:通过模型解释技术逆向解析欺诈路径
  • 规则链生成:基于欺诈路径自动生成风险防控规则链
  • 动态阈值优化:基于成本敏感学习动态优化风险阈值
  • 断点回归验证:使用断点回归方法验证策略有效性

🤖 智能Agent架构

PM/工程师双层架构

  • PM层:负责需求分析、任务分解和结果评估
    • 需求理解与转化
    • 任务优先级排序
    • 成果质量评估
    • 迭代方向决策
  • 工程师层:负责技术实现和代码优化
    • 算法设计与实现
    • 代码优化与重构
    • 技术文档生成
    • 单元测试与调试

文档沟通和动态反馈机制

  • 结构化文档体系
    • 需求文档模板
    • 技术规范文档
    • 代码注释规范
    • 测试报告模板
  • 动态反馈循环
    • 实时进度追踪
    • 阶段性成果评估
    • 问题快速响应机制
    • 持续优化建议

Builder心态与系统优化

  • 自我进化机制
    • 代码自动重构
    • 性能自动优化
    • 文档自动更新
    • 测试自动生成
  • 完成度突破策略
    • 模块化设计
    • 增量式开发
    • 持续集成部署
    • 自动化测试覆盖

🏗️ 项目结构

murphysystermmodelcode/
├── config/                 # 配置文件
│   ├── model_config.py     # 模型配置
│   └── system_config.py    # 系统配置
├── models/                 # 模型实现
│   ├── feature_engineering/# 特征工程模块
│   │   ├── gradient_noise_removal.py  # 梯度剥离噪声
│   │   └── temporal_ratio_features.py # 时序比值特征
│   ├── detection/          # 欺诈检测模块
│   │   ├── quick_screening.py  # 快筛模型
│   │   ├── fine_screening.py   # 精筛模型
│   │   └── attribution.py      # 归因模型
│   └── policy/             # 策略优化模块
│       ├── rule_generation.py  # 规则生成
│       └── threshold_optimization.py # 阈值优化
├── agent/                  # 智能Agent架构_cursor
│   ├── pm/                 # PM层实现
│   │   ├── requirement_analyzer.py  # 需求分析器
│   │   └── task_scheduler.py        # 任务调度器
│   └── engineer/           # 工程师层实现
│       ├── code_generator.py        # 代码生成器
│       └── code_optimizer.py        # 代码优化器
├── utils/                  # 工具函数
│   ├── data_processor.py   # 数据处理
│   ├── visualization.py    # 可视化工具
│   └── evaluation.py       # 评估工具
├── evaluation/             # 评估结果
├── output/                 # 输出文件
└── logs/                   # 日志文件

📈 性能指标

模型 PR-AUC F2-Score Lift@10% KS值
XGBoost 0.892 85.34% 3.45x 0.39
RandomForest 0.878 83.21% 3.21x 0.36
DNN 0.865 82.15% 3.12x 0.34
LogisticRegression 0.843 80.56% 2.98x 0.32

🚀 快速开始

  1. 环境配置
pip install -r requirements.txt
  1. 运行实验
python run_experiment.py
  1. 启动智能Agent
python run_agent.py --mode full

📦 输出文件

  • 数据预处理报告(含特征分布可视化)
  • 模型性能对比表(LaTeX格式)
  • SHAP解释图集(300dpi TIFF格式)
  • 防控策略手册(含可执行规则)
  • 实验日志(含MD5校验)
  • Agent工作报告(含任务分解与完成情况)

🔍 特征说明

数值特征:

  • Tot_Benes: 服务的受益人总数
  • Tot_Srvcs: 提供的服务总次数
  • Tot_Bene_Day_Srvcs: 受益人接受服务的总天数
  • Avg_Sbmtd_Chrg: 平均提交费用
  • Avg_Mdcr_Alowd_Amt: 医保允许的平均金额
  • Avg_Mdcr_Pymt_Amt: 医保实际支付的平均金额
  • Bi_Wk_Avg_SC: 双周服务费用

类别特征:

  • Rndrng_Prvdr_Type: 提供者类型
  • Rndrng_Prvdr_Gndr: 提供者性别
  • HCPCS_Cd: 医疗服务代码
  • Place_Of_Srvc: 服务地点

🔄 开发流程与效率提升

本项目采用智能Agent驱动的开发流程,实现了从需求分析到代码实现的高效协作:

  1. 需求分析阶段:PM层Agent分析业务需求,拆解为明确的技术任务
  2. 设计阶段:PM与工程师层Agent协作设计系统架构和算法流程
  3. 实现阶段:工程师层Agent负责代码实现,PM层Agent进行质量监控
  4. 测试阶段:自动化测试与人工评估相结合,确保系统质量
  5. 部署阶段:自动化部署流程,实现快速迭代

通过这一流程,项目开发效率提升至小时级,相比传统开发方式提速约10倍。

🔮 未来展望

  • 工具拓展:为Agent提供更多外部工具调用能力,拓展解决问题的边界
  • 多步决策优化:增强Agent的多步决策能力,提高复杂任务处理质量
  • 自我迭代机制:完善Agent自我评估与优化机制,实现持续进化
  • 感知能力增强:提升Agent对业务场景的理解能力,减少人工干预
  • 标准化体系:建立更完善的评估标准体系,提高Agent输出质量
  • 框架简化:优化Agent架构,降低使用门槛,提高适用性

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages