医疗保险：欺诈识别与风险防范，模型->+策略（Agentic AI） / Healthcare Insurance Fraud Detection System

📋 项目概述

本项目构建了一个端到端的医疗保险欺诈检测系统，集成了数据分析、模型训练、特征解释和防控策略生成等功能。系统基于美国医疗保险和医疗补助服务中心（CMS）以及美国卫生与公众服务部监察长办公室（OIG）的公开数据构建。项目创新性地引入了智能风控Agent架构，通过PM/工程师双层设计实现了从欺诈识别到风险防范的全流程智能化,尤其实现了工程架构上的创新，极大程度实现提效的目的。

🌟 核心特性

全流程自动化：从数据预处理到模型部署的完整流程自动化
多模型集成：集成了逻辑回归、随机森林、XGBoost和深度神经网络等多个模型
可解释性分析：使用SHAP值提供详细的模型解释
防控策略生成：自动生成可执行的风险防控规则
智能Agent架构：PM/工程师双层架构，实现从需求分析到代码实现的智能协作

📊 数据说明

数据来源与处理

本项目利用两个主要数据源构建医疗保险欺诈检测数据集：

CMS Medicare Part B 数据

来源：美国医疗保险和医疗补助服务中心（CMS）
内容：医生执行的具体诊疗项目及费用信息
特点：
- 基于医生NPI（National Provider Identifier）唯一标识
- 使用HCPCS（Healthcare Common Procedure Coding System）编码标识医疗程序
- 包含平均支付金额、收费次数、医疗专业等信息
- 按提供者NPI、HCPCS代码和服务地点进行聚合

LEIE（List of Excluded Individuals/Entities）数据

来源：美国卫生与公众服务部监察长办公室（OIG）
更新频率：每月更新
用途：识别被排除在联邦医疗保健计划之外的个人或实体
特点：包含医疗保险欺诈相关刑事定罪记录

数据整合过程

通过医疗实体唯一识别码（NPI）将CMS数据与LEIE黑名单关联
提取相关特征并进行标准化处理
生成最终包含95万条记录的特征库

特征维度

样本规模：95万条医疗记录
特征数量：11个特征（7个数值特征，4个类别特征）

数据结构

每条记录包含：

医生唯一标识（NPI）
提供者类型（专业领域）
HCPCS服务代码
服务地点（医院/诊所）
索赔计数和相关属性

🧠 技术创新

特征工程

梯度剥离噪声技术：通过梯度下降法识别并剥离数据中的噪声，提高特征质量
时序比值特征：融合就诊频次与费用波动构建时序比值特征，捕捉异常模式
决策树逆向解析：通过决策树模型逆向解析异常场景关联规律，提取高价值特征

欺诈识别模型

三层级模型体系：构建"快筛-精筛-归因"三层级模型体系
- 快筛层：基于轻量级模型快速筛选高风险案例
- 精筛层：使用复杂模型对高风险案例进行精细分析
- 归因层：通过可解释AI技术对欺诈行为进行归因分析
双层筛查机制：耦合有监督与无监督检测方法，提高检测准确性
模型性能：KS值达0.37，F2分数达0.76

策略优化

欺诈路径逆向解析：通过模型解释技术逆向解析欺诈路径
规则链生成：基于欺诈路径自动生成风险防控规则链
动态阈值优化：基于成本敏感学习动态优化风险阈值
断点回归验证：使用断点回归方法验证策略有效性

🤖 智能Agent架构

PM/工程师双层架构

PM层：负责需求分析、任务分解和结果评估
- 需求理解与转化
- 任务优先级排序
- 成果质量评估
- 迭代方向决策
工程师层：负责技术实现和代码优化
- 算法设计与实现
- 代码优化与重构
- 技术文档生成
- 单元测试与调试

文档沟通和动态反馈机制

结构化文档体系：
- 需求文档模板
- 技术规范文档
- 代码注释规范
- 测试报告模板
动态反馈循环：
- 实时进度追踪
- 阶段性成果评估
- 问题快速响应机制
- 持续优化建议

Builder心态与系统优化

自我进化机制：
- 代码自动重构
- 性能自动优化
- 文档自动更新
- 测试自动生成
完成度突破策略：
- 模块化设计
- 增量式开发
- 持续集成部署
- 自动化测试覆盖

🏗️ 项目结构

murphysystermmodelcode/
├── config/                 # 配置文件
│   ├── model_config.py     # 模型配置
│   └── system_config.py    # 系统配置
├── models/                 # 模型实现
│   ├── feature_engineering/# 特征工程模块
│   │   ├── gradient_noise_removal.py  # 梯度剥离噪声
│   │   └── temporal_ratio_features.py # 时序比值特征
│   ├── detection/          # 欺诈检测模块
│   │   ├── quick_screening.py  # 快筛模型
│   │   ├── fine_screening.py   # 精筛模型
│   │   └── attribution.py      # 归因模型
│   └── policy/             # 策略优化模块
│       ├── rule_generation.py  # 规则生成
│       └── threshold_optimization.py # 阈值优化
├── agent/                  # 智能Agent架构_cursor
│   ├── pm/                 # PM层实现
│   │   ├── requirement_analyzer.py  # 需求分析器
│   │   └── task_scheduler.py        # 任务调度器
│   └── engineer/           # 工程师层实现
│       ├── code_generator.py        # 代码生成器
│       └── code_optimizer.py        # 代码优化器
├── utils/                  # 工具函数
│   ├── data_processor.py   # 数据处理
│   ├── visualization.py    # 可视化工具
│   └── evaluation.py       # 评估工具
├── evaluation/             # 评估结果
├── output/                 # 输出文件
└── logs/                   # 日志文件

📈 性能指标

模型	PR-AUC	F2-Score	Lift@10%	KS值
XGBoost	0.892	85.34%	3.45x	0.39
RandomForest	0.878	83.21%	3.21x	0.36
DNN	0.865	82.15%	3.12x	0.34
LogisticRegression	0.843	80.56%	2.98x	0.32

🚀 快速开始

环境配置

pip install -r requirements.txt

运行实验

python run_experiment.py

启动智能Agent

python run_agent.py --mode full

📦 输出文件

数据预处理报告（含特征分布可视化）
模型性能对比表（LaTeX格式）
SHAP解释图集（300dpi TIFF格式）
防控策略手册（含可执行规则）
实验日志（含MD5校验）
Agent工作报告（含任务分解与完成情况）

🔍 特征说明

数值特征:

Tot_Benes: 服务的受益人总数
Tot_Srvcs: 提供的服务总次数
Tot_Bene_Day_Srvcs: 受益人接受服务的总天数
Avg_Sbmtd_Chrg: 平均提交费用
Avg_Mdcr_Alowd_Amt: 医保允许的平均金额
Avg_Mdcr_Pymt_Amt: 医保实际支付的平均金额
Bi_Wk_Avg_SC: 双周服务费用

类别特征:

Rndrng_Prvdr_Type: 提供者类型
Rndrng_Prvdr_Gndr: 提供者性别
HCPCS_Cd: 医疗服务代码
Place_Of_Srvc: 服务地点

🔄 开发流程与效率提升

本项目采用智能Agent驱动的开发流程，实现了从需求分析到代码实现的高效协作：

需求分析阶段：PM层Agent分析业务需求，拆解为明确的技术任务
设计阶段：PM与工程师层Agent协作设计系统架构和算法流程
实现阶段：工程师层Agent负责代码实现，PM层Agent进行质量监控
测试阶段：自动化测试与人工评估相结合，确保系统质量
部署阶段：自动化部署流程，实现快速迭代

通过这一流程，项目开发效率提升至小时级，相比传统开发方式提速约10倍。

🔮 未来展望

工具拓展：为Agent提供更多外部工具调用能力，拓展解决问题的边界
多步决策优化：增强Agent的多步决策能力，提高复杂任务处理质量
自我迭代机制：完善Agent自我评估与优化机制，实现持续进化
感知能力增强：提升Agent对业务场景的理解能力，减少人工干预
标准化体系：建立更完善的评估标准体系，提高Agent输出质量
框架简化：优化Agent架构，降低使用门槛，提高适用性

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
README.md		README.md
base_config.py		base_config.py
base_model.py		base_model.py
checksum.py		checksum.py
data_analysis.py		data_analysis.py
data_analyzer.py		data_analyzer.py
dnn.py		dnn.py
evaluation.py		evaluation.py
logger.py		logger.py
logistic.py		logistic.py
model_config.py		model_config.py
model_explainer.py		model_explainer.py
random_forest.py		random_forest.py
run_analysis.py		run_analysis.py
run_experiment.py		run_experiment.py
strategy_generator.py		strategy_generator.py
vis_config.py		vis_config.py
xgboost_model.py		xgboost_model.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

医疗保险：欺诈识别与风险防范，模型->+策略（Agentic AI） / Healthcare Insurance Fraud Detection System

📋 项目概述

🌟 核心特性

📊 数据说明

数据来源与处理

数据整合过程

特征维度

数据结构

🧠 技术创新

特征工程

欺诈识别模型

策略优化

🤖 智能Agent架构

PM/工程师双层架构

文档沟通和动态反馈机制

Builder心态与系统优化

🏗️ 项目结构

📈 性能指标

🚀 快速开始

📦 输出文件

🔍 特征说明

🔄 开发流程与效率提升

🔮 未来展望

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

医疗保险：欺诈识别与风险防范，模型->+策略（Agentic AI） / Healthcare Insurance Fraud Detection System

📋 项目概述

🌟 核心特性

📊 数据说明

数据来源与处理

数据整合过程

特征维度

数据结构

🧠 技术创新

特征工程

欺诈识别模型

策略优化

🤖 智能Agent架构

PM/工程师双层架构

文档沟通和动态反馈机制

Builder心态与系统优化

🏗️ 项目结构

📈 性能指标

🚀 快速开始

📦 输出文件

🔍 特征说明

🔄 开发流程与效率提升

🔮 未来展望

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages