본 연구는 감마글루타밀전이효소(Gamma-GTP) 수치 상승과 대사질환 발생 위험(고혈당 및 고혈압) 간의 연관성을 분석한다.
성향점수 가중치(Propensity Score Weighting)와 로지스틱 회귀 분석을 통해 Gamma-GTP 상승이 대사질환 위험에 미치는 인과적 효과를 추정하였다.
특히, 2019년부터 2023년까지의 반복측정 건강검진 자료를 활용하여 동일 개인의 시간 흐름을 반영한 분석을 수행하였다.
Gamma-GTP는 전통적으로 간 기능 이상이나 음주와 관련된 지표로 사용된다.
그러나 최근 연구들에 따르면, 이 수치가 높을수록 당뇨병이나 고혈압과 같은 대사질환의 위험이 증가할 수 있다는 보고가 있다.
그럼에도 불구하고 이러한 연관성이 인과적인 관계인지 여부는 불분명하다.
본 연구는 일반 성인 인구에서 Gamma-GTP가 대사질환 발생의 예측 지표로 활용될 수 있는지,
특히 개인의 시간 흐름을 반영하는 반복측정 데이터를 기반으로 검토하고자 한다.
- 2019 ~ 2023년도 국민건강보험공단 건강검진 데이터 (가명처리된 자료)
- 성인 남녀 포함
- 주요 변수: Gamma-GTP 수치, 공복혈당, 혈압, 인구통계 정보, 건강행태 관련 변수
- 관찰적 반복측정(cohort-like) 설계
- 동일 개인이 여러 시점에서 건강검진을 받은 데이터를 활용
- 처치군(Treatment): Gamma-GTP ≥ 50 IU/L (고위험군)
- 결과 변수(Outcomes):
- 고혈당: 공복혈당 ≥ 100 mg/dL
- 고혈압: 수축기 혈압 ≥ 130 mmHg 또는 이완기 혈압 ≥ 80 mmHg
- 성향점수 모델링: 로지스틱 회귀 사용
- IPTW (Inverse Probability of Treatment Weighting) 적용
- 가중치를 반영한 로지스틱 회귀로 결과 추정
- 교란변수 조정: 나이, 성별, 체중, 허리둘레, 흡연 여부, 음주 여부, 총콜레스테롤
- 민감도 분석: 다양한 Gamma-GTP 컷오프 값(예: 60, 70 IU/L)으로 결과 반복 분석
-
동일 ID로 여러 시점(visit)의 데이터가 존재하므로, 시간 흐름을 반영하여 전처리 진행
-
시간 흐름을 고려한 보간(interpolation):
.groupby('id') + .interpolate()를 통해 연속형 변수 보완- 시계열적으로 점진적 변화가 가능한 변수(혈당, 체중, 혈압 등)에만 적용
- 보간이 불가능한 경우
.ffill(),.bfill()로 앞뒤 보완
-
보완 방안:
- 보간 불가능 또는 이상 급변이 확인된 경우 →
*_missing_flag변수 생성하여 별도 처리
- 보간 불가능 또는 이상 급변이 확인된 경우 →
-
개체 내 패턴 기반 이상치 탐지:
.groupby('id')를 이용해 각 개인의 흐름에 대한 Z-score, IQR 기반 이상값 탐지- 이동평균(rolling mean) 또는 보간값과의 편차로 비정상 변동 탐지
-
이상값 처리 방식:
- 로그 변환, winsorizing, robust scaling 등 적용
- 원시값 보존,
*_outlier변수 추가하여 모델에 함께 입력
- 가중치 적용 전후의 군 간 기초 특성 비교
- IPTW 분포 시각화 (Histogram 또는 Density Plot)
- Gamma-GTP 수치에 따른 고혈당 및 고혈압의 교차비(OR)
- 95% 신뢰구간(CI) 및 p-value 제공
- Gamma-GTP 컷오프 값을 60, 70 IU/L 등으로 바꾸어 반복 분석
- 결과의 일관성 검토
(작성 중)
gammaGTP/
│
├── README.md # 프로젝트 설명 및 개요
├── data/ # 더미 또는 익명화된 샘플 데이터셋
├── notebook/ # 메인 분석 노트북 (gammaGTP_analysis.ipynb)
├── src/ # 전처리, 모델링, 시각화 스크립트
├── results/ # 분석 결과 표 및 수치
├── figures/ # 시각화 이미지 출력
└── LICENSE # MIT 라이선스
본 프로젝트는 MIT 라이선스 하에 배포됩니다.