횡단보도별로 사고 위험 정도를 나타내는 사고위험지수를 개발한다.
Name : 파워워킹
| 👑 |
1 |
2 |
3 |
| 손동현 |
김나린 |
김다운 |
오지우 |
|
|
|
|
- 각자 분석 아이디어를 생각하고 이와 관련된 변수로 활용할 수 있는 데이터셋까지 함께 찾는다.
- 회의를 통해 각자의 역할을 정하고 다음 회의까지 진행된 상황을 공유하여 서로의 피드백을 듣고 필요한 부분은 수정한다.
- 일주일에 한번씩 대면미팅.
| 이름 |
역할 |
| 손동현 |
데이터 조사 (활용할 수 있는 데이터 조사) EDA (데이터 별 결측치 및 이상치 탐색, 분포 확인, 분석결과 시각화) 자료 정리 (노션 플랫폼을 활용하여 회의 내용 및 조사 자료 정리) 데이터 결합 (확보된 데이터 정리 및 데이터 결합) 최종 검증 (레이블 대조 검증 결과 시각화) |
| 김나린 |
데이터 조사 (활용할 수 있는 데이터 조사) EDA (데이터 별 결측치 및 이상치 탐색, 분포 확인, 분석결과 시각화) 변수 별 기준 적립 (횡단보도와의 거리 기준 제시 및 확립) 모델링 진행 (앙상블 방법 모델링 진행, 변수중요도 산출) 최종 검증 (최종 결과 실제 데이터와 일치하는지 Chi-Square 검정) |
| 김다운 |
데이터 조사 (활용할 수 있는 데이터 조사) EDA (데이터 별 결측치 및 이상치 탐색, 분포 확인, 분석결과 시각화) 데이터 크롤링 (주소누리 홈페이지를 크롤링하여 키워드로 도로명 주소 획득) 좌표 변환 (도로명 주소를 위도와 경도 좌표로 표현) 최종 검증 (최종 결과 실제 데이터와 일치하는지 Chi-Square 검정) |
| 오지우 |
데이터 조사 (활용할 수 있는 데이터 조사) EDA (데이터 별 결측치 및 이상치 탐색, 분포 확인, 분석결과 시각화) 변수 별 기준 적립 (횡단보도와의 거리 기준 제시 및 확립) 모델링 진행 (앙상블 방법 모델링 진행, 변수중요도 산출) 최종 검증 (최종 결과 실제 데이터와 일치하는지 Chi-Square 검정) |
| Subject |
강서구 관련 데이터를 활용하여 강서구의 문제 해결 또는 홍보 방안 제시 |
| Processing |
1. 공공데이터를 탐색하여 사용할 수 있는 변수와 아이디어와의 연계성과 활용성 체크 2. 데이터 맞춤 전처리 및 이상치 대치 이후 기초통계량을 확인하고 앙상블 방법으로 모델링을 진행 3. 변수중요도와 상관관계를 활용하여 사고위험지수를 생성한 후 실제 위치의 값과 비교 |
| Develop Enviroment |
Tool: Jupyter Notebook, VS Code, Tableau, Google Spreadsheets |
| Communication Enviroment |
Notion: EDA프로젝트를 위한 역할분담, 아이디어 브레인 스토밍, 프로젝트 관련 회의 내용 기록 Zoom, Offline Meeting: 실시간 대면/비대면 회의 |
자세한 진행 내용은 Notion에서 확인하실 수 있습니다.
Code 각 데이터별 처리 과정이 담겨있습니다. 데이터 전처리 과정은 python으로 진행하였으며, 최종 검증은 R로 진행하였습니다.
Data 분석에 활용하기 위해 수집한 모든 데이터가 담겨있습니다.
| 분류 |
내용 |
| 모델 |
RandomForest, XGBoost, GradientBoostMachine |
| 데이터 |
Data 폴더 안에서 확인하실 수 있습니다. |
| 모델 평가 |
Accuracy, F1-score 두 지표를 산출하여 비교 후 가장 높은 값을 가진 모델을 선택 |
| 실제 지수 적용 |
각 변수의 변수 중요도와 상관계수를 결합하여 지수를 0에서 100사이의 값으로 표현하기 위해 상수 C 적용 |



