Skip to content

Daw-ny/2023_GangSeoGuCompitition

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 

Repository files navigation

🚷 강서구 빅데이터 공모전 : 횡단보도별 사고위험지수 제고

Abstract

횡단보도별로 사고 위험 정도를 나타내는 사고위험지수를 개발한다.

👪 Team

Name : 파워워킹

👪 Members

👑
1
2
3
손동현
김나린
김다운
오지우
Github Github Github Github

🛑 Role & Rule

Ground Rule

  • 각자 분석 아이디어를 생각하고 이와 관련된 변수로 활용할 수 있는 데이터셋까지 함께 찾는다.
  • 회의를 통해 각자의 역할을 정하고 다음 회의까지 진행된 상황을 공유하여 서로의 피드백을 듣고 필요한 부분은 수정한다.
  • 일주일에 한번씩 대면미팅.
이름
역할
손동현
데이터 조사 (활용할 수 있는 데이터 조사)
EDA (데이터 별 결측치 및 이상치 탐색, 분포 확인, 분석결과 시각화)
자료 정리 (노션 플랫폼을 활용하여 회의 내용 및 조사 자료 정리)
데이터 결합 (확보된 데이터 정리 및 데이터 결합)
최종 검증 (레이블 대조 검증 결과 시각화)
김나린
데이터 조사 (활용할 수 있는 데이터 조사)
EDA (데이터 별 결측치 및 이상치 탐색, 분포 확인, 분석결과 시각화)
변수 별 기준 적립 (횡단보도와의 거리 기준 제시 및 확립)
모델링 진행 (앙상블 방법 모델링 진행, 변수중요도 산출)
최종 검증 (최종 결과 실제 데이터와 일치하는지 Chi-Square 검정)
김다운
데이터 조사 (활용할 수 있는 데이터 조사)
EDA (데이터 별 결측치 및 이상치 탐색, 분포 확인, 분석결과 시각화)
데이터 크롤링 (주소누리 홈페이지를 크롤링하여 키워드로 도로명 주소 획득)
좌표 변환 (도로명 주소를 위도와 경도 좌표로 표현)
최종 검증 (최종 결과 실제 데이터와 일치하는지 Chi-Square 검정)
오지우
데이터 조사 (활용할 수 있는 데이터 조사)
EDA (데이터 별 결측치 및 이상치 탐색, 분포 확인, 분석결과 시각화)
변수 별 기준 적립 (횡단보도와의 거리 기준 제시 및 확립)
모델링 진행 (앙상블 방법 모델링 진행, 변수중요도 산출)
최종 검증 (최종 결과 실제 데이터와 일치하는지 Chi-Square 검정)

📽️ Project Intro

Subject
강서구 관련 데이터를 활용하여 강서구의 문제 해결 또는 홍보 방안 제시
Processing
1. 공공데이터를 탐색하여 사용할 수 있는 변수와 아이디어와의 연계성과 활용성 체크
2. 데이터 맞춤 전처리 및 이상치 대치 이후 기초통계량을 확인하고 앙상블 방법으로 모델링을 진행
3. 변수중요도와 상관관계를 활용하여 사고위험지수를 생성한 후 실제 위치의 값과 비교
Develop Enviroment
Tool: Jupyter Notebook, VS Code, Tableau, Google Spreadsheets
Communication Enviroment
Notion: EDA프로젝트를 위한 역할분담, 아이디어 브레인 스토밍, 프로젝트 관련 회의 내용 기록
Zoom, Offline Meeting: 실시간 대면/비대면 회의

📆 Project Procedure

자세한 진행 내용은 Notion에서 확인하실 수 있습니다.

📂 Project Structure

  • Code 각 데이터별 처리 과정이 담겨있습니다. 데이터 전처리 과정은 python으로 진행하였으며, 최종 검증은 R로 진행하였습니다.

  • Data 분석에 활용하기 위해 수집한 모든 데이터가 담겨있습니다.

⚙️ Architecture

분류
내용
모델
RandomForest, XGBoost, GradientBoostMachine
데이터
Data 폴더 안에서 확인하실 수 있습니다.
모델 평가
Accuracy, F1-score 두 지표를 산출하여 비교 후 가장 높은 값을 가진 모델을 선택
실제 지수 적용
각 변수의 변수 중요도와 상관계수를 결합하여 지수를 0에서 100사이의 값으로 표현하기 위해 상수 C 적용

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors