데이터 사이언티스트 & AI 엔지니어 취업을 위한 체계적인 기술면접 스터디
- 기간: 2025.07.09 ~ 2025.09.03 (9주간)
- 형태: 이론 중심 + 토론식 학습
- 목표: 실무진과의 기술면접 완벽 대비
- ✅ 핵심 개념 완벽 이해
- ✅ 꼬리질문 대응 능력 향상
- ✅ 실무 적용 경험 축적
| Week | 주제 | 학습 내용 | 핵심 키워드 |
|---|---|---|---|
| 1 07.09 |
🎬 Kick-off |
• 스터디 진행룰 수립 |
스터디 규칙 |
| 2 07.16 |
🤖 머신러닝 |
• 회귀/분류 모델 완전정복 • 평가지표 & Ensemble 기법 • Hyperparameter Tuning & Cross-validation |
ML 모델 |
| 3 07.23 |
📊 통계학 |
• 기초통계 & 확률분포 • 가설검정 & 추론통계 • EDA 그래프 종류 |
통계 기초가설검정 |
| 4 07.30 |
🧠 딥러닝 기초 |
• MLP & Backpropagation • Activation Function & Loss Function • 경사하강법 & Optimizer & Perceptron |
신경망역전파 |
| 5 08.06 |
🔥 딥러닝 심화 |
• CNN 계열 모델 • RNN 계열 모델 • GPT까지의 발전 과정 |
CNN/RNNGPT |
| 6 08.13 |
🌟 LLM 기초 |
• ChatGPT & LLaMA 분석 • sLLM 모델 이해 • LLM 활용 전략 |
GPTLLaMA파운데이션 모델 |
| 7 08.20 |
🔍 RAG 시스템 |
• RAG 아키텍처 설계 • 벡터 DB & 임베딩 • 실무 RAG 구축 사례 |
RAGVector DBEmbedding |
| 8 08.27 |
⚡ 기술스택 | 추후 진행 | 추후 진행 |
| 9 09.03 |
🎉 Wrap-up | 추후 진행 | 추후 진행 |
🗃️ 데이터베이스 - 학습 시 큰 도움이 됩니다
| 분야 | 자료 | 설명 |
|---|---|---|
| 기본기 | AI-Tech-Interview | 머신러닝/딥러닝/통계/파이썬 종합 |
| LLM | LLM Interview Questions | 최신 LLM 기술 면접 질문집 |
📈 정형데이터 회귀
- 평가지표: MAE, MSE, RMSE, R²
- Loss Function: 손실함수의 종류와 특성
- 선형 모델:
- 단순선형회귀, 다중선형회귀
- 다항회귀
- 정규화 모델:
- 릿지회귀(Ridge), 라쏘회귀(Lasso)
- 엘라스틱넷 회귀(ElasticNet)
- 트리 기반: 트리기반 회귀모델
- 딥러닝: 딥러닝 회귀모델
- 정규 방정식(Normal Equation)
- 특이값 분해(SVD)
- 경사하강법(Gradient Descent)
📊 정형데이터 분류
- 혼동행렬: Confusion Matrix (
Scikit-learn) - 기본 지표:
- Accuracy, Error Rate (
Scikit-learn) - Precision, Recall (
Scikit-learn)
- Accuracy, Error Rate (
- 복합 지표:
- F1 Score, F-Beta Score (
Scikit-learn)
- F1 Score, F-Beta Score (
- 확률 기반:
- AUROC, AUPRC (
Scikit-learn)
- AUROC, AUPRC (
- 통계 기반: KS-stat (
Scikit-learn)
- 전통적 모델:
- 로지스틱 회귀 (
Scikit-learn) - k-NN (
Scikit-learn) - SVM (
Scikit-learn)
- 로지스틱 회귀 (
- 트리 모델:
- Decision Tree (
Scikit-learn) - Random Forest (
Scikit-learn)
- Decision Tree (
- 부스팅:
- AdaBoost, Gradient Boosting (
Scikit-learn) - XGBoost, LightGBM (
XGBoost,LightGBM)
- AdaBoost, Gradient Boosting (
- 딥러닝: 딥러닝 분류 모델 (
PyTorch,TensorFlow)
🚀 성능 개선 방법
- 기본:
- Holdout (
Scikit-learn) - k-Fold (
Scikit-learn) - Stratified k-Fold (
Scikit-learn)
- Holdout (
- 특수:
- LOOCV (
Scikit-learn) - Time Series Cross Validation (
Scikit-learn)
- LOOCV (
- 반복: Repeated K-Fold Cross Validation (
Scikit-learn)
- Grid Search: 전역 탐색 (
Scikit-learn) - Random Search: 랜덤 탐색 (
Scikit-learn) - Bayesian Search: 베이지안 최적화 (
Optuna)
- 샘플링: 언더샘플링, 오버샘플링, 부트스트래핑
- 앙상블: Voting, Bagging, Boosting, Stacking
- 피처 가공: 특성 변환 및 생성
- 합성데이터 생성: 데이터 증강 기법
- 성능 모니터링:
- Drift 탐지 및 대응
- 성능 하락 대응 방법
🔧 데이터 전처리
- 이상치 종류: 통계적, 도메인 기반 이상치
- 처리 방식: 제거, 변환, 대체 전략
- 결측치 종류: MCAR, MAR, MNAR
- 처리 방식: 삭제, 대체(평균, 중앙값, 최빈값), 예측 모델링
- 정규화: Min-Max Scaling, Robust Scaling
- 표준화: Standard Scaling, Unit Vector Scaling
- 범주형 데이터: One-Hot, Label, Ordinal Encoding
- 고차원 범주형: Target Encoding, Frequency Encoding
📊 통계학
- 기술통계량 (대푯값과 산포도):
- 평균, 중앙값, 최빈값
- 분산, 표준편차, 사분위수
- 왜도, 첨도
- EDA 그래프 종류:
- 히스토그램, 박스플롯, 막대그래프 등
-
확률분포 종류:
- 정규분포, t분포, z분포, F분포
- 베르누이분포, 이항분포, 포아송분포
-
통계적 추정:
- 신뢰도, 표준오차
- 모평균 추정(z추정, t추정)
- 모비율 추정
-
가설 검정 종류:
- 귀무가설/대립가설, 유의수준, p-value
- 검정 오류 종류 (Type I, Type II)
-
평균값 검정:
- 단일표본 t-검정
- 독립표본 t-검정
- 대응표본 t-검정
-
기타 검정:
- 비율 검정
- 분산 검정 (F-test, 등분산 검정)
- 상관성 검정
- 회귀분석
| 1️⃣ 개념 학습 | 핵심 이론을 체계적으로 정리 |
| 2️⃣ 장단점 분석 | 각 방법론의 특징과 한계점 파악 |
| 3️⃣ 심화 질문 | 꼬리질문에 대한 논리적 답변 준비 |
| 4️⃣ 실습 확인 | 주요 라이브러리 활용법 숙지 |
- 📅 정기 모임: 매주 수요일 21:00-22:00
- 💻 온라인: Zoom
스터디에 참여하고 계신 모든 분들께 감사드립니다!
- 참여자 추가 예정...
🚀 함께 성장하는 AI 기술면접 스터디
"준비된 자에게 기회는 찾아온다"
Made with ❤️ by AI Crew