Skip to content

boostcampaitech7/level4-cv-finalproject-hackathon-cv-01-lv3

Repository files navigation

πŸŽ₯ μžμ—°μ–΄ 기반 μ˜ν™” μž₯λ©΄ 검색 ν”„λ‘œμ νŠΈ

λ³Έ ν”„λ‘œμ νŠΈλŠ” 7κΈ° TVING κΈ°μ—… 연계 ν”„λ‘œμ νŠΈλ‘œ,
μžμ—°μ–΄λ₯Ό ν™œμš©ν•œ λ™μ˜μƒ 속 νŠΉμ • μž₯λ©΄ 검색을 λͺ©ν‘œλ‘œ ν•˜λŠ” Video Retrieval ν”„λ‘œμ νŠΈ μž…λ‹ˆλ‹€.
κΈ°μ‘΄ 메타데이터(제λͺ©, νƒœκ·Έ, ν‚€μ›Œλ“œ) 기반의 μ˜μƒ 검색 방식은 μ˜μƒ ꡬ간별 검색이 λΆˆκ°€ν•˜λ‹€λŠ” ν•œκ³„λ₯Ό ν•΄κ²°ν•˜κ³ μž, λ³Έ ν”„λ‘œμ νŠΈλŠ” μž₯면별 ν…μŠ€νŠΈ λ³€ν™˜(V2T, Video-to-Text) κ³Ό ν…μŠ€νŠΈ 기반 μž₯λ©΄ 검색 κΈ°λŠ₯(T2V , Text-to-Video) 을 톡해 μ‚¬μš©μžκ°€ μ›ν•˜λŠ” νŠΉμ • μž₯λ©΄ 검색이 κ°€λŠ₯ν•˜λ„λ‘ ν•˜μ˜€μŠ΅λ‹ˆλ‹€.

🎯 μ£Όμš” κΈ°λŠ₯

πŸ“Ί Video-to-Text (V2T)

  • λ™μ˜μƒμ„ μž₯λ©΄ κΈ°μ€€μœΌλ‘œ μžλ™ λΆ„ν• ν•˜κ³ , μž₯λ©΄ 별 μ„€λͺ…문을 μƒμ„±ν•˜μ—¬ μ €μž₯ν•©λ‹ˆλ‹€.

πŸ” Text-to-Video (T2V)

  • μ‚¬μš©μžκ°€ μž…λ ₯ν•œ μžμ—°μ–΄ 쿼리λ₯Ό 기반으둜, κ°€μž₯ μ μ ˆν•œ μž₯면을 κ²€μƒ‰ν•˜μ—¬ μ œκ³΅ν•©λ‹ˆλ‹€.
  • μ˜μƒ 속 λŒ€μ‚¬(Speech-to-Text) 및 μž₯λ©΄ μ„€λͺ…을 ν™œμš©ν•˜μ—¬ λ”μš± μ •κ΅ν•œ 검색을 μˆ˜ν–‰ν•©λ‹ˆλ‹€.

πŸ’‘νŠΉμ§•

βœ… λΉ λ₯Έ 검색을 μœ„ν•΄ Vector DB μ‚¬μš© 및 병렬 MSA(Micro Service Architecture) νŒ¨ν„΄ 적용
βœ… μ΅œμ‹  λ©€ν‹°λͺ¨λ‹¬ AI λͺ¨λΈ(IntrenVL2.5, InternVideo2.5 λ“±)κ³Ό Whisper STT, Vector DB λ“± μ΅œμ‹  기술 μ±„μš©
βœ… μ˜μƒ λ‚΄ Speech 정보 + 전체 μ˜μƒ summary + μž₯λ©΄ μΊ‘μ…˜μ˜ κ²°ν•©(Cap fusion)으둜 검색 정확도 ν–₯상
βœ… MLLM의 Hallucination 문제 해결을 μœ„ν•œ 자체 μ •μ„± 평가 체크리슀트 및 Prompt Engineering μˆ˜ν–‰

πŸ“œ ν”„λ‘œμ νŠΈ μ•„ν‚€ν…μ²˜

λͺ¨λΈ 아킀텍쳐

image

μ„œλΉ„μŠ€ 아킀텍쳐

image

🎬 Demo

Demo Page (GPU λ¦¬μ†ŒμŠ€λ‘œ 인해 ~2/28 κΉŒμ§€λ§Œ μ œκ³΅λ©λ‹ˆλ‹€)

🌐 μ‹€μ‹œκ°„ 데λͺ¨ μ²΄ν—˜ν•˜κΈ°

V2T

image

T2V

image


πŸ‘₯ νŒ€μ› μ†Œκ°œ

μ΄ν•œμ„±
μ΄ν•œμ„± (T7232)
PM, Speech-to-Text,
T2V(Vector DB) ꡬ좕,
Demo νŽ˜μ΄μ§€ (Back-End)
κ°•λŒ€λ―Ό
κ°•λŒ€λ―Ό (T7101)
λͺ¨λΈ ꡬ좕 및 ν™˜κ²½ μ„€μ •,
Prompt Engineering,
Fine-tuning, V2T ꡬ좕
김홍주
김홍주 (T7142)
Video Trimming,
데이터 μˆ˜μ§‘ 및 라벨링,
Prompt Engineering, V2T ꡬ좕
μ„œμŠΉν™˜
μ„œμŠΉν™˜ (T7161)
Video Trimming,
T2V ꡬ좕, Fine-Tuning, V2T ꡬ좕
λ°•λ‚˜μ˜
λ°•λ‚˜μ˜ (T7147)
λ²ˆμ—­ λͺ¨λΈ,
Demo νŽ˜μ΄μ§€ (Front-End),
데이터 μˆ˜μ§‘ 및 라벨링, V2T ꡬ좕
μ΄μ’…μ„œ
μ΄μ’…μ„œ (T7171)
데이터 μˆ˜μ§‘ 및 라벨링,
T2V ꡬ좕, 평가 방법 μ œμ‹œ

πŸ“… ν”„λ‘œμ νŠΈ νƒ€μž„ 라인

image

πŸ“š μΆ”κ°€ 자료

About

level4-cv-finalproject-hackathon-cv-01-lv3 created by GitHub Classroom

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 6

Languages