🎥 자연어 기반 영화 장면 검색 프로젝트

본 프로젝트는 7기 TVING 기업 연계 프로젝트로,
자연어를 활용한 동영상 속 특정 장면 검색을 목표로 하는 Video Retrieval 프로젝트 입니다.
기존 메타데이터(제목, 태그, 키워드) 기반의 영상 검색 방식은 영상 구간별 검색이 불가하다는 한계를 해결하고자, 본 프로젝트는 장면별 텍스트 변환(V2T, Video-to-Text) 과 텍스트 기반 장면 검색 기능(T2V , Text-to-Video) 을 통해 사용자가 원하는 특정 장면 검색이 가능하도록 하였습니다.

🎯 주요 기능

📺 Video-to-Text (V2T)

동영상을 장면 기준으로 자동 분할하고, 장면 별 설명문을 생성하여 저장합니다.

🔍 Text-to-Video (T2V)

사용자가 입력한 자연어 쿼리를 기반으로, 가장 적절한 장면을 검색하여 제공합니다.
영상 속 대사(Speech-to-Text) 및 장면 설명을 활용하여 더욱 정교한 검색을 수행합니다.

💡특징

✅ 빠른 검색을 위해 Vector DB 사용 및 병렬 MSA(Micro Service Architecture) 패턴 적용
✅ 최신 멀티모달 AI 모델(IntrenVL2.5, InternVideo2.5 등)과 Whisper STT, Vector DB 등 최신 기술 채용
✅ 영상 내 Speech 정보 + 전체 영상 summary + 장면 캡션의 결합(Cap fusion)으로 검색 정확도 향상
✅ MLLM의 Hallucination 문제 해결을 위한 자체 정성 평가 체크리스트 및 Prompt Engineering 수행

📜 프로젝트 아키텍처

모델 아키텍쳐

서비스 아키텍쳐

🎬 Demo

Demo Page (GPU 리소스로 인해 ~2/28 까지만 제공됩니다)

🌐 실시간 데모 체험하기

V2T

T2V

👥 팀원 소개

이한성 (T7232) PM, Speech-to-Text, T2V(Vector DB) 구축, Demo 페이지 (Back-End)	강대민 (T7101) 모델 구축 및 환경 설정, Prompt Engineering, Fine-tuning, V2T 구축	김홍주 (T7142) Video Trimming, 데이터 수집 및 라벨링, Prompt Engineering, V2T 구축
서승환 (T7161) Video Trimming, T2V 구축, Fine-Tuning, V2T 구축	박나영 (T7147) 번역 모델, Demo 페이지 (Front-End), 데이터 수집 및 라벨링, V2T 구축	이종서 (T7171) 데이터 수집 및 라벨링, T2V 구축, 평가 방법 제시

Name		Name	Last commit message	Last commit date
Latest commit History 93 Commits
.github		.github
config		config
data/utils		data/utils
demo		demo
model		model
model_2_5		model_2_5
t2v		t2v
.gitignore		.gitignore
README.md		README.md
database.py		database.py
download_database.py		download_database.py
eval_metric.py		eval_metric.py
inference.py		inference.py
inference_2_5.py		inference_2_5.py
inference_clipping.py		inference_clipping.py
inference_score.py		inference_score.py
requirements.txt		requirements.txt
test_chat.py		test_chat.py
test_chat_2_5.py		test_chat_2_5.py
train.py		train.py
translate.py		translate.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

🎥 자연어 기반 영화 장면 검색 프로젝트

🎯 주요 기능

📺 Video-to-Text (V2T)

🔍 Text-to-Video (T2V)

📜 프로젝트 아키텍처

모델 아키텍쳐

서비스 아키텍쳐

🎬 Demo

Demo Page (GPU 리소스로 인해 ~2/28 까지만 제공됩니다)

V2T

T2V

👥 팀원 소개

📅 프로젝트 타임 라인

📚 추가 자료

About

Uh oh!

Releases

Packages

Uh oh!

Contributors 6

Uh oh!

Languages

boostcampaitech7/level4-cv-finalproject-hackathon-cv-01-lv3

Folders and files

Latest commit

History

Repository files navigation

🎥 자연어 기반 영화 장면 검색 프로젝트

🎯 주요 기능

📺 Video-to-Text (V2T)

🔍 Text-to-Video (T2V)

📜 프로젝트 아키텍처

모델 아키텍쳐

서비스 아키텍쳐

🎬 Demo

Demo Page (GPU 리소스로 인해 ~2/28 까지만 제공됩니다)

V2T

T2V

👥 팀원 소개

📅 프로젝트 타임 라인

📚 추가 자료

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors 6

Uh oh!

Languages

Packages