λ³Έ νλ‘μ νΈλ 7κΈ° TVING κΈ°μ μ°κ³ νλ‘μ νΈλ‘,
μμ°μ΄λ₯Ό νμ©ν λμμ μ νΉμ μ₯λ©΄ κ²μμ λͺ©νλ‘ νλ Video Retrieval νλ‘μ νΈ μ λλ€.
κΈ°μ‘΄ λ©νλ°μ΄ν°(μ λͺ©, νκ·Έ, ν€μλ) κΈ°λ°μ μμ κ²μ λ°©μμ μμ ꡬκ°λ³ κ²μμ΄ λΆκ°νλ€λ νκ³λ₯Ό ν΄κ²°νκ³ μ, λ³Έ νλ‘μ νΈλ μ₯λ©΄λ³ ν μ€νΈ λ³ν(V2T, Video-to-Text) κ³Ό ν μ€νΈ κΈ°λ° μ₯λ©΄ κ²μ κΈ°λ₯(T2V , Text-to-Video) μ ν΅ν΄ μ¬μ©μκ° μνλ νΉμ μ₯λ©΄ κ²μμ΄ κ°λ₯νλλ‘ νμμ΅λλ€.
- λμμμ μ₯λ©΄ κΈ°μ€μΌλ‘ μλ λΆν νκ³ , μ₯λ©΄ λ³ μ€λͺ λ¬Έμ μμ±νμ¬ μ μ₯ν©λλ€.
- μ¬μ©μκ° μ λ ₯ν μμ°μ΄ 쿼리λ₯Ό κΈ°λ°μΌλ‘, κ°μ₯ μ μ ν μ₯λ©΄μ κ²μνμ¬ μ 곡ν©λλ€.
- μμ μ λμ¬(Speech-to-Text) λ° μ₯λ©΄ μ€λͺ μ νμ©νμ¬ λμ± μ κ΅ν κ²μμ μνν©λλ€.
π‘νΉμ§
β
λΉ λ₯Έ κ²μμ μν΄ Vector DB μ¬μ© λ° λ³λ ¬ MSA(Micro Service Architecture) ν¨ν΄ μ μ©
β
μ΅μ λ©ν°λͺ¨λ¬ AI λͺ¨λΈ(IntrenVL2.5, InternVideo2.5 λ±)κ³Ό Whisper STT, Vector DB λ± μ΅μ κΈ°μ μ±μ©
β
μμ λ΄ Speech μ 보 + μ 체 μμ summary + μ₯λ©΄ μΊ‘μ
μ κ²°ν©(Cap fusion)μΌλ‘ κ²μ μ νλ ν₯μ
β
MLLMμ Hallucination λ¬Έμ ν΄κ²°μ μν μ체 μ μ± νκ° μ²΄ν¬λ¦¬μ€νΈ λ° Prompt Engineering μν
π μ€μκ° λ°λͺ¨ 체ννκΈ°