-
Notifications
You must be signed in to change notification settings - Fork 12
Labels
datahubThe integration point that retrieves metadata from DataHub to provide better context for query generThe integration point that retrieves metadata from DataHub to provide better context for query generenhancementNew feature or requestNew feature or request
Milestone
Description
Why❓
- 현재 Lang2SQL은 테이블 및 컬럼 설명을 기반으로 SQL을 생성하고 있으나, 비즈니스 도메인 용어에 대한 해석이 부족함
- 사용자의 질문에 자주 등장하는 도메인 용어(ex. 구독 유형 - 고객 구독의 청구 주기 (예: MRR - 월 반복 수익, ARR - 연간 반복 수익))를 더 잘 해석하기 위해 glossary 정보 활용이 필요
- DataHub에 등록된 쿼리 정보를 활용하면 이전에 작성된 SQL 예시를 참조하여 SQL 생성 품질을 향상시킬 수 있음
How❓
- DataHub의 Glossary를 활용하여 관련된 용어를 검색하고, 그 정의 및 설명을 프롬프트에 포함
- 유사도 기반 검색 외에도, 질문 내 용어와 glossary term 간 매핑을 시도하여 의도 파악 정확도를 높임
- DataHub의 Query 정보를 쿼리 이름, 설명, SQL문을 추려내어 프롬프트에 참고 예시로 활용
What ❓
- DataHub에서 루트 glossary 노드 및 하위 term 정보를 가져오는 함수 구현
- glossary node와 term의 이름, 설명, 자식 수 등을 구조화하여 반환하는 처리 로직 구현
- 전체 glossary 데이터를 수집하고, 계층 구조를 반영하여 구성된 결과 반환 기능 구현
- DataHub GraphQL API를 통해 등록된 쿼리 목록(listQueries)을 조회
- 추출된 쿼리 정보는 프롬프트에서 참고용 SQL 예시로 활용될 수 있도록 정제된 JSON 형태로 가공
Metadata
Metadata
Assignees
Labels
datahubThe integration point that retrieves metadata from DataHub to provide better context for query generThe integration point that retrieves metadata from DataHub to provide better context for query generenhancementNew feature or requestNew feature or request