Skip to content

DataHub 추가 연동 구현 #53

@ehddnr301

Description

@ehddnr301

Why❓

  • 현재 Lang2SQL은 테이블 및 컬럼 설명을 기반으로 SQL을 생성하고 있으나, 비즈니스 도메인 용어에 대한 해석이 부족함
  • 사용자의 질문에 자주 등장하는 도메인 용어(ex. 구독 유형 - 고객 구독의 청구 주기 (예: MRR - 월 반복 수익, ARR - 연간 반복 수익))를 더 잘 해석하기 위해 glossary 정보 활용이 필요
  • DataHub에 등록된 쿼리 정보를 활용하면 이전에 작성된 SQL 예시를 참조하여 SQL 생성 품질을 향상시킬 수 있음

How❓

  • DataHub의 Glossary를 활용하여 관련된 용어를 검색하고, 그 정의 및 설명을 프롬프트에 포함
  • 유사도 기반 검색 외에도, 질문 내 용어와 glossary term 간 매핑을 시도하여 의도 파악 정확도를 높임
  • DataHub의 Query 정보를 쿼리 이름, 설명, SQL문을 추려내어 프롬프트에 참고 예시로 활용

What ❓

  • DataHub에서 루트 glossary 노드 및 하위 term 정보를 가져오는 함수 구현
  • glossary node와 term의 이름, 설명, 자식 수 등을 구조화하여 반환하는 처리 로직 구현
  • 전체 glossary 데이터를 수집하고, 계층 구조를 반영하여 구성된 결과 반환 기능 구현
  • DataHub GraphQL API를 통해 등록된 쿼리 목록(listQueries)을 조회
  • 추출된 쿼리 정보는 프롬프트에서 참고용 SQL 예시로 활용될 수 있도록 정제된 JSON 형태로 가공

Metadata

Metadata

Assignees

Labels

datahubThe integration point that retrieves metadata from DataHub to provide better context for query generenhancementNew feature or request

Projects

No projects

Relationships

None yet

Development

No branches or pull requests

Issue actions