README.md 및 CLI 코드 업데이트 #134

ehddnr301 · ehddnr301 · commit b2063df0f3f5 · 2025-09-07T15:43:46.000+09:00
- 소스 설치 방법에 uv 사용 추가 및 pip 사용 방법 개선
- Graph Builder 페이지에 대한 설명 추가
- DataHub 없이 시작하기 튜토리얼 문서 새로 생성
- 환경 설정 관련 내용 수정 및 CLI 옵션 추가
diff --git a/README.md b/README.md
@@ -62,10 +62,20 @@ pip install lang2sql
 ### 소스에서 설치
 
 ```bash
+# 소스 클론
 git clone https://github.com/CausalInferenceLab/lang2sql.git
 cd lang2sql
-pip install -r requirements.txt
-python setup.py install
+
+# (권장) uv 사용
+# uv 설치가 되어 있다면 아래 두 줄로 개발 모드 설치
+uv venv
+source .venv/bin/activate
+uv pip install -e .
+
+# (대안) pip 사용
+python -m venv .venv
+source .venv/bin/activate
+pip install -e .
 ```
 
 ---
@@ -86,6 +96,18 @@ lang2sql run-streamlit
 lang2sql --datahub_server http://your-datahub-server:8080 run-streamlit -p 8888
 ```
 
+참고: Streamlit 서버는 `0.0.0.0` 으로 바인딩되어 외부에서 접속 가능합니다.
+
+### Graph Builder 페이지
+
+Streamlit 앱은 멀티 페이지 구조입니다. 좌측 네비게이션에서 "Graph Builder" 페이지를 열어 LangGraph 워크플로우를 구성할 수 있습니다.
+
+- 프리셋 선택: "기본" 또는 "확장"
+- 커스텀 옵션: `PROFILE_EXTRACTION`, `CONTEXT_ENRICHMENT`, `QUERY_MAKER` 포함 여부 토글
+- 선택이 바뀌면 그래프가 즉시 컴파일되어 세션에 적용됩니다
+- "세션 그래프 새로고침" 버튼으로 수동 재적용 가능
+- `QUERY_MAKER`를 비활성화하면 테이블 검색 정보만 표시됩니다
+
 ### VectorDB 선택
 
 FAISS(로컬) 또는 pgvector(PostgreSQL) 중 선택:
@@ -96,8 +118,23 @@ lang2sql --vectordb-type faiss run-streamlit
 
 # pgvector 사용
 lang2sql --vectordb-type pgvector run-streamlit
+
+# 위치 지정 예시
+# FAISS: 인덱스 디렉토리 경로 지정
+lang2sql --vectordb-type faiss --vectordb-location ./table_info_db run-streamlit
+
+# pgvector: 연결 문자열 지정
+lang2sql --vectordb-type pgvector --vectordb-location "postgresql://user:pass@host:5432/db" run-streamlit
 ```
 
+참고: DataHub 없이도 미리 준비된 VectorDB(FAISS 디렉토리 혹은 pgvector 컬렉션)를 바로 사용할 수 있습니다. 자세한 준비 방법은 [DataHub 없이 시작하기](docs/tutorials/getting-started-without-datahub.md)를 참고하세요.
+
+### 처음 시작하기 (DataHub 없이)
+
+튜토리얼 본문이 길어져 별도 문서로 분리되었습니다. 아래 문서를 참고하세요.
+
+- [DataHub 없이 시작하기 튜토리얼](docs/tutorials/getting-started-without-datahub.md)
+
 ### 자연어 쿼리 실행
 
 ```bash
@@ -110,10 +147,11 @@ lang2sql query "고객 데이터를 기반으로 유니크한 유저 수를 카
 
 ### 환경 설정
 
-- 현재는 pip 패키지 설치로 프로젝트 시작이 어려운 상황입니다.
-- `.env` 파일을 생성하여 설정 관리 (.env.example 참고)
-
----
+- `.env` 파일을 생성하여 설정을 관리합니다. (예시 파일이 있다면 참조)
+- 또는 CLI 옵션으로 환경을 지정할 수 있습니다:
+  - `--env-file-path`: 환경 변수 파일 경로 지정
+  - `--prompt-dir-path`: 프롬프트 템플릿(.md) 디렉토리 지정
+  - `--datahub_server`: DataHub GMS 서버 URL 지정
 
 ## 🏗️ 아키텍처
 
diff --git a/cli/__init__.py b/cli/__init__.py
@@ -266,11 +266,6 @@ def run_streamlit_cli_command(port: int) -> None:
     is_flag=True,
     help="확장된 그래프(프로파일 추출 + 컨텍스트 보강) 사용 여부",
 )
-@click.option(
-    "--use-simplified-graph",
-    is_flag=True,
-    help="단순화된 그래프(QUERY_REFINER 제거) 사용 여부",
-)
 @click.option(
     "--vectordb-type",
     type=click.Choice(["faiss", "pgvector"]),
@@ -293,7 +288,6 @@ def query_command(
     top_n: int,
     device: str,
     use_enriched_graph: bool,
-    use_simplified_graph: bool,
     vectordb_type: str = "faiss",
     vectordb_location: str = None,
 ) -> None:
@@ -335,7 +329,6 @@ def query_command(
             top_n=top_n,
             device=device,
             use_enriched_graph=use_enriched_graph,
-            use_simplified_graph=use_simplified_graph,
         )
 
         # SQL 추출 및 출력
diff --git a/docs/tutorials/getting-started-without-datahub.md b/docs/tutorials/getting-started-without-datahub.md
@@ -0,0 +1,123 @@
+## DataHub 없이 시작하기 (튜토리얼)
+
+이 문서는 DataHub 없이도 Lang2SQL을 바로 사용하기 위한 최소 절차를 설명합니다. CSV로 테이블/컬럼 설명을 준비해 FAISS 또는 pgvector에 적재한 뒤 Lang2SQL을 실행합니다.
+
+### 1) .env 최소 설정 (OpenAI 기준)
+
+```bash
+# LLM/임베딩
+LLM_PROVIDER=openai
+OPEN_AI_KEY=sk-...                # OpenAI API Key (주의: OPENAI_API_KEY가 아니라 OPEN_AI_KEY)
+OPEN_AI_LLM_MODEL=gpt-4o          # 또는 gpt-4.1 등
+EMBEDDING_PROVIDER=openai
+OPEN_AI_EMBEDDING_MODEL=text-embedding-3-large  # 권장
+
+# VectorDB (선택: 명시하지 않으면 기본값 동작)
+VECTORDB_TYPE=faiss
+VECTORDB_LOCATION=./table_info_db  # FAISS 디렉토리 경로
+
+# (pgvector를 쓰는 경우)
+# VECTORDB_TYPE=pgvector
+# VECTORDB_LOCATION=postgresql://user:pass@host:5432/db
+# PGVECTOR_COLLECTION=table_info_db
+```
+
+중요: 코드상 OpenAI 키는 `OPEN_AI_KEY` 환경변수를 사용합니다. `.example.env`의 `OPENAI_API_KEY`는 사용되지 않으니 혼동에 주의하세요.
+
+### 2) 테이블/컬럼 메타데이터 준비(CSV 예시)
+
+```csv
+table_name,table_description,column_name,column_description
+customers,고객 정보 테이블,customer_id,고객 고유 ID
+customers,고객 정보 테이블,name,고객 이름
+customers,고객 정보 테이블,created_at,가입 일시
+orders,주문 정보 테이블,order_id,주문 ID
+orders,주문 정보 테이블,customer_id,주문 고객 ID
+orders,주문 정보 테이블,amount,결제 금액
+orders,주문 정보 테이블,status,주문 상태
+```
+
+### 3) FAISS 인덱스 생성(로컬)
+
+```python
+from collections import defaultdict
+import csv, os
+from langchain_openai import OpenAIEmbeddings
+from langchain_community.vectorstores import FAISS
+
+CSV_PATH = "./table_catalog.csv"      # 위 CSV 파일 경로
+OUTPUT_DIR = "./table_info_db"        # VECTORDB_LOCATION과 동일하게 맞추세요
+
+tables = defaultdict(lambda: {"desc": "", "columns": []})
+with open(CSV_PATH, newline="", encoding="utf-8") as f:
+    reader = csv.DictReader(f)
+    for row in reader:
+        t = row["table_name"].strip()
+        tables[t]["desc"] = row["table_description"].strip()
+        col = row["column_name"].strip()
+        col_desc = row["column_description"].strip()
+        tables[t]["columns"].append((col, col_desc))
+
+docs = []
+for t, info in tables.items():
+    cols = "\n".join([f"{c}: {d}" for c, d in info["columns"]])
+    page = f"{t}: {info['desc']}\nColumns:\n {cols}"
+    from langchain.schema import Document
+    docs.append(Document(page_content=page))
+
+emb = OpenAIEmbeddings(model=os.getenv("OPEN_AI_EMBEDDING_MODEL"), openai_api_key=os.getenv("OPEN_AI_KEY"))
+db = FAISS.from_documents(docs, emb)
+os.makedirs(OUTPUT_DIR, exist_ok=True)
+db.save_local(OUTPUT_DIR)
+print(f"FAISS index saved to: {OUTPUT_DIR}")
+```
+
+### 4) 실행
+
+```bash
+# Streamlit UI
+lang2sql --vectordb-type faiss --vectordb-location ./table_info_db run-streamlit
+
+# CLI 예시
+lang2sql query "주문 수를 집계하는 SQL을 만들어줘" --vectordb-type faiss --vectordb-location ./table_info_db
+
+# CLI 예시 (pgvector)
+lang2sql query "주문 수를 집계하는 SQL을 만들어줘" --vectordb-type pgvector --vectordb-location "postgresql://postgres:postgres@localhost:5431/postgres"
+```
+
+### 5) (선택) pgvector로 적재하기
+
+```python
+from collections import defaultdict
+import csv, os
+from langchain_openai import OpenAIEmbeddings
+from langchain_postgres.vectorstores import PGVector
+from langchain.schema import Document
+
+CSV_PATH = "./table_catalog.csv"
+CONN = os.getenv("VECTORDB_LOCATION") or "postgresql://user:pass@host:5432/db"
+COLLECTION = os.getenv("PGVECTOR_COLLECTION", "table_info_db")
+
+tables = defaultdict(lambda: {"desc": "", "columns": []})
+with open(CSV_PATH, newline="", encoding="utf-8") as f:
+    reader = csv.DictReader(f)
+    for row in reader:
+        t = row["table_name"].strip()
+        tables[t]["desc"] = row["table_description"].strip()
+        col = row["column_name"].strip()
+        col_desc = row["column_description"]
+        tables[t]["columns"].append((col, col_desc))
+
+docs = []
+for t, info in tables.items():
+    cols = "\n".join([f"{c}: {d}" for c, d in info["columns"]])
+    docs.append(Document(page_content=f"{t}: {info['desc']}\nColumns:\n {cols}"))
+
+emb = OpenAIEmbeddings(model=os.getenv("OPEN_AI_EMBEDDING_MODEL"), openai_api_key=os.getenv("OPEN_AI_KEY"))
+PGVector.from_documents(documents=docs, embedding=emb, connection=CONN, collection_name=COLLECTION)
+print(f"pgvector collection populated: {COLLECTION}")
+```
+
+주의: FAISS 디렉토리가 없으면 현재 코드는 DataHub에서 메타데이터를 가져와 인덱스를 생성하려고 시도합니다. DataHub를 사용하지 않는 경우 위 절차로 사전에 VectorDB를 만들어 두세요.
+
+