Add additional dependencies to pyproject.toml

YuujinHwang · YuujinHwang · commit 19a6cbfbb6ae · 2025-05-12T06:48:29.000+09:00
- Added specific version of transformers (==4.51.2)
- Added clickhouse-driver (&gt;=0.2.9,&lt;0.3.0)
- Added numpy (&lt;2.0)
diff --git a/.env.example b/.env.example
@@ -3,18 +3,18 @@
 ###############################################
 
 # LLM_PROVIDER=openai
-# OPEN_AI_LLM_KEY=
-# OPEN_AI_LLM_MODEL=gpt-4o
+# OPEN_AI_KEY=sk-proj-----
+# OPEN_AI_LLM_MODEL=gpt-4.1
 
 # LLM_PROVIDER=gemini
 # GEMINI_API_KEY=
 # GEMINI_LLM_MODEL=gemini-2.0-flash-lite
 
-# LLM_PROVIDER=azure
-# AZURE_OPENAI_LLM_ENDPOINT=
-# AZURE_OPENAI_LLM_KEY=
-# AZURE_OPENAI_LLM_MODEL=
-# AZURE_OPENAI_LLM_API_VERSION=
+LLM_PROVIDER=azure
+AZURE_OPENAI_LLM_ENDPOINT=https://-------.openai.azure.com/
+AZURE_OPENAI_LLM_KEY=-
+AZURE_OPENAI_LLM_MODEL=gpt4o
+AZURE_OPENAI_LLM_API_VERSION=2024-07-01-preview
 
 # LLM_PROVIDER=ollama
 # OLLAMA_LLM_BASE_URL=
@@ -36,31 +36,38 @@
 ########### Embedding API SElECTION ###########
 ###############################################
 # Only used if you are using an LLM that does not natively support embedding (openai or Azure)
-# EMBEDDING_ENGINE='openai'
-# OPEN_AI_KEY=sk-xxxx
-# EMBEDDING_MODEL_PREF='text-embedding-ada-002'
+# EMBEDDING_PROVIDER='openai'
+# OPEN_AI_EMBEDDING_MODEL='text-embedding-ada-002'
 
-# EMBEDDING_ENGINE='azure'
-# AZURE_OPENAI_ENDPOINT=
-# AZURE_OPENAI_KEY=
-# EMBEDDING_MODEL_PREF='my-embedder-model' # This is the "deployment" on Azure you want to use for embeddings. Not the base model. Valid base model is text-embedding-ada-002
+# EMBEDDING_PROVIDER=azure
+# AZURE_OPENAI_EMBEDDING_ENDPOINT=https://-------.openai.azure.com/openai/deployments
+# AZURE_OPENAI_EMBEDDING_KEY=-
+# AZURE_OPENAI_EMBEDDING_MODEL='textembeddingada002' # This is the "deployment" on Azure you want to use for embeddings. Not the base model. Valid base model is text-embedding-ada-002
+# AZURE_OPENAI_EMBEDDING_API_VERSION=2023-09-15-preview
 
-# EMBEDDING_ENGINE='ollama'
+# EMBEDDING_PROVIDER='ollama'
 # EMBEDDING_BASE_PATH='http://host.docker.internal:11434'
-# EMBEDDING_MODEL_PREF='nomic-embed-text:latest'
+# EMBEDDING_MODEL='nomic-embed-text:latest'
 # EMBEDDING_MODEL_MAX_CHUNK_LENGTH=8192
 
-# EMBEDDING_ENGINE='bedrock'
-# AWS_BEDROCK_EMBEDDING_ACCESS_KEY_ID=
-# AWS_BEDROCK_EMBEDDING_ACCESS_KEY=
-# AWS_BEDROCK_EMBEDDING_REGION=us-west-2
-# AWS_BEDROCK_EMBEDDING_MODEL_PREF=amazon.embedding-embedding-ada-002:0
+EMBEDDING_PROVIDER='bedrock'
+AWS_BEDROCK_EMBEDDING_ACCESS_KEY_ID=--
+AWS_BEDROCK_EMBEDDING_SECRET_ACCESS_KEY=-/-+-+-
+AWS_BEDROCK_EMBEDDING_REGION=us-west-2
+AWS_BEDROCK_EMBEDDING_MODEL=amazon.titan-embed-text-v2:0
 
-# EMBEDDING_ENGINE='gemini'
+# EMBEDDING_PROVIDER='gemini'
 # GEMINI_EMBEDDING_API_KEY=
-# EMBEDDING_MODEL_PREF='text-embedding-004'
+# EMBEDDING_MODEL='text-embedding-004'
 
-# EMBEDDING_ENGINE='huggingface'
+# EMBEDDING_PROVIDER='huggingface'
 # HUGGING_FACE_EMBEDDING_REPO_ID=
 # HUGGING_FACE_EMBEDDING_MODEL=
 # HUGGING_FACE_EMBEDDING_API_TOKEN=
+
+DATAHUB_SERVER = 'http://-.-.-.-:-'
+CLICKHOUSE_HOST = '-.-.-.-'
+CLICKHOUSE_DATABASE = 'main'
+CLICKHOUSE_USER = '-'
+CLICKHOUSE_PASSWORD = '-'
+CLICKHOUSE_PORT = 9000
diff --git a/evaluation/gen_persona.py b/evaluation/gen_persona.py
@@ -4,7 +4,7 @@
 from persona_class import PersonaList
 
 from llm_utils.tools import _get_table_info
-from langchain_openai.chat_models import ChatOpenAI
+from llm_utils.llm_factory import get_llm
 from langchain_core.prompts import ChatPromptTemplate
 from argparse import ArgumentParser
 
@@ -19,7 +19,7 @@ def get_table_des_string(tables_desc):
 def generate_persona(tables_desc):
     description_string = get_table_des_string(tables_desc)
 
-    llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)
+    llm = get_llm(temperature=0)
     system_prompt = """주어진 Tabel description들을 참고하여 Text2SQL 서비스로 질문을 할만한 패르소나를 생성하세요"""
 
     prompt = ChatPromptTemplate.from_messages(
diff --git a/interface/lang2sql.py b/interface/lang2sql.py
@@ -12,6 +12,8 @@
 from llm_utils.connect_db import ConnectDB
 from llm_utils.graph import builder
 
+import re
+
 DEFAULT_QUERY = "고객 데이터를 기반으로 유니크한 유저 수를 카운트하는 쿼리"
 SIDEBAR_OPTIONS = {
     "show_total_token_usage": "Show Total Token Usage",
@@ -115,7 +117,16 @@ def display_result(
     if st.session_state.get("show_referenced_tables", True):
         st.write("참고한 테이블 목록:", res["searched_tables"])
     if st.session_state.get("show_table", True):
-        sql = res["generated_query"]
+        try:
+            sql = re.findall(r"```sql(.*?)```", res["generated_query"].content, re.DOTALL)
+            sql = sql[0].strip()
+        except ValueError:
+            st.error("SQL 쿼리를 찾을 수 없습니다.")
+            return
+        
+        if not sql:
+            st.error("SQL 쿼리가 비어 있습니다.")
+            return
         df = database.run_sql(sql)
         st.dataframe(df.head(10) if len(df) > 10 else df)
 
diff --git a/llm_utils/llm_factory.py b/llm_utils/llm_factory.py
@@ -18,88 +18,96 @@
     AzureChatOpenAI,
     OpenAIEmbeddings,
 )
-from langchain_community.llms.bedrock import Bedrock
 
-# .env 파일 로딩
-load_dotenv()
+env_path = os.path.join(os.getcwd(), ".env")
 
+if os.path.exists(env_path):
+    load_dotenv(env_path, override=True)
+    print(f"✅ 환경변수 파일(.env)이 {os.getcwd()}에 로드되었습니다!")
+else:
+    print(f"⚠️  환경변수 파일(.env)이 {os.getcwd()}에 없습니다!")
 
-def get_llm() -> BaseLanguageModel:
+def get_llm(**kwargs) -> BaseLanguageModel:
     """
     return chat model interface
     """
     provider = os.getenv("LLM_PROVIDER")
+    print(os.environ["LLM_PROVIDER"])
 
     if provider is None:
         raise ValueError("LLM_PROVIDER environment variable is not set.")
 
     if provider == "openai":
-        return get_llm_openai()
+        return get_llm_openai(**kwargs)
 
     elif provider == "azure":
-        return get_llm_azure()
+        return get_llm_azure(**kwargs)
 
     elif provider == "bedrock":
-        return get_llm_bedrock()
+        return get_llm_bedrock(**kwargs)
 
     elif provider == "gemini":
-        return get_llm_gemini()
+        return get_llm_gemini(**kwargs)
 
     elif provider == "ollama":
-        return get_llm_ollama()
+        return get_llm_ollama(**kwargs)
 
     elif provider == "huggingface":
-        return get_llm_huggingface()
+        return get_llm_huggingface(**kwargs)
 
     else:
         raise ValueError(f"Invalid LLM API Provider: {provider}")
 
 
-def get_llm_openai() -> BaseLanguageModel:
+def get_llm_openai(**kwargs) -> BaseLanguageModel:
     return ChatOpenAI(
-        model=os.getenv("OPEN_MODEL_PREF", "gpt-4o"),
+        model=os.getenv("OPEN_AI_LLM_MODEL", "gpt-4o"),
         api_key=os.getenv("OPEN_AI_KEY"),
+        **kwargs,
     )
 
 
-def get_llm_azure() -> BaseLanguageModel:
+def get_llm_azure(**kwargs) -> BaseLanguageModel:
     return AzureChatOpenAI(
         api_key=os.getenv("AZURE_OPENAI_LLM_KEY"),
         azure_endpoint=os.getenv("AZURE_OPENAI_LLM_ENDPOINT"),
         azure_deployment=os.getenv("AZURE_OPENAI_LLM_MODEL"),  # Deployment name
         api_version=os.getenv("AZURE_OPENAI_LLM_API_VERSION", "2023-07-01-preview"),
+        **kwargs,
     )
 
 
-def get_llm_bedrock() -> BaseLanguageModel:
+def get_llm_bedrock(**kwargs) -> BaseLanguageModel:
     return ChatBedrockConverse(
         model=os.getenv("AWS_BEDROCK_LLM_MODEL"),
         aws_access_key_id=os.getenv("AWS_BEDROCK_LLM_ACCESS_KEY_ID"),
         aws_secret_access_key=os.getenv("AWS_BEDROCK_LLM_SECRET_ACCESS_KEY"),
         region_name=os.getenv("AWS_BEDROCK_LLM_REGION", "us-east-1"),
+        **kwargs,
     )
 
 
-def get_llm_gemini() -> BaseLanguageModel:
-    return ChatGoogleGenerativeAI(model=os.getenv("GEMINI_LLM_MODEL"))
+def get_llm_gemini(**kwargs) -> BaseLanguageModel:
+    return ChatGoogleGenerativeAI(model=os.getenv("GEMINI_LLM_MODEL"), **kwargs)
 
 
-def get_llm_ollama() -> BaseLanguageModel:
+def get_llm_ollama(**kwargs) -> BaseLanguageModel:
     base_url = os.getenv("OLLAMA_LLM_BASE_URL")
     if base_url:
-        return ChatOllama(base_url=base_url, model=os.getenv("OLLAMA_LLM_MODEL"))
+        return ChatOllama(base_url=base_url, model=os.getenv("OLLAMA_LLM_MODEL"), **kwargs)
     else:
-        return ChatOllama(model=os.getenv("OLLAMA_LLM_MODEL"))
+        return ChatOllama(model=os.getenv("OLLAMA_LLM_MODEL"), **kwargs)
 
 
-def get_llm_huggingface() -> BaseLanguageModel:
+def get_llm_huggingface(**kwargs) -> BaseLanguageModel:
     return ChatHuggingFace(
         llm=HuggingFaceEndpoint(
             model=os.getenv("HUGGING_FACE_LLM_MODEL"),
             repo_id=os.getenv("HUGGING_FACE_LLM_REPO_ID"),
             task="text-generation",
             endpoint_url=os.getenv("HUGGING_FACE_LLM_ENDPOINT"),
             huggingfacehub_api_token=os.getenv("HUGGING_FACE_LLM_API_TOKEN"),
+            **kwargs,
         )
     )
 
@@ -109,6 +117,7 @@ def get_embeddings() -> Optional[BaseLanguageModel]:
     return embedding model interface
     """
     provider = os.getenv("EMBEDDING_PROVIDER")
+    print(provider)
 
     if provider is None:
         raise ValueError("EMBEDDING_PROVIDER environment variable is not set.")
@@ -135,7 +144,7 @@ def get_embeddings() -> Optional[BaseLanguageModel]:
 def get_embeddings_openai() -> BaseLanguageModel:
     return OpenAIEmbeddings(
         model=os.getenv("OPEN_AI_EMBEDDING_MODEL"),
-        openai_api_key=os.getenv("OPEN_AI_EMBEDDING_KEY"),
+        openai_api_key=os.getenv("OPEN_AI_KEY"),
     )
 
 
diff --git a/llm_utils/retrieval.py b/llm_utils/retrieval.py
@@ -7,11 +7,12 @@
 from transformers import AutoModelForSequenceClassification, AutoTokenizer
 
 from .tools import get_info_from_db
+from .llm_factory import get_embeddings
 
 
 def get_vector_db():
     """벡터 데이터베이스를 로드하거나 생성합니다."""
-    embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
+    embeddings = get_embeddings()
     try:
         db = FAISS.load_local(
             os.getcwd() + "/table_info_db",
diff --git a/poetry.lock b/poetry.lock
diff --git a/pyproject.toml b/pyproject.toml