created a rag_pipeline in the rag.py based on the usage in api.py; removed rag_piipeline from api.py; introduced rag_pipeline from rag.py into api.py

exowanderer · rti · commit 9ab649f98f51 · 2024-02-27T16:12:19.000+01:00
diff --git a/gswikichat/__init__.py b/gswikichat/__init__.py
@@ -1,2 +1 @@
-# from .logger import logger
 from .api import *
diff --git a/gswikichat/api.py b/gswikichat/api.py
@@ -2,10 +2,7 @@
 from fastapi.staticfiles import StaticFiles
 from fastapi import FastAPI
 
-from .rag import answer_builder
-from .llm_config import llm
-from .prompt import prompt_builders
-from .vector_store_interface import embedder, retriever, input_documents
+from .rag import rag_pipeline
 
 from haystack import Document
 from .logger import get_logger
@@ -40,51 +37,14 @@ async def api(query, top_k=3, lang='en'):
 
     logger.debug(f'{query=}')  # Assuming we change the input name
     logger.debug(f'{top_k=}')
-    logger.debug(f'{top_k=}')
-
-    query = Document(content=query)
+    logger.debug(f'{lang=}')
 
-    query_embedded = embedder.run([query])
-    query_embedding = query_embedded['documents'][0].embedding
-
-    retriever_results = retriever.run(
-        query_embedding=list(query_embedding),
-        filters=None,
+    answer = rag_pipeline(
+        query=query,
         top_k=top_k,
-        scale_score=None,
-        return_embedding=None
-    )
-
-    logger.debug('retriever results:')
-    for retriever_result_ in retriever_results:
-        logger.debug(retriever_result_)
-
-    prompt_builder = prompt_builders[lang]
-
-    prompt_build = prompt_builder.run(
-        question=query.content,  # As a Document instance, .content returns a string
-        documents=retriever_results['documents']
+        lang=lang
     )
 
-    prompt = prompt_build['prompt']
-
-    logger.debug(f'{prompt=}')
-
-    response = llm.run(prompt=prompt, generation_kwargs=None)
-
-    answer_build = answer_builder.run(
-        query=query.content,  # As a Document class, .content returns the string
-        replies=response['replies'],
-        meta=response['meta'],
-        documents=retriever_results['documents'],
-        pattern=None,
-        reference_pattern=None
-    )
-
-    logger.debug(f'{answer_build=}')
-
-    answer = answer_build['answers'][0]
-
     sources = [
         {
             "src": d_.meta['src'],
diff --git a/gswikichat/rag.py b/gswikichat/rag.py
@@ -1,26 +1,63 @@
 # from haystack import Pipeline
+from haystack import Document
 from haystack.components.builders.answer_builder import AnswerBuilder
 
-answer_builder = AnswerBuilder()
-
-# rag_pipeline = Pipeline()
-# rag_pipeline.add_component("text_embedder", embedder)
-# rag_pipeline.add_component("retriever", retriever)
-# # rag_pipeline.add_component("writer", writer)
-# rag_pipeline.add_component("prompt_builder", prompt_builder)
-# rag_pipeline.add_component("llm", llm)
-# rag_pipeline.add_component("answer_builder", answer_builder)
-
-# # rag_pipeline.connect("embedder", "writer")
-# rag_pipeline.connect("retriever.documents", "text_embedder")
-# rag_pipeline.connect("retriever", "prompt_builder.documents")
-# rag_pipeline.connect("prompt_builder", "llm")
-# rag_pipeline.connect("llm.replies", "answer_builder.replies")
-# rag_pipeline.connect("llm.metadata", "answer_builder.meta")
-# rag_pipeline.connect("retriever", "answer_builder.documents")
-
-# rag_pipeline.run(
-#     {
-#         "text_embedder": {"documents": input_documents}
-#     }
-# )
+from .llm_config import llm
+from .logger import get_logger
+from .prompt import prompt_builders
+from .vector_store_interface import embedder, retriever, input_documents
+
+# Create logger instance from base logger config in `logger.py`
+logger = get_logger(__name__)
+
+
+def rag_pipeline(query: str = None, top_k: int = 3, lang: str = 'de'):
+
+    assert (query is not None)
+
+    if isinstance(query, str):
+        query = Document(content=query)
+
+    assert (isinstance(query, Document))
+
+    query_embedded = embedder.run([query])
+    query_embedding = query_embedded['documents'][0].embedding
+
+    retriever_results = retriever.run(
+        query_embedding=list(query_embedding),
+        filters=None,
+        top_k=top_k,
+        scale_score=None,
+        return_embedding=None
+    )
+
+    logger.debug('retriever results:')
+    for retriever_result_ in retriever_results:
+        logger.debug(retriever_result_)
+
+    prompt_builder = prompt_builders[lang]
+
+    prompt_build = prompt_builder.run(
+        question=query.content,  # As a Document instance, .content returns a string
+        documents=retriever_results['documents']
+    )
+
+    prompt = prompt_build['prompt']
+
+    logger.debug(f'{prompt=}')
+
+    response = llm.run(prompt=prompt, generation_kwargs=None)
+
+    answer_builder = AnswerBuilder()
+    answer_build = answer_builder.run(
+        query=query.content,  # As a Document class, .content returns the string
+        replies=response['replies'],
+        meta=response['meta'],
+        documents=retriever_results['documents'],
+        pattern=None,
+        reference_pattern=None
+    )
+
+    logger.debug(f'{answer_build=}')
+
+    return answer_build['answers'][0]

Original file line number	Diff line number	Diff line change
`@@ -1,2 +1 @@`
`1`		`-# from .logger import logger`
`2`	`1`	`from .api import *`