OWASP
diff --git a/‎docs/retrieval_docs/challenges.md‎
Lines changed: 0 additions & 105 deletions b/‎docs/retrieval_docs/challenges.md‎
Lines changed: 0 additions & 105 deletions
diff --git a/‎services/chatbot/.gitignore‎
Lines changed: 1 addition & 0 deletions b/‎services/chatbot/.gitignore‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎services/chatbot/Dockerfile‎
Lines changed: 4 additions & 1 deletion b/‎services/chatbot/Dockerfile‎
Lines changed: 4 additions & 1 deletion
diff --git a/‎services/chatbot/build-image.bat‎
Lines changed: 2 additions & 0 deletions b/‎services/chatbot/build-image.bat‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎services/chatbot/build-image.sh‎
Lines changed: 2 additions & 0 deletions b/‎services/chatbot/build-image.sh‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎services/chatbot/chatbot_api.py‎
Lines changed: 0 additions & 94 deletions b/‎services/chatbot/chatbot_api.py‎
Lines changed: 0 additions & 94 deletions
diff --git a/‎services/chatbot/requirements-dev.txt‎
Lines changed: 1 addition & 0 deletions b/‎services/chatbot/requirements-dev.txt‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎services/chatbot/requirements.txt‎
Lines changed: 10 additions & 6 deletions b/‎services/chatbot/requirements.txt‎
Lines changed: 10 additions & 6 deletions
diff --git a/‎services/chatbot/src/chatbot_api.py‎
Lines changed: 135 additions & 0 deletions b/‎services/chatbot/src/chatbot_api.py‎
Lines changed: 135 additions & 0 deletions
@@ -0,0 +1 @@
+retrieval/docs
@@ -9,9 +9,12 @@ RUN apt-get update && apt-get install -y \
 WORKDIR /app
 
 # Copy the current directory contents into the container at /app
-COPY . /app
+COPY requirements.txt /app/requirements.txt
 # Install any needed dependencies specified in requirements.txt
 RUN pip install --no-cache-dir -r requirements.txt
+COPY src /app
+COPY retrieval /app/retrieval
+ENV PYTHONPATH "${PYTHONPATH}:/app"
 CMD python3.12 -m gunicorn --bind 0.0.0.0:5002 chatbot_api:app
 
 EXPOSE 5002
@@ -1,4 +1,6 @@
 @echo off
 cd /d chatbot
+m
+xcopy .\..\..\docs\ retrieval\docs\ /E /Y
 cmd /c docker build -t crapi/crapi-chatbot:%VERSION% .
 cd /d .\..\
@@ -15,6 +15,8 @@
 
 set -x
 cd "$(dirname $0)"
+mkdir -p retrieval
+cp -Rv ../../docs retrieval/
 docker build -t crapi/crapi-chatbot:${VERSION:-latest} .
 retVal=$?
 if [ $retVal -ne 0 ]; then
 
@@ -0,0 +1 @@
+black
@@ -1,6 +1,10 @@
-langchain-openai==0.1.1
-Flask
-langchain
-chromadb
-markdown
-unstructured
+chromadb==0.4.24
+Flask==3.0.3
+langchain==0.1.16
+langchain_community==0.0.34
+langchain_core==0.1.45
+langchain_openai==0.1.3
+python-dotenv==1.0.1
+unstructured==0.13.3
+gunicorn==22.0.0
+markdown==3.6
@@ -0,0 +1,135 @@
+from flask import Flask
+from flask import request, jsonify
+import threading
+from langchain_openai import OpenAIEmbeddings
+from langchain.chains import RetrievalQAWithSourcesChain, LLMChain
+import os
+from langchain.memory import ConversationBufferWindowMemory
+from langchain_community.vectorstores import Chroma
+from langchain_openai import OpenAI
+from langchain_community.document_loaders import DirectoryLoader
+from langchain.memory import ConversationBufferWindowMemory
+from langchain.text_splitter import CharacterTextSplitter
+from langchain_core.prompts import PromptTemplate
+from langchain import PromptTemplate
+from langchain_community.document_loaders import UnstructuredMarkdownLoader
+import logging
+
+app = Flask(__name__)
+
+retriever = None
+persist_directory = os.environ.get("PERSIST_DIRECTORY")
+vulnerable_app_qa = None
+target_source_chunks = int(os.environ.get("TARGET_SOURCE_CHUNKS", 4))
+loaded_model_lock = threading.Lock()
+loaded_model = False
+logger = logging.getLogger(__name__)
+logger.setLevel(logging.DEBUG)
+
+
+def document_loader():
+    try:
+        load_dir = "retrieval"
+        logger.debug("Loading documents from %s", load_dir)
+        loader = DirectoryLoader(
+            load_dir, glob="**/*.md", loader_cls=UnstructuredMarkdownLoader
+        )
+        documents = loader.load()
+        logger.debug("Loaded %s documents", len(documents))
+        text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
+        texts = text_splitter.split_documents(documents)
+        embeddings = get_embeddings()
+        os.system("rm -rf ./db")
+        db = Chroma.from_documents(texts, embeddings, persist_directory="./db")
+        db.persist()
+        retriever = db.as_retriever(search_kwargs={"k": target_source_chunks})
+        return retriever
+    except Exception as e:
+        logger.error("Error loading documents %s", e, exc_info=True)
+        raise e
+
+
+def get_embeddings():
+    return OpenAIEmbeddings()
+
+
+def get_llm():
+    llm = OpenAI(temperature=0.6, model_name="gpt-3.5-turbo-instruct")
+    return llm
+
+
+def get_qa_chain(llm, retriever):
+    PROMPT = None
+    prompt_template = """
+            You are a helpful AI Assistant.
+            {summaries}
+            Previous Conversations till now: {chat_history}
+            Reply to this Human question/instruction: {question}.
+            Chatbot: """
+    PROMPT = PromptTemplate(
+        template=prompt_template, input_variables=["question", "chat_history"]
+    )
+    chain_type_kwargs = {"prompt": PROMPT}
+    qa = RetrievalQAWithSourcesChain.from_chain_type(
+        llm=llm,
+        chain_type="stuff",
+        retriever=retriever,
+        chain_type_kwargs=chain_type_kwargs,
+        memory=ConversationBufferWindowMemory(
+            memory_key="chat_history", input_key="question", output_key="answer", k=6
+        ),
+    )
+    # qa = LLMChain(prompt=PROMPT, llm=llm, retriever= retriever , memory=ConversationBufferWindowMemory(memory_key="chat_history", input_key="question", k=6), verbose = False)
+    return qa
+
+
+def qa_app(qa, query):
+    result = qa(query)
+    return result["answer"]
+
+
+@app.route("/chatbot/genai/init", methods=["POST"])
+def init_bot():
+    try:
+        with loaded_model_lock:
+            if "openai_api_key" in request.json:
+                print("Initializing bot", request.json["openai_api_key"])
+                os.environ["OPENAI_API_KEY"] = request.json["openai_api_key"]
+                global vulnerable_app_qa, retriever
+                retriever = document_loader()
+                llm = get_llm()
+                vulnerable_app_qa = get_qa_chain(llm, retriever)
+                loaded_model = True
+                return jsonify({"message": "Model Initialized"}), 200
+            else:
+                return jsonify({"message": "openai_api_key not provided"}, 400)
+    except Exception as e:
+        print("Error initializing bot ", e)
+        return jsonify({"message": "Not able to initialize model " + str(e)}), 400
+
+
+@app.route("/chatbot/genai/state", methods=["GET"])
+def state_bot():
+    try:
+        if loaded_model:
+            return jsonify({"message": "Model already loaded"})
+    except Exception as e:
+        print("Error checking state ", e)
+        return jsonify({"message": "Error checking state " + str(e)}), 400
+    return jsonify({"message": "Model Error"}), 400
+
+
+@app.route("/chatbot/genai/ask", methods=["POST"])
+def ask_bot():
+    question = request.json["question"]
+    global vulnerable_app_qa
+    answer = qa_app(vulnerable_app_qa, question)
+    print("###########################################")
+    print("Test Attacker Question: " + str(question))
+    print("Vulnerability App Answer: " + str(answer))
+    print("###########################################")
+    return jsonify({"answer": answer}), 200
+
+
+if __name__ == "__main__":
+    app.run(host="0.0.0.0", port=5002, debug=True)