recodehive · RajKhanke · Jul 20, 2024
diff --git a/stack_overflow_security_questions_analysis/IoT-Security-Dataset.csv b/stack_overflow_security_questions_analysis/IoT-Security-Dataset.csv
diff --git a/stack_overflow_security_questions_analysis/app.py b/stack_overflow_security_questions_analysis/app.py
@@ -0,0 +1,48 @@
+import streamlit as st
+import pandas as pd
+import joblib
+import re
+from sklearn.feature_extraction.text import TfidfVectorizer
+
+# Load the dataset
+df = pd.read_csv('IoT-Security-Dataset.csv')
+
+# Load the saved Random Forest model
+rf_model_loaded = joblib.load('random_forest_model.pkl')
+
+# Load and fit the TF-IDF vectorizer on the dataset
+tfidf_vectorizer = TfidfVectorizer(max_features=5000)
+tfidf_vectorizer.fit(df['Cleaned Sentence'])
+
+# Function to preprocess the input text
+def preprocess_text(text):
+    text = text.lower()
+    text = re.sub(r'\W', ' ', text)
+    text = re.sub(r'\d', ' ', text)
+    text = re.sub(r'\s+[a-z]\s+', ' ', text)
+    text = re.sub(r'\s+', ' ', text).strip()
+    return text
+
+# Function to predict if a question is security-related
+def predict_security(question, model, vectorizer):
+    clean_question = preprocess_text(question)
+    question_tfidf = vectorizer.transform([clean_question])
+    prediction = model.predict(question_tfidf)
+    return prediction[0]
+
+# Streamlit app
+st.title("Security text Predictor")
+
+st.write("Enter your question below to determine if it is related to security.")
+
+user_question = st.text_area("Your Question")
+
+if st.button("Predict"):
+    if user_question.strip() != "":
+        prediction = predict_security(user_question, rf_model_loaded, tfidf_vectorizer)
+        if prediction == 0:
+            st.success("This question is security-related.")
+        else:
+            st.info("This question is not security-related.")
+    else:
+        st.error("Please enter a question.")
diff --git a/stack_overflow_security_questions_analysis/images/correlation_matrix.png b/stack_overflow_security_questions_analysis/images/correlation_matrix.png
diff --git a/stack_overflow_security_questions_analysis/images/distribution_sentence_length.png b/stack_overflow_security_questions_analysis/images/distribution_sentence_length.png
diff --git a/stack_overflow_security_questions_analysis/images/gradient_boosting.png b/stack_overflow_security_questions_analysis/images/gradient_boosting.png
diff --git a/stack_overflow_security_questions_analysis/images/logistic_regresssion.png b/stack_overflow_security_questions_analysis/images/logistic_regresssion.png
diff --git a/stack_overflow_security_questions_analysis/images/model_cmp.png b/stack_overflow_security_questions_analysis/images/model_cmp.png
diff --git a/stack_overflow_security_questions_analysis/images/random_forest.png b/stack_overflow_security_questions_analysis/images/random_forest.png
diff --git a/stack_overflow_security_questions_analysis/images/roc_curve.png b/stack_overflow_security_questions_analysis/images/roc_curve.png
diff --git a/stack_overflow_security_questions_analysis/images/svm.png b/stack_overflow_security_questions_analysis/images/svm.png
diff --git a/stack_overflow_security_questions_analysis/images/tf-idf_score.png b/stack_overflow_security_questions_analysis/images/tf-idf_score.png
diff --git a/stack_overflow_security_questions_analysis/images/top_20_words.png b/stack_overflow_security_questions_analysis/images/top_20_words.png
diff --git a/stack_overflow_security_questions_analysis/images/wordcloud.png b/stack_overflow_security_questions_analysis/images/wordcloud.png
diff --git a/stack_overflow_security_questions_analysis/readme.md b/stack_overflow_security_questions_analysis/readme.md
@@ -0,0 +1,42 @@
+#  Stack Overflow iot security question analysis and predictor
+
+## Models used 
+
+- logistic regression
+- Random Forest
+- SVM
+- GBM
+
+## Libraries Used
+
+1. **joblib**: To dowload and laod the model
+2. **plotly**: For plotting zooming and 3d visualizations
+3. **Matplotlib**: For plotting and visualizing the detection results.
+4. **Pandas**: For image manipulation.
+5. **NumPy**: For efficient numerical operations.
+6. **Streamlit** : for building web app gui.
+
+## dowload model from drive
+
+https://drive.google.com/file/d/12h_fU5WI3KQvXH_qG7RoIKnteceb2fLw/view?usp=sharing
+
+## How to Use
+
+1. **Clone the Repository**: 
+    ```sh
+    git clone url_to_this_repository
+    ```
+
+2. **Install Dependencies**: 
+    ```sh
+    pip install -r requirements.txt
+    ```
+
+3. **Run the Model**: 
+    ```python
+    python main.py
+    ```
+
+4. **View Results**: The script will allow you to predict the text or question from stack overflow is security based or not.
+
+