Update Boxoffice.ipynb

ananas304 · web-flow · commit 54551c6f2ff8 · 2024-10-17T17:16:01.000+05:30
diff --git a/Algorithms and Deep Learning Models/Boxoffice/Boxoffice.ipynb b/Algorithms and Deep Learning Models/Boxoffice/Boxoffice.ipynb
@@ -6,6 +6,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "# Import necessary libraries\n",
     "import numpy as np\n",
     "import pandas as pd\n",
     "import matplotlib.pyplot as plt\n",
@@ -22,7 +23,8 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "df=pd.read_csv(\"D:/Documents/Data Sets/film.csv\")"
+    "# Load the dataset\n",
+    "df=pd.read_csv(\"D:/Documents/Data Sets/movie_dataset.csv\")"
    ]
   },
   {
@@ -31,6 +33,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "# Display the first 5 rows of the dataset\n",
     "df.head(5)"
    ]
   },
@@ -40,6 +43,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "# Get the shape of the dataset\n",
     "df.shape"
    ]
   },
@@ -49,6 +53,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "# Check for missing values in the dataset\n",
     "df.isnull().sum()"
    ]
   },
@@ -58,6 +63,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "# Drop rows with missing values\n",
     "df.dropna(inplace=True)"
    ]
   },
@@ -67,6 +73,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "# Verify that there are no more missing values\n",
     "df.isnull().sum()"
    ]
   },
@@ -76,6 +83,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "# Display information about the dataset\n",
     "df.info()"
    ]
   },
@@ -85,7 +93,8 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "cor=df['Budget'].corr(df['Revenue'])\n",
+    "# Calculate and display correlation between budget and revenue\n",
+    "cor=df['budget'].corr(df['revenue'])\n",
     "cor"
    ]
   },
@@ -95,18 +104,18 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "# Encode categorical variables using Label Encoding\n",
     "lr=preprocessing.LabelEncoder()\n",
-    "df['Title']=lr.fit_transform(df['Title'])\n",
-    "df['Original Title']=lr.fit_transform(df['Original Title'])\n",
-    "df['Original Language']=lr.fit_transform(df['Original Language'])\n",
-    "df['Status']=lr.fit_transform(df['Status'])\n",
-    "df['Spoken Languages']=lr.fit_transform(df['Spoken Languages'])\n",
-    "df['Production Countries']=lr.fit_transform(df['Production Countries'])\n",
-    "df['Production Companies']=lr.fit_transform(df['Production Companies'])\n",
-    "df['Genres']=lr.fit_transform(df['Genres'])\n",
-    "df['Overview']=lr.fit_transform(df['Overview'])\n",
-    "df['Release Date']=lr.fit_transform(df['Release Date'])\n",
-    "df['Adult']=lr.fit_transform(df['Adult'])\n"
+    "df['title']=lr.fit_transform(df['title'])\n",
+    "df['original_title']=lr.fit_transform(df['original_title'])\n",
+    "df['original_language']=lr.fit_transform(df['original_language'])\n",
+    "df['status']=lr.fit_transform(df['status'])\n",
+    "df['spoken_languages']=lr.fit_transform(df['spoken_languages'])\n",
+    "df['production_countries']=lr.fit_transform(df['production_countries'])\n",
+    "df['production_companies']=lr.fit_transform(df['production_companies'])\n",
+    "df['genres']=lr.fit_transform(df['genres'])\n",
+    "df['overview']=lr.fit_transform(df['overview'])\n",
+    "df['release_date']=lr.fit_transform(df['release_date'])\n"
    ]
   },
   {
@@ -115,6 +124,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "# Display information about the dataset after encoding\n",
     "df.info()"
    ]
   },
@@ -124,7 +134,15 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "sns.heatmap(data=df)"
+    "# Create and display a heatmap of feature correlations\n",
+    "correlation_matrix = df.select_dtypes(include=[np.number]).corr()\n",
+    "plt.figure(figsize=(14, 10))\n",
+    "sns.heatmap(correlation_matrix, annot=True, fmt='.2f', cmap='coolwarm', square=True, cbar_kws={\"shrink\": .8})\n",
+    "plt.title('Heatmap of Feature Correlations', fontsize=20)\n",
+    "plt.xticks(rotation=45, ha='right')\n",
+    "plt.yticks(rotation=0)\n",
+    "plt.tight_layout()\n",
+    "plt.show()"
    ]
   },
   {
@@ -133,8 +151,9 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "X=df[['Budget','Popularity','Runtime']]\n",
-    "Y=df['Revenue']\n"
+    "# Define features and target variable for the model\n",
+    "X=df[['budget','popularity','runtime']]\n",
+    "Y=df['revenue']\n"
    ]
   },
   {
@@ -143,6 +162,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "# Split the data into training and testing sets\n",
     "x_train, x_test, y_train, y_test=train_test_split(X,Y, test_size=0.4)"
    ]
   },
@@ -152,6 +172,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "# Create a Linear Regression model\n",
     "lr=LinearRegression()"
    ]
   },
@@ -161,6 +182,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "# Fit the model to the training data\n",
     "lr.fit(x_train, y_train)"
    ]
   },
@@ -170,6 +192,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "# Make predictions on the testing set\n",
     "pred=lr.predict(x_test)"
    ]
   },
@@ -179,6 +202,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "# Evaluate the model using Mean Absolute Error\n",
     "print(metrics.mean_absolute_error(y_test, pred))"
    ]
   }