Black reformatting

gahjelle · gahjelle · commit ea4f197d42c4 · 2024-01-08T20:43:39.000+01:00
diff --git a/data-analysis/data_analysis_findings.ipynb b/data-analysis/data_analysis_findings.ipynb
@@ -35,8 +35,7 @@
    "source": [
     "import pandas as pd\n",
     "\n",
-    "james_bond_data = pd.read_csv(\"james_bond_data.csv\").convert_dtypes()\n",
-    " "
+    "james_bond_data = pd.read_csv(\"james_bond_data.csv\").convert_dtypes()"
    ]
   },
   {
@@ -134,9 +133,7 @@
    "source": [
     "import pandas as pd\n",
     "\n",
-    "james_bond_data = pd.read_parquet(\n",
-    "    \"james_bond_data.parquet\"\n",
-    ").convert_dtypes()\n",
+    "james_bond_data = pd.read_parquet(\"james_bond_data.parquet\").convert_dtypes()\n",
     "\n",
     "james_bond_data"
    ]
@@ -261,9 +258,7 @@
    "outputs": [],
    "source": [
     "data = james_bond_data.rename(columns=new_column_names).combine_first(\n",
-    "    pd.DataFrame(\n",
-    "        {\"imdb\": {10: 7.1}, \"rotten_tomatoes\": {10: 6.8}}\n",
-    "    )\n",
+    "    pd.DataFrame({\"imdb\": {10: 7.1}, \"rotten_tomatoes\": {10: 6.8}})\n",
     ")"
    ]
   },
@@ -292,9 +287,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "data[\n",
-    "    [\"income_usa\", \"income_world\", \"movie_budget\", \"film_length\"]\n",
-    "].head()"
+    "data[[\"income_usa\", \"income_world\", \"movie_budget\", \"film_length\"]].head()"
    ]
   },
   {
@@ -307,9 +300,7 @@
     "data = (\n",
     "    james_bond_data.rename(columns=new_column_names)\n",
     "    .combine_first(\n",
-    "        pd.DataFrame(\n",
-    "            {\"imdb\": {10: 7.1}, \"rotten_tomatoes\": {10: 6.8}}\n",
-    "        )\n",
+    "        pd.DataFrame({\"imdb\": {10: 7.1}, \"rotten_tomatoes\": {10: 6.8}})\n",
     "    )\n",
     "    .assign(\n",
     "        income_usa=lambda data: (\n",
@@ -331,9 +322,7 @@
     "data = (\n",
     "    james_bond_data.rename(columns=new_column_names)\n",
     "    .combine_first(\n",
-    "        pd.DataFrame(\n",
-    "            {\"imdb\": {10: 7.1}, \"rotten_tomatoes\": {10: 6.8}}\n",
-    "        )\n",
+    "        pd.DataFrame({\"imdb\": {10: 7.1}, \"rotten_tomatoes\": {10: 6.8}})\n",
     "    )\n",
     "    .assign(\n",
     "        income_usa=lambda data: (\n",
@@ -373,9 +362,7 @@
     "data = (\n",
     "    james_bond_data.rename(columns=new_column_names)\n",
     "    .combine_first(\n",
-    "        pd.DataFrame(\n",
-    "            {\"imdb\": {10: 7.1}, \"rotten_tomatoes\": {10: 6.8}}\n",
-    "        )\n",
+    "        pd.DataFrame({\"imdb\": {10: 7.1}, \"rotten_tomatoes\": {10: 6.8}})\n",
     "    )\n",
     "    .assign(\n",
     "        income_usa=lambda data: (\n",
@@ -394,9 +381,7 @@
     "            .astype(\"Float64\")\n",
     "        ),\n",
     "        film_length=lambda data: (\n",
-    "            data[\"film_length\"]\n",
-    "            .str.removesuffix(\"mins\")\n",
-    "            .astype(\"Int64\")\n",
+    "            data[\"film_length\"].str.removesuffix(\"mins\").astype(\"Int64\")\n",
     "        ),\n",
     "    )\n",
     ")"
@@ -409,9 +394,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "data[\n",
-    "    [\"income_usa\", \"income_world\", \"movie_budget\", \"film_length\"]\n",
-    "].info()"
+    "data[[\"income_usa\", \"income_world\", \"movie_budget\", \"film_length\"]].info()"
    ]
   },
   {
@@ -421,9 +404,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "data[\n",
-    "    [\"income_usa\", \"income_world\", \"movie_budget\", \"film_length\"]\n",
-    "].head()"
+    "data[[\"income_usa\", \"income_world\", \"movie_budget\", \"film_length\"]].head()"
    ]
   },
   {
@@ -456,9 +437,7 @@
     "data = (\n",
     "    james_bond_data.rename(columns=new_column_names)\n",
     "    .combine_first(\n",
-    "        pd.DataFrame(\n",
-    "            {\"imdb\": {10: 7.1}, \"rotten_tomatoes\": {10: 6.8}}\n",
-    "        )\n",
+    "        pd.DataFrame({\"imdb\": {10: 7.1}, \"rotten_tomatoes\": {10: 6.8}})\n",
     "    )\n",
     "    .assign(\n",
     "        income_usa=lambda data: (\n",
@@ -477,16 +456,12 @@
     "            .astype(\"Float64\")\n",
     "        ),\n",
     "        film_length=lambda data: (\n",
-    "            data[\"film_length\"]\n",
-    "            .str.removesuffix(\"mins\")\n",
-    "            .astype(\"Int64\")\n",
+    "            data[\"film_length\"].str.removesuffix(\"mins\").astype(\"Int64\")\n",
     "        ),\n",
     "        release_date=lambda data: pd.to_datetime(\n",
     "            data[\"release_date\"], format=\"%B, %Y\"\n",
     "        ),\n",
-    "        release_year=lambda data: data[\"release_date\"]\n",
-    "            .dt.year\n",
-    "            .astype(\"Int64\"),\n",
+    "        release_year=lambda data: data[\"release_date\"].dt.year.astype(\"Int64\"),\n",
     "    )\n",
     ")"
    ]
@@ -549,9 +524,7 @@
     "data = (\n",
     "    james_bond_data.rename(columns=new_column_names)\n",
     "    .combine_first(\n",
-    "        pd.DataFrame(\n",
-    "            {\"imdb\": {10: 7.1}, \"rotten_tomatoes\": {10: 6.8}}\n",
-    "        )\n",
+    "        pd.DataFrame({\"imdb\": {10: 7.1}, \"rotten_tomatoes\": {10: 6.8}})\n",
     "    )\n",
     "    .assign(\n",
     "        income_usa=lambda data: (\n",
@@ -571,16 +544,12 @@
     "            * 1000\n",
     "        ),\n",
     "        film_length=lambda data: (\n",
-    "            data[\"film_length\"]\n",
-    "            .str.removesuffix(\"mins\")\n",
-    "            .astype(\"Int64\")\n",
+    "            data[\"film_length\"].str.removesuffix(\"mins\").astype(\"Int64\")\n",
     "        ),\n",
     "        release_date=lambda data: pd.to_datetime(\n",
     "            data[\"release_date\"], format=\"%B, %Y\"\n",
     "        ),\n",
-    "        release_year=lambda data: data[\"release_date\"]\n",
-    "            .dt.year\n",
-    "            .astype(\"Int64\"),\n",
+    "        release_year=lambda data: data[\"release_date\"].dt.year.astype(\"Int64\"),\n",
     "    )\n",
     ")"
    ]
@@ -623,9 +592,7 @@
     "data = (\n",
     "    james_bond_data.rename(columns=new_column_names)\n",
     "    .combine_first(\n",
-    "        pd.DataFrame(\n",
-    "            {\"imdb\": {10: 7.1}, \"rotten_tomatoes\": {10: 6.8}}\n",
-    "        )\n",
+    "        pd.DataFrame({\"imdb\": {10: 7.1}, \"rotten_tomatoes\": {10: 6.8}})\n",
     "    )\n",
     "    .assign(\n",
     "        income_usa=lambda data: (\n",
@@ -645,16 +612,12 @@
     "            * 1000\n",
     "        ),\n",
     "        film_length=lambda data: (\n",
-    "            data[\"film_length\"]\n",
-    "            .str.removesuffix(\"mins\")\n",
-    "            .astype(\"Int64\")\n",
+    "            data[\"film_length\"].str.removesuffix(\"mins\").astype(\"Int64\")\n",
     "        ),\n",
     "        release_date=lambda data: pd.to_datetime(\n",
     "            data[\"release_date\"], format=\"%B, %Y\"\n",
     "        ),\n",
-    "        release_year=lambda data: data[\"release_date\"]\n",
-    "            .dt.year\n",
-    "            .astype(\"Int64\"),\n",
+    "        release_year=lambda data: data[\"release_date\"].dt.year.astype(\"Int64\"),\n",
     "        bond_actor=lambda data: (\n",
     "            data[\"bond_actor\"]\n",
     "            .str.replace(\"Shawn\", \"Sean\")\n",
@@ -694,9 +657,7 @@
     "data = (\n",
     "    james_bond_data.rename(columns=new_column_names)\n",
     "    .combine_first(\n",
-    "        pd.DataFrame(\n",
-    "            {\"imdb\": {10: 7.1}, \"rotten_tomatoes\": {10: 6.8}}\n",
-    "        )\n",
+    "        pd.DataFrame({\"imdb\": {10: 7.1}, \"rotten_tomatoes\": {10: 6.8}})\n",
     "    )\n",
     "    .assign(\n",
     "        income_usa=lambda data: (\n",
@@ -716,23 +677,20 @@
     "            * 1000\n",
     "        ),\n",
     "        film_length=lambda data: (\n",
-    "            data[\"film_length\"]\n",
-    "            .str.removesuffix(\"mins\")\n",
-    "            .astype(\"Int64\")\n",
+    "            data[\"film_length\"].str.removesuffix(\"mins\").astype(\"Int64\")\n",
     "        ),\n",
     "        release_date=lambda data: pd.to_datetime(\n",
     "            data[\"release_date\"], format=\"%B, %Y\"\n",
     "        ),\n",
-    "        release_year=lambda data: data[\"release_date\"]\n",
-    "            .dt.year\n",
-    "            .astype(\"Int64\"),\n",
+    "        release_year=lambda data: data[\"release_date\"].dt.year.astype(\"Int64\"),\n",
     "        bond_actor=lambda data: (\n",
     "            data[\"bond_actor\"]\n",
     "            .str.replace(\"Shawn\", \"Sean\")\n",
     "            .str.replace(\"MOORE\", \"Moore\")\n",
     "        ),\n",
-    "        car_manufacturer=lambda data: data[\"car_manufacturer\"]\n",
-    "            .str.replace(\"Astin\", \"Aston\"),\n",
+    "        car_manufacturer=lambda data: data[\"car_manufacturer\"].str.replace(\n",
+    "            \"Astin\", \"Aston\"\n",
+    "        ),\n",
     "    )\n",
     ")"
    ]
@@ -775,9 +733,7 @@
     "data = (\n",
     "    james_bond_data.rename(columns=new_column_names)\n",
     "    .combine_first(\n",
-    "        pd.DataFrame(\n",
-    "            {\"imdb\": {10: 7.1}, \"rotten_tomatoes\": {10: 6.8}}\n",
-    "        )\n",
+    "        pd.DataFrame({\"imdb\": {10: 7.1}, \"rotten_tomatoes\": {10: 6.8}})\n",
     "    )\n",
     "    .assign(\n",
     "        income_usa=lambda data: (\n",
@@ -791,7 +747,8 @@
     "            .astype(\"Float64\")\n",
     "        ),\n",
     "        movie_budget=lambda data: (\n",
-    "            data[\"movie_budget\"].replace(\"[$,]\", \"\", regex=True)\n",
+    "            data[\"movie_budget\"]\n",
+    "            .replace(\"[$,]\", \"\", regex=True)\n",
     "            .astype(\"Float64\")\n",
     "            * 1000\n",
     "        ),\n",
@@ -804,18 +761,18 @@
     "        release_date=lambda data: pd.to_datetime(\n",
     "            data[\"release_date\"], format=\"%B, %Y\"\n",
     "        ),\n",
-    "        release_year=lambda data: data[\"release_date\"]\n",
-    "            .dt.year\n",
-    "            .astype(\"Int64\"),\n",
+    "        release_year=lambda data: data[\"release_date\"].dt.year.astype(\"Int64\"),\n",
     "        bond_actor=lambda data: (\n",
     "            data[\"bond_actor\"]\n",
     "            .str.replace(\"Shawn\", \"Sean\")\n",
     "            .str.replace(\"MOORE\", \"Moore\")\n",
     "        ),\n",
-    "        car_manufacturer=lambda data: data[\"car_manufacturer\"]\n",
-    "            .str.replace(\"Astin\", \"Aston\"),\n",
-    "        martinis_consumed=lambda data: data[\"martinis_consumed\"]\n",
-    "            .replace(-6, 6),\n",
+    "        car_manufacturer=lambda data: data[\"car_manufacturer\"].str.replace(\n",
+    "            \"Astin\", \"Aston\"\n",
+    "        ),\n",
+    "        martinis_consumed=lambda data: data[\"martinis_consumed\"].replace(\n",
+    "            -6, 6\n",
+    "        ),\n",
     "    )\n",
     ")"
    ]
@@ -858,9 +815,7 @@
     "data = (\n",
     "    james_bond_data.rename(columns=new_column_names)\n",
     "    .combine_first(\n",
-    "        pd.DataFrame(\n",
-    "            {\"imdb\": {10: 7.1}, \"rotten_tomatoes\": {10: 6.8}}\n",
-    "        )\n",
+    "        pd.DataFrame({\"imdb\": {10: 7.1}, \"rotten_tomatoes\": {10: 6.8}})\n",
     "    )\n",
     "    .assign(\n",
     "        income_usa=lambda data: (\n",
@@ -888,17 +843,18 @@
     "        release_date=lambda data: pd.to_datetime(\n",
     "            data[\"release_date\"], format=\"%B, %Y\"\n",
     "        ),\n",
-    "        release_year=lambda data: data[\"release_date\"]\n",
-    "            .dt.year.astype(\"Int64\"),\n",
+    "        release_year=lambda data: data[\"release_date\"].dt.year.astype(\"Int64\"),\n",
     "        bond_actor=lambda data: (\n",
     "            data[\"bond_actor\"]\n",
     "            .str.replace(\"Shawn\", \"Sean\")\n",
     "            .str.replace(\"MOORE\", \"Moore\")\n",
     "        ),\n",
-    "        car_manufacturer=lambda data: data[\"car_manufacturer\"]\n",
-    "            .str.replace(\"Astin\", \"Aston\"),\n",
-    "        martinis_consumed=lambda data: data[\"martinis_consumed\"]\n",
-    "            .replace(-6, 6),\n",
+    "        car_manufacturer=lambda data: data[\"car_manufacturer\"].str.replace(\n",
+    "            \"Astin\", \"Aston\"\n",
+    "        ),\n",
+    "        martinis_consumed=lambda data: data[\"martinis_consumed\"].replace(\n",
+    "            -6, 6\n",
+    "        ),\n",
     "    )\n",
     "    .drop_duplicates(ignore_index=True)\n",
     ")"
@@ -931,7 +887,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    " data[\"bond_actor\"].value_counts()"
+    "data[\"bond_actor\"].value_counts()"
    ]
   },
   {
@@ -1085,7 +1041,7 @@
     "ax.set_title(\"Scatter Plot of Kills vs Ratings\")\n",
     "ax.set_xlabel(\"Average IMDb Rating\")\n",
     "ax.set_ylabel(\"Kills by Bond\")\n",
-    "#fig.show()"
+    "# fig.show()"
    ]
   }
  ],
diff --git a/data-analysis/data_analysis_results.ipynb b/data-analysis/data_analysis_results.ipynb
@@ -49,9 +49,7 @@
     "data = (\n",
     "    james_bond_data.rename(columns=new_column_names)\n",
     "    .combine_first(\n",
-    "        pd.DataFrame(\n",
-    "            {\"imdb\": {10: 7.1}, \"rotten_tomatoes\": {10: 6.8}}\n",
-    "        )\n",
+    "        pd.DataFrame({\"imdb\": {10: 7.1}, \"rotten_tomatoes\": {10: 6.8}})\n",
     "    )\n",
     "    .assign(\n",
     "        income_usa=lambda data: (\n",
@@ -79,18 +77,18 @@
     "        release_date=lambda data: pd.to_datetime(\n",
     "            data[\"release_date\"], format=\"%B, %Y\"\n",
     "        ),\n",
-    "        release_year=lambda data: data[\"release_date\"]\n",
-    "            .dt.year\n",
-    "            .astype(\"Int64\"),\n",
+    "        release_year=lambda data: data[\"release_date\"].dt.year.astype(\"Int64\"),\n",
     "        bond_actor=lambda data: (\n",
     "            data[\"bond_actor\"]\n",
     "            .str.replace(\"Shawn\", \"Sean\")\n",
     "            .str.replace(\"MOORE\", \"Moore\")\n",
     "        ),\n",
-    "        car_manufacturer=lambda data: data[\"car_manufacturer\"]\n",
-    "            .str.replace(\"Astin\", \"Aston\"),\n",
-    "        martinis_consumed=lambda data: data[\"martinis_consumed\"]\n",
-    "            .replace(-6, 6),\n",
+    "        car_manufacturer=lambda data: data[\"car_manufacturer\"].str.replace(\n",
+    "            \"Astin\", \"Aston\"\n",
+    "        ),\n",
+    "        martinis_consumed=lambda data: data[\"martinis_consumed\"].replace(\n",
+    "            -6, 6\n",
+    "        ),\n",
     "    )\n",
     "    .drop_duplicates(ignore_index=True)\n",
     ")\n",