chris1610
diff --git a/‎pbp_cookiecutter/{{cookiecutter.directory_name}}/1-Data_Prep.ipynb‎
Lines changed: 161 additions & 0 deletions b/‎pbp_cookiecutter/{{cookiecutter.directory_name}}/1-Data_Prep.ipynb‎
Lines changed: 161 additions & 0 deletions
diff --git a/‎pbp_cookiecutter/{{cookiecutter.directory_name}}/2-EDA.ipynb‎
Lines changed: 141 additions & 0 deletions b/‎pbp_cookiecutter/{{cookiecutter.directory_name}}/2-EDA.ipynb‎
Lines changed: 141 additions & 0 deletions
diff --git a/‎pbp_cookiecutter/{{cookiecutter.directory_name}}/data/external/.gitkeep‎ b/‎pbp_cookiecutter/{{cookiecutter.directory_name}}/data/external/.gitkeep‎
diff --git a/‎pbp_cookiecutter/{{cookiecutter.directory_name}}/data/interim/.gitkeep‎ b/‎pbp_cookiecutter/{{cookiecutter.directory_name}}/data/interim/.gitkeep‎
diff --git a/‎pbp_cookiecutter/{{cookiecutter.directory_name}}/data/processed/.gitkeep‎ b/‎pbp_cookiecutter/{{cookiecutter.directory_name}}/data/processed/.gitkeep‎
diff --git a/‎pbp_cookiecutter/{{cookiecutter.directory_name}}/data/raw/.gitkeep‎ b/‎pbp_cookiecutter/{{cookiecutter.directory_name}}/data/raw/.gitkeep‎
diff --git a/‎pbp_cookiecutter/{{cookiecutter.directory_name}}/reports/.gitkeep‎ b/‎pbp_cookiecutter/{{cookiecutter.directory_name}}/reports/.gitkeep‎
@@ -0,0 +1,161 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## {{cookiecutter.project_name}}\n",
+    "\n",
+    "{{cookiecutter.description}}\n",
+    "\n",
+    "### Data Sources\n",
+    "- file1 : Description of where this file came from\n",
+    "\n",
+    "### Changes\n",
+    "- {% now 'utc', '%m-%d-%Y' %} : Started project"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import pandas as pd\n",
+    "from pathlib import Path\n",
+    "from datetime import datetime"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### File Locations"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "today = datetime.today()\n",
+    "in_file = Path.cwd() / \"data\" / \"raw\" / \"FILE1\"\n",
+    "summary_file = Path.cwd() / \"data\" / \"processed\" / f\"summary_{today:%b-%d-%Y}.pkl\""
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df = pd.read_csv(in_file)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Column Cleanup\n",
+    "\n",
+    "- Remove all leading and trailing spaces\n",
+    "- Rename the columns for consistency."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# https://stackoverflow.com/questions/30763351/removing-space-in-dataframe-python\n",
+    "df.columns = [x.strip() for x in df.columns]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "cols_to_rename = {'col1': 'New_Name'}\n",
+    "df.rename(columns=cols_to_rename, inplace=True)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Clean Up Data Types"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df.dtypes"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Data Manipulation"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Save output file into processed directory\n",
+    "\n",
+    "Save a file in the processed directory that is cleaned properly. It will be read in and used later for further analysis.\n",
+    "\n",
+    "Other options besides pickle include:\n",
+    "- feather\n",
+    "- msgpack\n",
+    "- parquet"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df.to_pickle(summary_file)"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.6.5"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 1
+}
@@ -0,0 +1,141 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## {{cookiecutter.project_name}}\n",
+    "\n",
+    "{{cookiecutter.description}}\n",
+    "\n",
+    "This notebook contains basic statistical analysis and visualization of the data.\n",
+    "\n",
+    "### Data Sources\n",
+    "- summary : Processed file from notebook 1-Data_Prep\n",
+    "\n",
+    "### Changes\n",
+    "- {% now 'utc', '%m-%d-%Y' %} : Started project"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import pandas as pd\n",
+    "from pathlib import Path\n",
+    "from datetime import datetime\n",
+    "import seaborn as sns"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%matplotlib inline"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### File Locations"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "today = datetime.today()\n",
+    "in_file = Path.cwd() / \"data\" / \"processed\" / f\"summary_{today:%b-%d-%Y}.pkl\"\n",
+    "report_dir = Path.cwd() / \"reports\"\n",
+    "report_file = report_dir / \"Excel_Analysis_{today:%b-%d-%Y}.xlsx\""
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df = pd.read_pickle(in_file)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Perform Data Analysis"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Save Excel file into reports directory\n",
+    "\n",
+    "Save an Excel file with intermediate results into the report directory"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "writer = pd.ExcelWriter(report_file, engine='xlsxwriter')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df.to_excel(writer, sheet_name='Report')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "writer.save()"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.6.5"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 1
+}