SENATOROVAI
diff --git a/‎probability_statistics/pandas/pandas_tutorials/chapter_14_understanding_transform_function_in_pandas.ipynb‎
Lines changed: 390 additions & 0 deletions b/‎probability_statistics/pandas/pandas_tutorials/chapter_14_understanding_transform_function_in_pandas.ipynb‎
Lines changed: 390 additions & 0 deletions
@@ -0,0 +1,390 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "vscode": {
+     "languageId": "python"
+    }
+   },
+   "outputs": [],
+   "source": [
+    "\"\"\"Understanding t** transform function in pandas.\"\"\""
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "id": "NN1-fNNUrV37"
+   },
+   "source": [
+    "# Понимание функции transform в pandas"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "id": "COAZvgV4rV4F"
+   },
+   "source": [
+    "## Введение\n",
+    "\n",
+    "Одной из привлекательных особенностей pandas является наличие богатой библиотеки методов для управления данными. Однако бывают случаи, когда неясно, что делают функции и как их использовать. Если вы подходите к проблеме с точки зрения Excel, может быть сложно перевести решение в незнакомую команду pandas. Одна из таких \"неизвестных\" функций - метод [`transform`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.core.groupby.DataFrameGroupBy.transform.html).\n",
+    "\n",
+    "> Оригинал статьи Криса [тут](https://pbpython.com/pandas_transform.html)\n",
+    "\n",
+    "Даже после длительного использования pandas у меня никогда не было возможности использовать эту функцию, поэтому я потратил время на выяснение, как она может пригодиться для анализа реального мира. В этой статье будет рассмотрен пример, в котором `transform` используется для эффективного суммирования данных."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "id": "o_36ePRXrV4H"
+   },
+   "source": [
+    "## Что такое трансформация?\n",
+    "\n",
+    "Лучшее описание этой темы нашел в книге `Python Data Science Handbook` Джейка Вандерпласа (Jake VanderPlas).\n",
+    "\n",
+    "> книга в оригинале свободно доступна на [сайте](https://jakevdp.github.io/PythonDataScienceHandbook/)\n",
+    "\n",
+    "Как сказано в книге, `transform` - это операция, используемая вместе с `groupby` (которая является одной из самых полезных в pandas).\n",
+    "\n",
+    "Я подозреваю, что большинство пользователей pandas использовали `aggregate`, `filter` или `apply` с `groupby` для обобщения данных. Однако `transform` немного сложнее понять, особенно из мира Excel.\n",
+    "\n",
+    "Поскольку Джейк сделал свою книгу доступной через Jupyter блокноты, это хорошее место, чтобы понять уникальность [transform](https://nbviewer.jupyter.org/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/03.08-Aggregation-and-Grouping.ipynb):"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "id": "KtPDsbGDrV4I"
+   },
+   "source": [
+    "> *В то время как агрегирующая функция должна возвращать сокращенную версию данных, преобразование может вернуть версию полного набора данных, преобразованную ради дальнейшей их переком позиции. При подобном преобразовании форма выходных данных совпадает с формой входных. Распространённый пример – центрирование данных путем вычитания среднего значения по группам.*"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "id": "_-uIbm1nrV4J"
+   },
+   "source": [
+    "Используя это базовое определение, я рассмотрю еще один пример."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "id": "-CWp85CtrV4K"
+   },
+   "source": [
+    "## Набор данных\n",
+    "\n",
+    "В этом примере проанализируем фиктивные данные о сделках купли-продажи:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "id": "5ZYboUXcrV4M",
+    "vscode": {
+     "languageId": "python"
+    }
+   },
+   "outputs": [],
+   "source": [
+    "import pandas as pd\n",
+    "\n",
+    "df_var = pd.read_excel(\n",
+    "    \"https://github.com/chris1610/pbpython/blob/master/data/\"\n",
+    "    \"sales_transactions.xlsx?raw=true\"\n",
+    ")\n",
+    "df_var"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "id": "fbTebE8YrV4P"
+   },
+   "source": [
+    "Вы можете видеть, что файл содержит три разных заказа (`10001`, `10005` и `10006`) и что каждый заказ состоит из нескольких продуктов (`sku`).\n",
+    "\n",
+    "Вопрос, на который мы бы хотели ответить: \"Какой процент от общей суммы составляет каждый продукт (`sku`)?\"\n",
+    "\n",
+    "Например, если мы посмотрим на заказ `10001` на общую сумму `576,12 у.е.`, то разбивка будет следующая:"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "id": "IXcKbWCPrV4Q"
+   },
+   "source": [
+    "`B1-20000` = `$235.83` или `40.9%`\n",
+    "\n",
+    "`S1-27722` = `$232.32` или `40.3%`\n",
+    "\n",
+    "`B1-86481` = `$107.97` или `18.7%`"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "id": "10rJeiQCrV4Q"
+   },
+   "source": [
+    "Сложность заключается в том, что нам нужно получить общую сумму для каждого заказа и объединить её обратно на уровне транзакции, чтобы получить проценты.\n",
+    "\n",
+    "В Excel вы можете использовать какую-либо версию промежуточного итога, чтобы вычислить значения."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "id": "1vFDVKtqrV4R"
+   },
+   "source": [
+    "## Первый подход - merge\n",
+    "\n",
+    "Если вы знакомы с pandas, то первым желанием будет сгруппировать данные в новый `DataFrame` и затем объединить их.\n",
+    "\n",
+    "Вот как будет выглядеть этот подход. Определим итоговую сумму (`ext price`) для заказов (`order`) с помощью стандартной `groupby` агрегации:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "id": "kZi2FQb6rV4S"
+   },
+   "outputs": [],
+   "source": [
+    "df_var.groupby(\"order\")[\"ext price\"].sum()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "id": "8JFY1e5qrV4S"
+   },
+   "source": [
+    "Вот схема, показывающая, что происходит в стандартной функции `groupby`:"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "id": "GkHSyC_VrV4T"
+   },
+   "source": [
+    "![](https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/pic/groupby-example.png)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "id": "ChDWBytwrV4T"
+   },
+   "source": [
+    "Сложная часть - придумать, как объединить полученные данные обратно с исходным `DataFrame`.\n",
+    "\n",
+    "Первое желание - создать новый `DataFrame` с итогами по заказам (`order`) и затем объединить его с оригиналом с помощью [`merge`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html).  \n",
+    "\n",
+    "Мы могли бы сделать что-то вроде такого:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "id": "N-zjIh3prV4U",
+    "vscode": {
+     "languageId": "python"
+    }
+   },
+   "outputs": [],
+   "source": [
+    "order_total_var = (\n",
+    "    df_var.groupby(\"order\")[\"ext price\"].sum().rename(\"Order_Total\").reset_index()\n",
+    ")\n",
+    "order_total_var"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "id": "YwwTxCTZrV4U",
+    "vscode": {
+     "languageId": "python"
+    }
+   },
+   "outputs": [],
+   "source": [
+    "df_1_var = df_var.merge(order_total_var)\n",
+    "df_1_var"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "id": "DcOSZIugrV4V",
+    "vscode": {
+     "languageId": "python"
+    }
+   },
+   "outputs": [],
+   "source": [
+    "df_1_var[\"Percent_of_Order\"] = df_1_var[\"ext price\"] / df_1_var[\"Order_Total\"]\n",
+    "df_1_var"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "id": "9wmQp-PfrV4W"
+   },
+   "source": [
+    "Безусловно, этот способ работает, но необходимо выполнить несколько шагов, чтобы объединить данные нужным нам образом!"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "id": "SZa5vE9FrV4W"
+   },
+   "source": [
+    "## Второй подход - использование transform\n",
+    "\n",
+    "Используя исходные данные, давайте попробуем вызвать `transform` для результата `groupby`:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "id": "iU_24zs6rV4X",
+    "vscode": {
+     "languageId": "python"
+    }
+   },
+   "outputs": [],
+   "source": [
+    "df_var.groupby(\"order\")[\"ext price\"].transform(\"sum\")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "id": "DTrJTC4OrV4Y"
+   },
+   "source": [
+    "Вместо того, чтобы показывать только итоги по трем заказам (`orders`), `transform` сохраняет формат исходного набора данных. Это уникальная особенность `transform`!\n",
+    "\n",
+    "Последний шаг довольно прост:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "id": "aX7bmm-krV4Y",
+    "vscode": {
+     "languageId": "python"
+    }
+   },
+   "outputs": [],
+   "source": [
+    "df_var[\"Order_Total\"] = df_var.groupby(\"order\")[\"ext price\"].transform(\"sum\")\n",
+    "df_var[\"Percent_of_Order\"] = df_var[\"ext price\"] / df_var[\"Order_Total\"]\n",
+    "df_var"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "id": "T0EmId80rV4Z"
+   },
+   "source": [
+    "В качестве дополнительного бонуса можно объединить все в один отчет, если не хотите отображать итоги отдельных заказов:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "id": "cyV-RWzfrV4Z",
+    "vscode": {
+     "languageId": "python"
+    }
+   },
+   "outputs": [],
+   "source": [
+    "df_var[\"Percent_of_Order\"] = df_var[\"ext price\"] / df_var.groupby(\"order\")[\n",
+    "    \"ext price\"\n",
+    "].transform(\"sum\")\n",
+    "df_var"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "id": "qBSIL8O2rV4a"
+   },
+   "source": [
+    "Вот схема, показывающая, что происходит:\n",
+    "\n",
+    "![](https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/pic/transform-example.png)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "id": "kiQkfmabrV4a"
+   },
+   "source": [
+    "Потратив время на понимание `transform`, я думаю, вы согласитесь, что этот инструмент может быть очень мощным, даже, если это отличный от стандартного мышления Excel подход."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "id": "fxVfw4etrV4b"
+   },
+   "source": [
+    "## Заключение\n",
+    "\n",
+    "Я постоянно поражаюсь способности pandas делать сложные числовые манипуляции очень эффективными. Несмотря на то, что с длительное время работал с pandas, я никогда не тратил время на понимание работы `transform`. Теперь, когда я знаю, как это работает, уверен, что смогу использовать его в будущем анализе, и надеюсь, что вы сочтете этот пример полезным."
+   ]
+  }
+ ],
+ "metadata": {
+  "colab": {
+   "provenance": []
+  },
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python3",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.8.3"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 0
+}