grouped array fixes (#35)

jmoralez · web-flow · commit 74ed1d45a711 · 2023-11-08T23:16:13.000Z
diff --git a/nbs/grouped_array.ipynb b/nbs/grouped_array.ipynb
@@ -41,8 +41,11 @@
     ") -> Tuple[np.ndarray, np.ndarray]:\n",
     "    \"\"\"Append each value of new to each group in data formed by indptr.\"\"\"\n",
     "    n_groups = len(indptr) - 1\n",
-    "    rows = data.shape[0] + new.shape[0]\n",
-    "    new_data = np.empty((rows, data.shape[1]), dtype=data.dtype)\n",
+    "    n_rows = data.shape[0] + new.shape[0]\n",
+    "    if data.ndim == 2:\n",
+    "        new_data = np.empty_like(data, shape=(n_rows, data.shape[1]))\n",
+    "    else:\n",
+    "        new_data = np.empty_like(data, shape=n_rows)\n",
     "    new_indptr = indptr.copy()\n",
     "    new_indptr[1:] += np.arange(1, n_groups + 1)\n",
     "    for i in range(n_groups):\n",
@@ -61,13 +64,25 @@
    "outputs": [],
    "source": [
     "# test _append_one\n",
-    "data = np.arange(5).reshape(-1, 1)\n",
+    "data = np.arange(5)\n",
     "indptr = np.array([0, 2, 5])\n",
     "new = np.array([7, 8])\n",
     "new_data, new_indptr = _append_one(data, indptr, new)\n",
     "np.testing.assert_equal(\n",
     "    new_data,\n",
-    "    np.array([0, 1, 7, 2, 3, 4, 8]).reshape(-1, 1),\n",
+    "    np.array([0, 1, 7, 2, 3, 4, 8])\n",
+    ")\n",
+    "np.testing.assert_equal(\n",
+    "    new_indptr,\n",
+    "    np.array([0, 3, 7]),\n",
+    ")\n",
+    "\n",
+    "# 2d\n",
+    "data = np.arange(5).reshape(-1, 1)\n",
+    "new_data, new_indptr = _append_one(data, indptr, new)\n",
+    "np.testing.assert_equal(\n",
+    "    new_data,\n",
+    "    np.array([0, 1, 7, 2, 3, 4, 8]).reshape(-1, 1)\n",
     ")\n",
     "np.testing.assert_equal(\n",
     "    new_indptr,\n",
@@ -90,9 +105,12 @@
     "    new_values: np.ndarray,\n",
     "    new_groups: np.ndarray,\n",
     ") -> Tuple[np.ndarray, np.ndarray]:\n",
-    "    rows = data.shape[0] + new_values.shape[0]\n",
-    "    new_data = np.empty((rows, data.shape[1]), dtype=data.dtype)\n",
-    "    new_indptr = np.empty(new_sizes.size + 1, dtype=indptr.dtype)\n",
+    "    n_rows = data.shape[0] + new_values.shape[0]\n",
+    "    if data.ndim == 2:\n",
+    "        new_data = np.empty_like(data, shape=(n_rows, data.shape[1]))\n",
+    "    else:\n",
+    "        new_data = np.empty_like(data, shape=n_rows)\n",
+    "    new_indptr = np.empty_like(indptr, shape=new_sizes.size + 1)\n",
     "    new_indptr[0] = 0\n",
     "    old_indptr_idx = 0\n",
     "    new_vals_idx = 0\n",
@@ -122,6 +140,22 @@
    "outputs": [],
    "source": [
     "# test append several\n",
+    "data = np.arange(5)\n",
+    "indptr = np.array([0, 2, 5])\n",
+    "new_sizes = np.array([0, 2, 1])\n",
+    "new_values = np.array([6, 7, 5])\n",
+    "new_groups = np.array([False, True, False])\n",
+    "new_data, new_indptr = _append_several(data, indptr, new_sizes, new_values, new_groups)\n",
+    "np.testing.assert_equal(\n",
+    "    new_data,\n",
+    "    np.array([0, 1, 6, 7, 2, 3, 4, 5])\n",
+    ")\n",
+    "np.testing.assert_equal(\n",
+    "    new_indptr,\n",
+    "    np.array([0, 2, 4, 8]),\n",
+    ")\n",
+    "\n",
+    "# 2d\n",
     "data = np.arange(5).reshape(-1, 1)\n",
     "indptr = np.array([0, 2, 5])\n",
     "new_sizes = np.array([0, 2, 1])\n",
@@ -130,7 +164,7 @@
     "new_data, new_indptr = _append_several(data, indptr, new_sizes, new_values, new_groups)\n",
     "np.testing.assert_equal(\n",
     "    new_data,\n",
-    "    np.array([0, 1, 6, 7, 2, 3, 4, 5]).reshape(-1, 1),\n",
+    "    np.array([0, 1, 6, 7, 2, 3, 4, 5]).reshape(-1, 1)\n",
     ")\n",
     "np.testing.assert_equal(\n",
     "    new_indptr,\n",
@@ -172,19 +206,22 @@
     "            data = data.astype(np.float32)\n",
     "        return cls(data, indptr)\n",
     "\n",
-    "    def _take_from_ranges(self, ranges: Sequence) -> 'GroupedArray':\n",
+    "    def _take_from_ranges(self, ranges: Sequence) -> Tuple[np.ndarray, np.ndarray]:\n",
     "        items = [self.data[r] for r in ranges]\n",
     "        sizes = np.array([item.shape[0] for item in items])\n",
-    "        data = np.vstack(items)\n",
+    "        if self.data.ndim == 2:\n",
+    "            data = np.vstack(items)\n",
+    "        else:\n",
+    "            data = np.hstack(items)\n",
     "        indptr = np.append(0, sizes.cumsum())\n",
-    "        return GroupedArray(data, indptr)        \n",
+    "        return data, indptr\n",
     "\n",
-    "    def take(self, idxs: Sequence[int]) -> 'GroupedArray':\n",
+    "    def take(self, idxs: Sequence[int]) -> Tuple[np.ndarray, np.ndarray]:\n",
     "        \"\"\"Subset specific groups by their indices.\"\"\"\n",
     "        ranges = [range(self.indptr[i], self.indptr[i + 1]) for i in idxs]\n",
     "        return self._take_from_ranges(ranges)\n",
     "\n",
-    "    def take_from_groups(self, idx: Union[int, slice]) -> 'GroupedArray':\n",
+    "    def take_from_groups(self, idx: Union[int, slice]) -> Tuple[np.ndarray, np.ndarray]:\n",
     "        \"\"\"Select a subset from each group.\"\"\"\n",
     "        if isinstance(idx, int):\n",
     "            # this preserves the 2d structure of data when indexing with the range\n",
@@ -195,20 +232,18 @@
     "        ]\n",
     "        return self._take_from_ranges(ranges)\n",
     "\n",
-    "    def append(self, new: np.ndarray) -> 'GroupedArray':\n",
+    "    def append(self, new: np.ndarray) -> Tuple[np.ndarray, np.ndarray]:\n",
     "        \"\"\"Appends each element of `new` to each existing group. Returns a copy.\"\"\"\n",
     "        if new.shape[0] != self.n_groups:\n",
     "            raise ValueError(f\"new must have {self.n_groups} rows.\")\n",
-    "        new_data, new_indptr = _append_one(self.data, self.indptr, new)\n",
-    "        return GroupedArray(new_data, new_indptr)\n",
+    "        return _append_one(self.data, self.indptr, new)\n",
     "\n",
     "    def append_several(\n",
     "        self, new_sizes: np.ndarray, new_values: np.ndarray, new_groups: np.ndarray\n",
-    "    ) -> \"GroupedArray\":\n",
-    "        new_data, new_indptr = _append_several(\n",
+    "    ) -> Tuple[np.ndarray, np.ndarray]:\n",
+    "        return _append_several(\n",
     "            self.data, self.indptr, new_sizes, new_values, new_groups\n",
     "        )\n",
-    "        return GroupedArray(new_data, new_indptr)\n",
     "\n",
     "    def __repr__(self):\n",
     "        return (\n",
@@ -258,25 +293,47 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "id": "c3e2ea52-72c2-4b6a-aa17-deda48121c59",
+   "id": "91761fea-19d7-4707-b4db-e74ba152010b",
    "metadata": {},
    "outputs": [],
    "source": [
     "# Take the last two observations from each group\n",
-    "last_2 = ga.take_from_groups(slice(-2, None))\n",
+    "last2_data, last2_indptr = ga.take_from_groups(slice(-2, None))\n",
     "np.testing.assert_equal(\n",
-    "    last_2.data,\n",
+    "    last2_data,\n",
     "    np.vstack([\n",
     "        np.arange(4).reshape(-1, 2),\n",
     "        np.arange(16, 20).reshape(-1, 2),\n",
     "    ]),\n",
     ")\n",
-    "np.testing.assert_equal(last_2.indptr, np.array([0, 2, 4]))\n",
+    "np.testing.assert_equal(last2_indptr, np.array([0, 2, 4]))\n",
     "\n",
+    "# 1d\n",
+    "ga1d = GroupedArray(np.arange(10), indptr)\n",
+    "last2_data1d, last2_indptr1d = ga1d.take_from_groups(slice(-2, None))\n",
+    "np.testing.assert_equal(\n",
+    "    last2_data1d,\n",
+    "    np.array([0, 1, 8, 9])\n",
+    ")\n",
+    "np.testing.assert_equal(last2_indptr1d, np.array([0, 2, 4]))"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "c3d635e1-9194-4547-8be9-2452b1f4f21e",
+   "metadata": {},
+   "outputs": [],
+   "source": [
     "# Take the second observation from each group\n",
-    "second = ga.take_from_groups(1)\n",
-    "np.testing.assert_equal(second.data, np.array([[2, 3], [6, 7]]))\n",
-    "np.testing.assert_equal(second.indptr, np.array([0, 1, 2]))"
+    "second_data, second_indptr = ga.take_from_groups(1)\n",
+    "np.testing.assert_equal(second_data, np.array([[2, 3], [6, 7]]))\n",
+    "np.testing.assert_equal(second_indptr, np.array([0, 1, 2]))\n",
+    "\n",
+    "# 1d\n",
+    "second_data1d, second_indptr1d = ga1d.take_from_groups(1)\n",
+    "np.testing.assert_equal(second_data1d, np.array([1, 3]))\n",
+    "np.testing.assert_equal(second_indptr1d, np.array([0, 1, 2]))"
    ]
   },
   {
@@ -287,15 +344,23 @@
    "outputs": [],
    "source": [
     "# Take the last four observations from every group. Note that since group 1 only has two elements, only these are returned.\n",
-    "last_4 = ga.take_from_groups(slice(-4, None))\n",
+    "last4_data, last4_indptr = ga.take_from_groups(slice(-4, None))\n",
     "np.testing.assert_equal(\n",
-    "    last_4.data,\n",
+    "    last4_data,\n",
     "    np.vstack([\n",
     "        np.arange(4).reshape(-1, 2),\n",
     "        np.arange(12, 20).reshape(-1, 2),\n",
     "    ]),\n",
     ")\n",
-    "np.testing.assert_equal(last_4.indptr, np.array([0, 2, 6]))"
+    "np.testing.assert_equal(last4_indptr, np.array([0, 2, 6]))\n",
+    "\n",
+    "# 1d\n",
+    "last4_data1d, last4_indptr1d = ga1d.take_from_groups(slice(-4, None))\n",
+    "np.testing.assert_equal(\n",
+    "    last4_data1d,\n",
+    "    np.array([0, 1, 6, 7, 8, 9])\n",
+    ")\n",
+    "np.testing.assert_equal(last4_indptr1d, np.array([0, 2, 6]))"
    ]
   },
   {
@@ -308,9 +373,15 @@
     "# Select a specific subset of groups\n",
     "indptr = np.array([0, 2, 4, 7, 10])\n",
     "ga2 = GroupedArray(data, indptr)\n",
-    "subset = ga2.take([0, 2])\n",
+    "subset = GroupedArray(*ga2.take([0, 2]))\n",
     "np.testing.assert_allclose(subset[0].data, ga2[0].data)\n",
-    "np.testing.assert_allclose(subset[1].data, ga2[2].data)"
+    "np.testing.assert_allclose(subset[1].data, ga2[2].data)\n",
+    "\n",
+    "# 1d\n",
+    "ga2_1d = GroupedArray(np.arange(10), indptr)\n",
+    "subset1d = GroupedArray(*ga2_1d.take([0, 2]))\n",
+    "np.testing.assert_allclose(subset1d[0].data, ga2_1d[0].data)\n",
+    "np.testing.assert_allclose(subset1d[1].data, ga2_1d[2].data)"
    ]
   },
   {
diff --git a/utilsforecast/grouped_array.py b/utilsforecast/grouped_array.py
@@ -17,8 +17,11 @@ def _append_one(
 ) -> Tuple[np.ndarray, np.ndarray]:
     """Append each value of new to each group in data formed by indptr."""
     n_groups = len(indptr) - 1
-    rows = data.shape[0] + new.shape[0]
-    new_data = np.empty((rows, data.shape[1]), dtype=data.dtype)
+    n_rows = data.shape[0] + new.shape[0]
+    if data.ndim == 2:
+        new_data = np.empty_like(data, shape=(n_rows, data.shape[1]))
+    else:
+        new_data = np.empty_like(data, shape=n_rows)
     new_indptr = indptr.copy()
     new_indptr[1:] += np.arange(1, n_groups + 1)
     for i in range(n_groups):
@@ -36,9 +39,12 @@ def _append_several(
     new_values: np.ndarray,
     new_groups: np.ndarray,
 ) -> Tuple[np.ndarray, np.ndarray]:
-    rows = data.shape[0] + new_values.shape[0]
-    new_data = np.empty((rows, data.shape[1]), dtype=data.dtype)
-    new_indptr = np.empty(new_sizes.size + 1, dtype=indptr.dtype)
+    n_rows = data.shape[0] + new_values.shape[0]
+    if data.ndim == 2:
+        new_data = np.empty_like(data, shape=(n_rows, data.shape[1]))
+    else:
+        new_data = np.empty_like(data, shape=n_rows)
+    new_indptr = np.empty_like(indptr, shape=new_sizes.size + 1)
     new_indptr[0] = 0
     old_indptr_idx = 0
     new_vals_idx = 0
@@ -86,19 +92,22 @@ def from_sorted_df(
             data = data.astype(np.float32)
         return cls(data, indptr)
 
-    def _take_from_ranges(self, ranges: Sequence) -> "GroupedArray":
+    def _take_from_ranges(self, ranges: Sequence) -> Tuple[np.ndarray, np.ndarray]:
         items = [self.data[r] for r in ranges]
         sizes = np.array([item.shape[0] for item in items])
-        data = np.vstack(items)
+        if self.data.ndim == 2:
+            data = np.vstack(items)
+        else:
+            data = np.hstack(items)
         indptr = np.append(0, sizes.cumsum())
-        return GroupedArray(data, indptr)
+        return data, indptr
 
-    def take(self, idxs: Sequence[int]) -> "GroupedArray":
+    def take(self, idxs: Sequence[int]) -> Tuple[np.ndarray, np.ndarray]:
         """Subset specific groups by their indices."""
         ranges = [range(self.indptr[i], self.indptr[i + 1]) for i in idxs]
         return self._take_from_ranges(ranges)
 
-    def take_from_groups(self, idx: Union[int, slice]) -> "GroupedArray":
+    def take_from_groups(self, idx: Union[int, slice]) -> Tuple[np.ndarray, np.ndarray]:
         """Select a subset from each group."""
         if isinstance(idx, int):
             # this preserves the 2d structure of data when indexing with the range
@@ -108,20 +117,18 @@ def take_from_groups(self, idx: Union[int, slice]) -> "GroupedArray":
         ]
         return self._take_from_ranges(ranges)
 
-    def append(self, new: np.ndarray) -> "GroupedArray":
+    def append(self, new: np.ndarray) -> Tuple[np.ndarray, np.ndarray]:
         """Appends each element of `new` to each existing group. Returns a copy."""
         if new.shape[0] != self.n_groups:
             raise ValueError(f"new must have {self.n_groups} rows.")
-        new_data, new_indptr = _append_one(self.data, self.indptr, new)
-        return GroupedArray(new_data, new_indptr)
+        return _append_one(self.data, self.indptr, new)
 
     def append_several(
         self, new_sizes: np.ndarray, new_values: np.ndarray, new_groups: np.ndarray
-    ) -> "GroupedArray":
-        new_data, new_indptr = _append_several(
+    ) -> Tuple[np.ndarray, np.ndarray]:
+        return _append_several(
             self.data, self.indptr, new_sizes, new_values, new_groups
         )
-        return GroupedArray(new_data, new_indptr)
 
     def __repr__(self):
         return f"{self.__class__.__name__}(n_rows={self.data.shape[0]:,}, n_groups={self.n_groups:,})"