AppendFeaturesFromCallable InputTransform (#1354)

jduerholt · facebook-github-bot · commit 2ecdbc1aeadb · 2022-09-06T14:18:49.000-07:00
Summary: ## Motivation This PR adds the functionality of transfer learning and feature engineering within a model via a new input transform called `AppendFeaturesFromCallable` as discussed in #1307. This implementation does not alter the original `AppendFeatures` transform but adds a new one to keep things clean and separate. ### Have you read the [Contributing Guidelines on pull requests](https://github.com/pytorch/botorch/blob/main/CONTRIBUTING.md#pull-requests)? Yes. Pull Request resolved: #1354 Test Plan: Unit tests. Reviewed By: Balandat Differential Revision: D38907448 Pulled By: saitcakmak fbshipit-source-id: 05ed63540ce486e89cdf0e5cef23fa50ab49bc4a
diff --git a/botorch/models/transforms/input.py b/botorch/models/transforms/input.py
@@ -18,7 +18,7 @@
 
 from abc import ABC, abstractmethod
 from collections import OrderedDict
-from typing import Callable, List, Optional, Union
+from typing import Any, Callable, Dict, List, Optional, Union
 
 import torch
 from botorch.exceptions.errors import BotorchTensorDimensionError
@@ -948,11 +948,13 @@ def _untransform(self, X: Tensor) -> Tensor:
 
 
 class AppendFeatures(InputTransform, Module):
-    r"""A transform that appends the input with a given set of features.
+    r"""A transform that appends the input with a given set of features either
+    provided beforehand or generated on the fly via a callable.
 
-    As an example, this can be used with `RiskMeasureMCObjective` to optimize risk
-    measures as described in [Cakmak2020risk]_. A tutorial notebook implementing the
-    rhoKG acqusition function introduced in [Cakmak2020risk]_ can be found at
+    As an example, the predefined set of features can be used with
+    `RiskMeasureMCObjective` to optimize risk measures as described in
+    [Cakmak2020risk]_. A tutorial notebook implementing the rhoKG acqusition
+    function introduced in [Cakmak2020risk]_ can be found at
     https://botorch.org/tutorials/risk_averse_bo_with_environmental_variables.
 
     The steps for using this to obtain samples of a risk measure are as follows:
@@ -973,6 +975,11 @@ class AppendFeatures(InputTransform, Module):
     since the `feature_set` does not fully represent the distribution of the
     environmental variable.
 
+    Possible examples for using a callable include statistical models that are built on
+    PyTorch, built-in mathematical operations such as torch.sum, or custom scripted
+    functions. By this, this input transform allows for advanced feature engineering
+    and transfer learning models within the optimization loop.
+
     Example:
         >>> # We consider 1D `x` and 1D `w`, with `W` having a
         >>> # uniform distribution over [0, 1]
@@ -994,21 +1001,34 @@ class AppendFeatures(InputTransform, Module):
 
     def __init__(
         self,
-        feature_set: Tensor,
+        feature_set: Optional[Tensor] = None,
+        f: Optional[Callable[[Tensor], Tensor]] = None,
+        indices: Optional[List[int]] = None,
+        fkwargs: Optional[Dict[str, Any]] = None,
         skip_expand: bool = False,
         transform_on_train: bool = False,
         transform_on_eval: bool = True,
         transform_on_fantasize: bool = False,
     ) -> None:
-        r"""Append `feature_set` to each input.
+        r"""Append `feature_set` to each input or generate a set of features to
+        append on the fly via a callable.
 
         Args:
             feature_set: An `n_f x d_f`-dim tensor denoting the features to be
-                appended to the inputs.
+                appended to the inputs. Default: None.
+            f: A callable mapping a `batch_shape x q x d`-dim input tensor `X`
+                to a `batch_shape x q x n_f x d_f`-dimensional output tensor.
+                Default: None.
+            indices: List of indices denoting the indices of the features to be
+                passed into f. Per default all features are passed to `f`.
+                Default: None.
+            fkwargs: Dictionary of keyword arguments passed to the callable `f`.
+                Default: None.
             skip_expand: A boolean indicating whether to expand the input tensor
                 before appending features. This is intended for use with an
                 `InputPerturbation`. If `True`, the input tensor will be expected
-                to be of shape `batch_shape x (q * n_f) x d`.
+                to be of shape `batch_shape x (q * n_f) x d`. Not implemented
+                in combination with a callable.
             transform_on_train: A boolean indicating whether to apply the
                 transforms in train() mode. Default: False.
             transform_on_eval: A boolean indicating whether to apply the
@@ -1017,16 +1037,44 @@ def __init__(
                 transform when called from within a `fantasize` call. Default: False.
         """
         super().__init__()
-        if feature_set.dim() != 2:
-            raise ValueError("`feature_set` must be an `n_f x d_f`-dim tensor!")
+        if (feature_set is None) and (f is None):
+            raise ValueError(
+                "Either a `feature_set` or a callable `f` has to be provided."
+            )
+        if (feature_set is not None) and (f is not None):
+            raise ValueError(
+                "Only one can be used: either `feature_set` or callable `f`."
+            )
+        if feature_set is not None:
+            if feature_set.dim() != 2:
+                raise ValueError("`feature_set` must be an `n_f x d_f`-dim tensor!")
+            self.register_buffer("feature_set", feature_set)
+            self._f = None
+        if f is not None:
+            if skip_expand:
+                raise ValueError(
+                    "`skip_expand` option is not supported in case of using a callable"
+                )
+            if (indices is not None) and (len(indices) == 0):
+                raise ValueError("`indices` list is empty!")
+            if indices is not None:
+                indices = torch.tensor(indices, dtype=torch.long)
+                if len(indices.unique()) != len(indices):
+                    raise ValueError("Elements of `indices` tensor must be unique!")
+                self.indices = indices
+            else:
+                self.indices = slice(None)
+            self._f = f
+            self.fkwargs = fkwargs or {}
+
         self.skip_expand = skip_expand
-        self.register_buffer("feature_set", feature_set)
         self.transform_on_train = transform_on_train
         self.transform_on_eval = transform_on_eval
         self.transform_on_fantasize = transform_on_fantasize
 
     def transform(self, X: Tensor) -> Tensor:
-        r"""Transform the inputs by appending `feature_set` to each input.
+        r"""Transform the inputs by appending `feature_set` to each input or
+        by generating a set of features to be appended on the fly via a callable.
 
         For each `1 x d`-dim element in the input tensor, this will produce
         an `n_f x (d + d_f)`-dim tensor with `feature_set` appended as the last `d_f`
@@ -1047,15 +1095,20 @@ def transform(self, X: Tensor) -> Tensor:
         Returns:
             A `batch_shape x (q * n_f) x (d + d_f)`-dim tensor of appended inputs.
         """
+        if self._f is not None:
+            expanded_features = self._f(X[..., self.indices], **self.fkwargs)
+            n_f = expanded_features.shape[-2]
+        else:
+            n_f = self.feature_set.shape[-2]
+
         if self.skip_expand:
-            expanded_X = X.view(
-                *X.shape[:-2], -1, self.feature_set.shape[0], X.shape[-1]
-            )
+            expanded_X = X.view(*X.shape[:-2], -1, n_f, X.shape[-1])
         else:
-            expanded_X = X.unsqueeze(dim=-2).expand(
-                *X.shape[:-1], self.feature_set.shape[0], -1
-            )
-        expanded_features = self.feature_set.expand(*expanded_X.shape[:-1], -1)
+            expanded_X = X.unsqueeze(dim=-2).expand(*X.shape[:-1], n_f, -1)
+
+        if self._f is None:
+            expanded_features = self.feature_set.expand(*expanded_X.shape[:-1], -1)
+
         appended_X = torch.cat([expanded_X, expanded_features], dim=-1)
         return appended_X.view(*X.shape[:-2], -1, appended_X.shape[-1])
 
diff --git a/test/models/transforms/test_input.py b/test/models/transforms/test_input.py
@@ -860,6 +860,233 @@ def test_w_skip_expand(self):
             tf_X = append_tf(pert_tf(test_X.expand(3, 5, -1, -1)))
             self.assertTrue(torch.allclose(tf_X, expected_X.expand(3, 5, -1, -1)))
 
+    def test_w_f(self):
+        def f1(x: Tensor, n_f: int = 1) -> Tensor:
+            result = torch.sum(x, dim=-1, keepdim=True).unsqueeze(-2)
+            return result.expand(*result.shape[:-2], n_f, -1)
+
+        def f2(x: Tensor, n_f: int = 1) -> Tensor:
+            result = x[..., -2:].unsqueeze(-2)
+            return result.expand(*result.shape[:-2], n_f, -1)
+
+        for dtype in [torch.float, torch.double]:
+            tkwargs = {"device": self.device, "dtype": dtype}
+
+            # test init
+            with self.assertRaises(ValueError):
+                transform = AppendFeatures(f=f1, indices=[0, 0])
+            with self.assertRaises(ValueError):
+                transform = AppendFeatures(f=f1, indices=[])
+            with self.assertRaises(ValueError):
+                transform = AppendFeatures(f=f1, skip_expand=True)
+            with self.assertRaises(ValueError):
+                transform = AppendFeatures(feature_set=None, f=None)
+            with self.assertRaises(ValueError):
+                transform = AppendFeatures(
+                    feature_set=torch.linspace(0, 1, 6)
+                    .view(3, 2)
+                    .to(device=self.device, dtype=dtype),
+                    f=f1,
+                )
+
+            # test functionality with n_f = 1
+            X = torch.rand(1, 3, **tkwargs)
+            transform = AppendFeatures(
+                f=f1,
+                transform_on_eval=True,
+                transform_on_train=True,
+                transform_on_fantasize=True,
+            )
+            X_transformed = transform(X)
+            self.assertEqual(X_transformed.shape, torch.Size((1, 4)))
+            self.assertTrue(torch.allclose(X.sum(dim=-1), X_transformed[..., -1]))
+
+            X = torch.rand(10, 3, **tkwargs)
+            transform = AppendFeatures(
+                f=f1,
+                transform_on_eval=True,
+                transform_on_train=True,
+                transform_on_fantasize=True,
+            )
+            X_transformed = transform(X)
+            self.assertEqual(X_transformed.shape, torch.Size((10, 4)))
+            self.assertTrue(torch.allclose(X.sum(dim=-1), X_transformed[..., -1]))
+
+            transform = AppendFeatures(
+                f=f1,
+                indices=[0, 1],
+                transform_on_eval=True,
+                transform_on_train=True,
+                transform_on_fantasize=True,
+            )
+            X_transformed = transform(X)
+            self.assertEqual(X_transformed.shape, torch.Size((10, 4)))
+            self.assertTrue(
+                torch.allclose(X[..., [0, 1]].sum(dim=-1), X_transformed[..., -1])
+            )
+
+            transform = AppendFeatures(
+                f=f2,
+                transform_on_eval=True,
+                transform_on_train=True,
+                transform_on_fantasize=True,
+            )
+            X_transformed = transform(X)
+            self.assertEqual(X_transformed.shape, torch.Size((10, 5)))
+
+            X = torch.rand(1, 10, 3).to(**tkwargs)
+            transform = AppendFeatures(
+                f=f1,
+                transform_on_eval=True,
+                transform_on_train=True,
+                transform_on_fantasize=True,
+            )
+            X_transformed = transform(X)
+            self.assertEqual(X_transformed.shape, torch.Size((1, 10, 4)))
+
+            X = torch.rand(1, 1, 3).to(**tkwargs)
+            transform = AppendFeatures(
+                f=f1,
+                transform_on_eval=True,
+                transform_on_train=True,
+                transform_on_fantasize=True,
+            )
+            X_transformed = transform(X)
+            self.assertEqual(X_transformed.shape, torch.Size((1, 1, 4)))
+
+            X = torch.rand(2, 10, 3).to(**tkwargs)
+            transform = AppendFeatures(
+                f=f1,
+                transform_on_eval=True,
+                transform_on_train=True,
+                transform_on_fantasize=True,
+            )
+            X_transformed = transform(X)
+            self.assertEqual(X_transformed.shape, torch.Size((2, 10, 4)))
+
+            transform = AppendFeatures(
+                f=f2,
+                transform_on_eval=True,
+                transform_on_train=True,
+                transform_on_fantasize=True,
+            )
+            X_transformed = transform(X)
+            self.assertEqual(X_transformed.shape, torch.Size((2, 10, 5)))
+            self.assertTrue(torch.allclose(X[..., -2:], X_transformed[..., -2:]))
+
+            # test functionality with n_f > 1
+            X = torch.rand(10, 3, **tkwargs)
+            transform = AppendFeatures(
+                f=f1,
+                fkwargs={"n_f": 2},
+                transform_on_eval=True,
+                transform_on_train=True,
+                transform_on_fantasize=True,
+            )
+            X_transformed = transform(X)
+            self.assertEqual(X_transformed.shape, torch.Size((20, 4)))
+
+            X = torch.rand(2, 10, 3, **tkwargs)
+            transform = AppendFeatures(
+                f=f1,
+                fkwargs={"n_f": 2},
+                transform_on_eval=True,
+                transform_on_train=True,
+                transform_on_fantasize=True,
+            )
+            X_transformed = transform(X)
+            self.assertEqual(X_transformed.shape, torch.Size((2, 20, 4)))
+
+            X = torch.rand(1, 10, 3, **tkwargs)
+            transform = AppendFeatures(
+                f=f1,
+                fkwargs={"n_f": 2},
+                transform_on_eval=True,
+                transform_on_train=True,
+                transform_on_fantasize=True,
+            )
+            X_transformed = transform(X)
+            self.assertEqual(X_transformed.shape, torch.Size((1, 20, 4)))
+
+            X = torch.rand(1, 3, **tkwargs)
+            transform = AppendFeatures(
+                f=f1,
+                fkwargs={"n_f": 2},
+                transform_on_eval=True,
+                transform_on_train=True,
+                transform_on_fantasize=True,
+            )
+            X_transformed = transform(X)
+            self.assertEqual(X_transformed.shape, torch.Size((2, 4)))
+
+            X = torch.rand(10, 3, **tkwargs)
+            transform = AppendFeatures(
+                f=f2,
+                fkwargs={"n_f": 2},
+                transform_on_eval=True,
+                transform_on_train=True,
+                transform_on_fantasize=True,
+            )
+            X_transformed = transform(X)
+            self.assertEqual(X_transformed.shape, torch.Size((20, 5)))
+
+            X = torch.rand(2, 10, 3, **tkwargs)
+            transform = AppendFeatures(
+                f=f2,
+                fkwargs={"n_f": 2},
+                transform_on_eval=True,
+                transform_on_train=True,
+                transform_on_fantasize=True,
+            )
+            X_transformed = transform(X)
+            self.assertEqual(X_transformed.shape, torch.Size((2, 20, 5)))
+
+            X = torch.rand(1, 10, 3, **tkwargs)
+            transform = AppendFeatures(
+                f=f2,
+                fkwargs={"n_f": 2},
+                transform_on_eval=True,
+                transform_on_train=True,
+                transform_on_fantasize=True,
+            )
+            X_transformed = transform(X)
+            self.assertEqual(X_transformed.shape, torch.Size((1, 20, 5)))
+
+            X = torch.rand(1, 3, **tkwargs)
+            transform = AppendFeatures(
+                f=f2,
+                fkwargs={"n_f": 2},
+                transform_on_eval=True,
+                transform_on_train=True,
+                transform_on_fantasize=True,
+            )
+            X_transformed = transform(X)
+            self.assertEqual(X_transformed.shape, torch.Size((2, 5)))
+
+            # test no transform on train
+            X = torch.rand(10, 3).to(**tkwargs)
+            transform = AppendFeatures(
+                f=f1, transform_on_train=False, transform_on_eval=True
+            )
+            transform.train()
+            X_transformed = transform(X)
+            self.assertTrue(torch.equal(X, X_transformed))
+            transform.eval()
+            X_transformed = transform(X)
+            self.assertEqual(X_transformed.shape, torch.Size((10, 4)))
+
+            # test not transform on eval
+            X = torch.rand(10, 3).to(**tkwargs)
+            transform = AppendFeatures(
+                f=f1, transform_on_eval=False, transform_on_train=True
+            )
+            transform.eval()
+            X_transformed = transform(X)
+            self.assertTrue(torch.equal(X, X_transformed))
+            transform.train()
+            X_transformed = transform(X)
+            self.assertEqual(X_transformed.shape, torch.Size((10, 4)))
+
 
 class TestFilterFeatures(BotorchTestCase):
     def test_filter_features(self):