Fix setuptools issue, reduce dependencies (#33)

aarmey · web-flow · commit 830fa398e6b4 · 2022-01-21T10:17:59.000-08:00
* Fix loading, and remove seaborn

* Other edits

* Linting
diff --git a/poetry.lock b/poetry.lock
diff --git a/pyproject.toml b/pyproject.toml
@@ -1,18 +1,16 @@
 [tool.poetry]
 name = "tensorpack"
-version = "0.0.7"
+version = "0.0.8"
 description = "A collection of tensor methods from the Meyer lab."
 authors = ["Your Name <you@example.com>"]
 license = "MIT"
 
 [tool.poetry.dependencies]
 python = ">=3.9,<3.11"
 numpy = "^1.21"
-scipy = "^1.7"
 tensorly = "^0.7"
-scikit-learn = "^1.0.1"
 matplotlib = "^3.5.0"
-seaborn = "^0.11.2"
+pandas = "^1.3.5"
 
 [tool.poetry.dev-dependencies]
 pytest = "^6.2"
diff --git a/setup.py b/setup.py
@@ -1,7 +1,10 @@
-from setuptools import setup, find_packages
+try:
+    from setuptools import setup, find_packages
+except ImportError:
+    from distutils.core import setup, find_packages
 
 setup(name='tensorpack',
-      version='0.0.2',
+      version='0.0.8',
       description='A collection of tensor methods from the Meyer lab.',
       url='https://github.com/meyer-lab/tensorpack',
       license='MIT',
diff --git a/tensorpack/SVD_impute.py b/tensorpack/SVD_impute.py
@@ -10,8 +10,7 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-from sklearn.decomposition import TruncatedSVD
-from sklearn.utils import check_array
+from tensorly import partial_svd
 import numpy as np
 
 from .soft_impute import Solver
@@ -29,7 +28,6 @@ def __init__(
             rank,
             convergence_threshold=0.00001,
             max_iters=200,
-            svd_algorithm="arpack",
             init_fill_method="zero",
             random_state=None,
             min_value=None,
@@ -42,7 +40,6 @@ def __init__(
             max_value=max_value)
         self.rank = rank
         self.max_iters = max_iters
-        self.svd_algorithm = svd_algorithm
         self.convergence_threshold = convergence_threshold
         self.verbose = verbose
         self.random_state = random_state
@@ -62,15 +59,14 @@ def _converged(self, X_old, X_new, missing_mask):
             return (ssd / old_norm_squared) < self.convergence_threshold
 
     def solve(self, X, missing_mask):
-        X = check_array(X, force_all_finite=False)
+        # X = check_array(X, force_all_finite=False)
 
         observed_mask = ~missing_mask
         X_filled = X
         for i in range(self.max_iters):
             curr_rank = self.rank
-            tsvd = TruncatedSVD(curr_rank, algorithm=self.svd_algorithm, random_state=self.random_state)
-            X_reduced = tsvd.fit_transform(X_filled)
-            X_reconstructed = tsvd.inverse_transform(X_reduced)
+            U, S, V = partial_svd(X_filled, curr_rank, random_state=self.random_state)
+            X_reconstructed = U @ np.diag(S) @ V
             X_reconstructed = self.clip(X_reconstructed)
             mae = masked_mae(
                 X_true=X,
diff --git a/tensorpack/cmtf.py b/tensorpack/cmtf.py
@@ -3,7 +3,7 @@
 """
 
 import numpy as np
-from sklearn.decomposition import TruncatedSVD
+from tensorly import partial_svd
 import tensorly as tl
 from tensorly.tenalg import khatri_rao
 from copy import deepcopy
@@ -200,8 +200,6 @@ def initialize_cp(tensor: np.ndarray, rank: int):
     factors = [np.ones((tensor.shape[i], rank)) for i in range(tensor.ndim)]
     contain_missing = (np.sum(~np.isfinite(tensor)) > 0)
 
-    tsvd = TruncatedSVD(n_components=rank)
-
     # SVD init mode whose size is larger than rank
     for mode in range(tensor.ndim):
         if tensor.shape[mode] >= rank:
@@ -210,7 +208,7 @@ def initialize_cp(tensor: np.ndarray, rank: int):
                 si = SoftImpute(max_rank=rank)
                 unfold = si.fit_transform(unfold)
 
-            factors[mode] = tsvd.fit_transform(unfold)
+            factors[mode] = partial_svd(unfold, rank, flip=True)[0]
 
     return tl.cp_tensor.CPTensor((None, factors))
 
diff --git a/tensorpack/decomposition.py b/tensorpack/decomposition.py
@@ -2,7 +2,7 @@
 import numpy as np
 import pandas as pd
 from numpy.linalg import norm
-from sklearn.decomposition import TruncatedSVD
+from tensorly import partial_svd
 from .cmtf import perform_CP, calcR2X
 
 
@@ -19,9 +19,9 @@ def impute_missing_mat(dat):
 
     diff = 1.0
     while diff > 1e-3:
-        tsvd = TruncatedSVD(n_components=min(dat.shape)-1)
-        scores = tsvd.fit_transform(imp)
-        loadings = tsvd.components_
+        U, S, V = partial_svd(imp, min(dat.shape)-1)
+        scores = U @ np.diag(S)
+        loadings = V
         recon = scores @ loadings
         new_diff = norm(imp[miss_idx] - recon[miss_idx]) / norm(recon[miss_idx])
         assert new_diff < diff, "Matrix imputation difference is not decreasing"
@@ -48,9 +48,9 @@ def perform_PCA(self, flattenon=0):
         if not np.all(np.isfinite(flatData)):
             flatData = impute_missing_mat(flatData)
 
-        tsvd = TruncatedSVD(n_components=max(self.rrs))
-        scores = tsvd.fit_transform(flatData)
-        loadings = tsvd.components_
+        U, S, V = partial_svd(flatData, max(self.rrs))
+        scores = U @ np.diag(S)
+        loadings = V
         recon = [scores[:, :rr] @ loadings[:rr, :] for rr in self.rrs]
         self.PCAR2X = [calcR2X(c, mIn = flatData) for c in recon]
         self.sizePCA = [sum(flatData.shape) * rr for rr in self.rrs]
diff --git a/tensorpack/figureCommon.py b/tensorpack/figureCommon.py
@@ -1,10 +1,7 @@
 """
 This file contains functions that are used in multiple figures.
 """
-import seaborn as sns
-from string import ascii_lowercase
 import matplotlib
-from matplotlib import gridspec, pyplot as plt
 
 
 matplotlib.rcParams["legend.labelspacing"] = 0.2
@@ -19,39 +16,3 @@
 matplotlib.rcParams["legend.markerscale"] = 0.7
 matplotlib.rcParams["legend.borderpad"] = 0.35
 matplotlib.rcParams['font.sans-serif'] = "Arial"
-
-
-def getSetup(figsize, gridd, multz=None, empts=None):
-    """ Establish figure set-up with subplots. """
-    sns.set(style="whitegrid", font_scale=0.7, color_codes=True, palette="colorblind", rc={"grid.linestyle": "dotted", "axes.linewidth": 0.6})
-
-    # create empty list if empts isn't specified
-    if empts is None:
-        empts = []
-
-    if multz is None:
-        multz = dict()
-
-    # Setup plotting space and grid
-    f = plt.figure(figsize=figsize, constrained_layout=True)
-    gs1 = gridspec.GridSpec(*gridd, figure=f)
-
-    # Get list of axis objects
-    x = 0
-    ax = list()
-    while x < gridd[0] * gridd[1]:
-        if x not in empts and x not in multz.keys():  # If this is just a normal subplot
-            ax.append(f.add_subplot(gs1[x]))
-        elif x in multz.keys():  # If this is a subplot that spans grid elements
-            ax.append(f.add_subplot(gs1[x: x + multz[x] + 1]))
-            x += multz[x]
-        x += 1
-
-    return (ax, f)
-
-
-def subplotLabel(axs):
-    """ Place subplot labels on figure. """
-    for ii, ax in enumerate(axs):
-        ax.text(-0.2, 1.2, ascii_lowercase[ii], transform=ax.transAxes, fontsize=16, fontweight="bold", va="top")
-
diff --git a/tensorpack/soft_impute.py b/tensorpack/soft_impute.py
@@ -11,8 +11,7 @@
 # limitations under the License.
 
 import numpy as np
-from sklearn.utils.extmath import randomized_svd
-from sklearn.utils import check_array
+from tensorly import partial_svd
 
 F32PREC = np.finfo(np.float32).eps
 
@@ -73,7 +72,7 @@ def fill(
         inplace : bool
             Modify matrix or fill a copy
         """
-        X = check_array(X, force_all_finite=False)
+        # X = check_array(X, force_all_finite=False)
 
         if not inplace:
             X = X.copy()
@@ -99,7 +98,7 @@ def prepare_input_data(self, X):
         Check to make sure that the input matrix and its mask of missing
         values are valid. Returns X and missing mask.
         """
-        X = check_array(X, force_all_finite=False)
+        # X = check_array(X, force_all_finite=False)
         if X.dtype != "f" and X.dtype != "d":
             X = X.astype(float)
 
@@ -251,11 +250,7 @@ def _svd_step(self, X, shrinkage_value, max_rank=None):
         """
         if max_rank:
             # if we have a max rank then perform the faster randomized SVD
-            (U, s, V) = randomized_svd(
-                X,
-                max_rank,
-                n_iter=self.n_power_iterations,
-                random_state=None)
+            U, s, V = partial_svd(X, max_rank)
         else:
             # perform a full rank SVD using ARPACK
             (U, s, V) = np.linalg.svd(
@@ -273,15 +268,11 @@ def _svd_step(self, X, shrinkage_value, max_rank=None):
 
     def _max_singular_value(self, X_filled):
         # quick decomposition of X_filled into rank-1 SVD
-        _, s, _ = randomized_svd(
-            X_filled,
-            1,
-            n_iter=5,
-            random_state=None)
+        _, s, _ = partial_svd(X_filled, 1)
         return s[0]
 
     def solve(self, X, missing_mask):
-        X = check_array(X, force_all_finite=False)
+        # X = check_array(X, force_all_finite=False)
 
         X_init = X.copy()
 
diff --git a/tensorpack/test/atyeo.py b/tensorpack/test/atyeo.py
@@ -1,10 +1,7 @@
 from os.path import join, dirname
 import numpy as np
 import pandas as pd
-from ..cmtf import perform_CP
-from ..figureCommon import subplotLabel, getSetup
 from ..plot import *
-from ..decomposition import Decomposition
 
 path_here = dirname(dirname(__file__))
 
@@ -58,12 +55,3 @@ def createCube():
     assert ~np.any(np.all(np.isnan(cube), axis=(1, 2)))
 
     return cube 
-
-def sample_figure():
-    ax, f = getSetup((8, 5), (2, 3))
-    atyeo = Decomposition(createCube())
-    atyeo.perform_tfac()
-    atyeo.perform_PCA()
-    tfacr2x(ax[0], atyeo)
-    reduction(ax[1], atyeo)
-    return f