Merge pull request #157 from bkemper24/main

bkemper24 · web-flow · commit 286c9d31e8d0 · 2023-04-14T08:10:13.000-04:00
cleanup deprecation warnings
diff --git a/swat/cas/connection.py b/swat/cas/connection.py
@@ -36,6 +36,7 @@
 import six
 import warnings
 import weakref
+import pandas as pd
 from six.moves.urllib.parse import urlparse, urlencode, urljoin
 from . import rest
 from .. import clib
@@ -63,6 +64,9 @@
 RETRY_ACTION_CODE = 0x280034
 SESSION_ABORTED_CODE = 0x2D51AC
 
+pd_version = tuple([int(x) for x in re.match(r'^(\d+)\.(\d+)\.(\d+)',
+                                             pd.__version__).groups()])
+
 
 def _option_handler(key, value):
     ''' Handle option changes '''
@@ -282,8 +286,8 @@ def _get_connection_info(cls, hostname, port, username, password, protocol, path
         port = port or cf.get_option('cas.port')
 
         logger.debug('Connection info: hostname=%s port=%s protocol=%s '
-                     'username=%s password=%s path=%s',
-                     hostname, port, protocol, username, password, path)
+                     'username=%s path=%s',
+                     hostname, port, protocol, username, path)
 
         # Always make hostname a list
         if not isinstance(hostname, items_types):
@@ -1480,7 +1484,12 @@ def _extract_dtypes(self, df):
         '''
         out = collections.OrderedDict()
 
-        for key, value in df.dtypes.iteritems():
+        # iteritems is deprecated in pandas 1.5.0, use items instead;
+        # items available in 0.21.1
+        dtype_iter = (df.dtypes.items() if pd_version >= (0, 21, 1)
+                      else df.dtypes.iteritems())
+
+        for key, value in dtype_iter:
             value = value.name
 
             if value == 'object':
@@ -1647,11 +1656,21 @@ def upload(self, data, importoptions=None, casout=None, date_format=None, **kwar
                 delete = True
                 filename = tmp.name
                 name = os.path.splitext(os.path.basename(filename))[0]
-                data.to_csv(filename, encoding='utf-8',
-                            index=False, sep=a2n(',', 'utf-8'),
-                            decimal=a2n('.', 'utf-8'),
-                            date_format=a2n(date_format, 'utf-8'),
-                            line_terminator=a2n('\r\n', 'utf-8'))
+
+                # line_terminator changed to lineterminator in pandas 1.5.0
+                if pd_version >= (1, 5, 0):
+                    data.to_csv(filename, encoding='utf-8',
+                                index=False, sep=a2n(',', 'utf-8'),
+                                decimal=a2n('.', 'utf-8'),
+                                date_format=a2n(date_format, 'utf-8'),
+                                lineterminator=a2n('\r\n', 'utf-8'))
+                else:
+                    data.to_csv(filename, encoding='utf-8',
+                                index=False, sep=a2n(',', 'utf-8'),
+                                decimal=a2n('.', 'utf-8'),
+                                date_format=a2n(date_format, 'utf-8'),
+                                line_terminator=a2n('\r\n', 'utf-8'))
+
                 df_dtypes = self._extract_dtypes(data)
                 importoptions['locale'] = 'EN-us'
 
diff --git a/swat/cas/results.py b/swat/cas/results.py
@@ -90,11 +90,12 @@ def _repr_html_(self):
         try:
             import IPython
             from pandas.io.formats import console
-            from distutils.version import LooseVersion
+            import packaging.version
         except ImportError:
             pass
         else:
-            if LooseVersion(IPython.__version__) < LooseVersion('3.0'):
+            if (packaging.version.parse(IPython.__version__)
+                    < packaging.version.parse('3.0')):
                 if console.in_qtconsole():
                     # 'HTML output is disabled in QtConsole'
                     return None
diff --git a/swat/cas/table.py b/swat/cas/table.py
@@ -295,7 +295,7 @@ def merge(left, right, how='inner', on=None, left_on=None, right_on=None,
         The key from `left` to join on.  This is used if the
         column names to join on are different in each table.
     right_on : string, optional
-        The key from `right` to join on.  This s used if the
+        The key from `right` to join on.  This is used if the
         column names to join on are different in each table.
     left_index : boolean, optional
         Not supported.
@@ -337,11 +337,17 @@ def merge(left, right, how='inner', on=None, left_on=None, right_on=None,
     if on is None and left_on is None and right_on is None:
         raise SWATError('A column name is required for joining tables.')
     elif left_on is None and right_on is None:
+        if not isinstance(on, str):
+            raise TypeError('`on` parameter must be a string')
         left_on = on
         right_on = on
     elif left_on is None and right_on is not None:
+        if not isinstance(right_on, str):
+            raise TypeError('`right_on` parameter must be a string')
         left_on = right_on or on
     elif left_on is not None and right_on is None:
+        if not isinstance(left_on, str):
+            raise TypeError('`left_on` parameter must be a string')
         right_on = left_on or on
 
     # Find overlapping columns
@@ -3506,7 +3512,13 @@ def abs(self):
         '''
         tbl = self._materialize(prefix='_ABS')
         code = []
-        for name, dtype in tbl.dtypes.iteritems():
+
+        # iteritems is deprecated in pandas 1.5.0, use items instead;
+        # items available in 0.21.1
+        dtype_iter = (tbl.dtypes.items() if pd_version >= (0, 21, 1)
+                      else tbl.dtypes.iteritems())
+
+        for name, dtype in dtype_iter:
             if dtype not in ['char', 'varchar', 'binary', 'varbinary',
                              'date', 'time', 'datetime']:
                 code.append('    %s = ABS(%s);' % (_nlit(name), _nlit(name)))
@@ -3524,7 +3536,13 @@ def _bool(self):
         cvars = []
         ccode = []
         groups = self.get_groupby_vars()
-        for name, dtype in self.dtypes.iteritems():
+
+        # iteritems is deprecated in pandas 1.5.0, use items instead;
+        # items available in 0.21.1
+        dtype_iter = (self.dtypes.items() if pd_version >= (0, 21, 1)
+                      else self.dtypes.iteritems())
+
+        for name, dtype in dtype_iter:
             if name in groups:
                 continue
             boolname = _nlit('%s__bool__' % name)
@@ -3665,7 +3683,12 @@ def clip(self, lower=None, upper=None, axis=None):
 
         tbl = self._materialize(prefix='_CLIP')
         code = []
-        for name, dtype in tbl.dtypes.iteritems():
+
+        # iteritems is deprecated in 1.5.0, use items instead;
+        dtype_iter = (tbl.dtypes.items() if pd_version >= (0, 21, 1)
+                      else tbl.dtypes.iteritems())
+
+        for name, dtype in dtype_iter:
             if dtype not in ['char', 'varchar', 'binary', 'varbinary',
                              'date', 'time', 'datetime']:
                 code.append(fmt % (_nlit(name), _nlit(name), _nlit(name)))
@@ -3857,7 +3880,7 @@ def _percentiles(self, percentiles=None, format_labels=True):
         out = out.unstack()
 
         if len(out.index.names) > 1:
-            if pd_version >= (1, 0, 0):
+            if pd_version >= (0, 24, 0):
                 out = out.set_index(pd.MultiIndex(levels=out.index.levels,
                                                   codes=out.index.codes,
                                                   names=out.index.names[:-1] + [None]))
@@ -6212,8 +6235,11 @@ def to_re_sub(patt, to):
             # Cache column list
             if col is None and columns is None:
                 dtypes = self.dtypes
-                columns = [x[0] for x in dtypes.iteritems()]
-                dtypes = [x[1] for x in dtypes.iteritems()]
+                # iteritems is deprecated in pandas 1.5.0, use items instead;
+                columns = [x[0] for x in (dtypes.items()
+                           if pd_version >= (0, 21, 1) else dtypes.iteritems())]
+                dtypes = [x[1] for x in (dtypes.items()
+                          if pd_version >= (0, 21, 1) else dtypes.iteritems())]
 
             # Apply replacements for each column
             for from_, to in repl_dict.items():
@@ -10187,7 +10213,8 @@ def value_counts(self, normalize=False, sort=True, ascending=False,
             groups = self.get_groupby_vars()
             if groups:
                 out.name = tmpname
-                sum = out.sum(level=list(range(len(out.index.names) - 1))).to_frame()
+                sum = out.groupby(level=list(range(len(out.index.names) - 1))).\
+                    sum().to_frame()
                 out = out.reset_index(level=-1)
                 out = pd.merge(out, sum, left_index=True, right_index=True, how='inner')
                 out[tmpname] = out[tmpname + '_x'] / out[tmpname + '_y']
diff --git a/swat/tests/cas/test_bygroups.py b/swat/tests/cas/test_bygroups.py
@@ -818,11 +818,17 @@ def test_mean(self):
         df = self.get_cars_df().sort_values(SORT_KEYS)
         tbl = self.table.sort_values(SORT_KEYS)
 
-        dfgrp = df.groupby('Origin').mean()
+        if pd_version >= (1, 1, 0):
+            dfgrp = df.groupby('Origin').mean(numeric_only=True)
+        else:
+            dfgrp = df.groupby('Origin').mean()
         tblgrp = tbl.groupby('Origin').mean()
         self.assertTablesEqual(dfgrp, tblgrp, sortby=None, include_index=True, decimals=5)
 
-        dfgrp = df.groupby('Origin', as_index=False).mean()
+        if pd_version >= (1, 1, 0):
+            dfgrp = df.groupby('Origin', as_index=False).mean(numeric_only=True)
+        else:
+            dfgrp = df.groupby('Origin', as_index=False).mean()
         tblgrp = tbl.groupby('Origin', as_index=False).mean()
         self.assertTablesEqual(dfgrp, tblgrp, sortby=None, decimals=5)
 
@@ -831,7 +837,10 @@ def test_mean(self):
         #
         swat.options.cas.dataset.bygroup_casout_threshold = 2
 
-        dfgrp = df.groupby('Origin', as_index=False).mean()
+        if pd_version >= (1, 1, 0):
+            dfgrp = df.groupby('Origin', as_index=False).mean(numeric_only=True)
+        else:
+            dfgrp = df.groupby('Origin', as_index=False).mean()
         tblgrp = tbl.groupby('Origin', as_index=False).mean()
         self.assertEqual(tblgrp.__class__.__name__, 'CASTable')
         self.assertTablesEqual(dfgrp, tblgrp,
@@ -866,11 +875,17 @@ def test_median(self):
         df = self.get_cars_df().sort_values(SORT_KEYS)
         tbl = self.table.sort_values(SORT_KEYS)
 
-        dfgrp = df.groupby('Origin').median()
+        if pd_version >= (1, 1, 0):
+            dfgrp = df.groupby('Origin').median(numeric_only=True)
+        else:
+            dfgrp = df.groupby('Origin').median()
         tblgrp = tbl.groupby('Origin').median()
         self.assertTablesEqual(dfgrp, tblgrp, sortby=None, include_index=True)
 
-        dfgrp = df.groupby('Origin', as_index=False).median()
+        if pd_version >= (1, 1, 0):
+            dfgrp = df.groupby('Origin', as_index=False).median(numeric_only=True)
+        else:
+            dfgrp = df.groupby('Origin', as_index=False).median()
         tblgrp = tbl.groupby('Origin', as_index=False).median()
         self.assertTablesEqual(dfgrp, tblgrp, sortby=None)
 
@@ -879,7 +894,10 @@ def test_median(self):
         #
         swat.options.cas.dataset.bygroup_casout_threshold = 2
 
-        dfgrp = df.groupby('Origin', as_index=False).median()
+        if pd_version >= (1, 1, 0):
+            dfgrp = df.groupby('Origin', as_index=False).median(numeric_only=True)
+        else:
+            dfgrp = df.groupby('Origin', as_index=False).median()
         tblgrp = tbl.groupby('Origin', as_index=False).median()
         self.assertEqual(tblgrp.__class__.__name__, 'CASTable')
         self.assertTablesEqual(dfgrp, tblgrp, sortby=['Origin'])
@@ -1028,11 +1046,17 @@ def test_sum(self):
         df = self.get_cars_df().sort_values(SORT_KEYS)
         tbl = self.table.sort_values(SORT_KEYS)
 
-        dfgrp = df.groupby('Origin').sum()
+        if pd_version >= (1, 1, 0):
+            dfgrp = df.groupby('Origin').sum(numeric_only=True)
+        else:
+            dfgrp = df.groupby('Origin').sum()
         tblgrp = tbl.groupby('Origin').sum()
         self.assertTablesEqual(dfgrp, tblgrp, sortby=None, decimals=5)
 
-        dfgrp = df.groupby('Origin', as_index=False).sum()
+        if pd_version >= (1, 1, 0):
+            dfgrp = df.groupby('Origin', as_index=False).sum(numeric_only=True)
+        else:
+            dfgrp = df.groupby('Origin', as_index=False).sum()
         tblgrp = tbl.groupby('Origin', as_index=False).sum()
         self.assertTablesEqual(dfgrp, tblgrp, decimals=5, sortby=None)
 
@@ -1041,7 +1065,10 @@ def test_sum(self):
         #
         swat.options.cas.dataset.bygroup_casout_threshold = 2
 
-        dfgrp = df.groupby('Origin', as_index=False).sum()
+        if pd_version >= (1, 1, 0):
+            dfgrp = df.groupby('Origin', as_index=False).sum(numeric_only=True)
+        else:
+            dfgrp = df.groupby('Origin', as_index=False).sum()
         tblgrp = tbl.groupby('Origin', as_index=False).sum()
         self.assertEqual(tblgrp.__class__.__name__, 'CASTable')
         self.assertTablesEqual(dfgrp, tblgrp, decimals=5,
@@ -1076,7 +1103,10 @@ def test_std(self):
         df = self.get_cars_df().sort_values(SORT_KEYS)
         tbl = self.table.sort_values(SORT_KEYS)
 
-        dfgrp = df.groupby('Origin').std()
+        if pd_version >= (1, 5, 0):
+            dfgrp = df.groupby('Origin').std(numeric_only=True)
+        else:
+            dfgrp = df.groupby('Origin').std()
         tblgrp = tbl.groupby('Origin').std()
         self.assertTablesEqual(dfgrp, tblgrp, decimals=5, sortby=None)
 
@@ -1127,11 +1157,17 @@ def test_var(self):
         df = self.get_cars_df().sort_values(SORT_KEYS)
         tbl = self.table.sort_values(SORT_KEYS)
 
-        dfgrp = df.groupby('Origin').var()
+        if pd_version >= (1, 5, 0):
+            dfgrp = df.groupby('Origin').var(numeric_only=True)
+        else:
+            dfgrp = df.groupby('Origin').var()
         tblgrp = tbl.groupby('Origin').var()
         self.assertTablesEqual(dfgrp, tblgrp, decimals=3, sortby=None)
 
-        dfgrp = df.groupby('Origin', as_index=False).var()
+        if pd_version >= (1, 5, 0):
+            dfgrp = df.groupby('Origin', as_index=False).var(numeric_only=True)
+        else:
+            dfgrp = df.groupby('Origin', as_index=False).var()
         tblgrp = tbl.groupby('Origin', as_index=False).var()
         self.assertTablesEqual(dfgrp, tblgrp, decimals=3, sortby=None)
 
@@ -1140,7 +1176,10 @@ def test_var(self):
         #
         swat.options.cas.dataset.bygroup_casout_threshold = 2
 
-        dfgrp = df.groupby('Origin', as_index=False).var()
+        if pd_version >= (1, 5, 0):
+            dfgrp = df.groupby('Origin', as_index=False).var(numeric_only=True)
+        else:
+            dfgrp = df.groupby('Origin', as_index=False).var()
         tblgrp = tbl.groupby('Origin', as_index=False).var()
         self.assertEqual(tblgrp.__class__.__name__, 'CASTable')
         self.assertTablesEqual(dfgrp, tblgrp, decimals=3,
diff --git a/swat/tests/cas/test_table.py b/swat/tests/cas/test_table.py