WinVector
diff --git a/‎build/lib/data_algebra/data_ops.py‎
Lines changed: 77 additions & 42 deletions b/‎build/lib/data_algebra/data_ops.py‎
Lines changed: 77 additions & 42 deletions
diff --git a/‎build/lib/data_algebra/expr_rep.py‎
Lines changed: 23 additions & 1 deletion b/‎build/lib/data_algebra/expr_rep.py‎
Lines changed: 23 additions & 1 deletion
diff --git a/‎coverage.txt‎
Lines changed: 22 additions & 22 deletions b/‎coverage.txt‎
Lines changed: 22 additions & 22 deletions
@@ -13,7 +13,6 @@
 import data_algebra.env
 from data_algebra.data_ops_types import *
 
-
 _have_black = False
 try:
     # noinspection PyUnresolvedReferences
@@ -23,7 +22,6 @@
 except ImportError:
     pass
 
-
 _have_sqlparse = False
 try:
     # noinspection PyUnresolvedReferences
@@ -333,6 +331,24 @@ def extend(
     ):
         if (ops is None) or (len(ops) < 1):
             return self
+        parsed_ops = data_algebra.expr_rep.parse_assignments_in_context(
+            ops, self, parse_env=parse_env
+        )
+        new_cols_used_in_calc = set(data_algebra.expr_rep.get_columns_used(parsed_ops))
+        if partition_by is None:
+            partition_by = []
+        if order_by is None:
+            order_by = []
+        if reverse is None:
+            reverse = []
+        new_cols_produced_in_calc = set([k for k in parsed_ops.keys()])
+        if (partition_by != 1) and (len(partition_by) > 0):
+            if len(new_cols_produced_in_calc.intersection(partition_by)) > 0:
+                raise ValueError("must not change partition_by columns")
+        if len(new_cols_produced_in_calc.intersection(order_by)) > 0:
+            raise ValueError("must not change partition_by columns")
+        if len(set(reverse).difference(order_by)) > 0:
+            raise ValueError("all columns in reverse must be in order_by")
         if self.is_trivial_when_intermediate():
             return self.sources[0].extend(
                 ops,
@@ -341,13 +357,53 @@ def extend(
                 reverse=reverse,
                 parse_env=parse_env,
             )
+        if isinstance(self, ExtendNode):
+            compatible_partition = (partition_by == self.partition_by) or (
+                ((partition_by == 1) or (len(partition_by) <= 0))
+                and ((self.partition_by == 1) or (len(self.partition_by) <= 0))
+            )
+            same_windowing = (
+                data_algebra.expr_rep.implies_windowed(parsed_ops)
+                == self.windowed_situation
+            )
+            if (
+                compatible_partition
+                and same_windowing
+                and (order_by == self.order_by)
+                and (reverse == self.reverse)
+                and (
+                    len(new_cols_used_in_calc.intersection(self.cols_produced_in_calc))
+                    == 0
+                )
+                and (
+                    len(
+                        new_cols_produced_in_calc.intersection(
+                            self.cols_produced_in_calc
+                        )
+                    )
+                    == 0
+                )
+                and (
+                    len(new_cols_produced_in_calc.intersection(self.cols_used_in_calc))
+                    == 0
+                )
+            ):
+                # merge the extends
+                new_ops = self.ops.copy()
+                new_ops.update(parsed_ops)
+                return ExtendNode(
+                    source=self.sources[0],
+                    parsed_ops=new_ops,
+                    partition_by=partition_by,
+                    order_by=order_by,
+                    reverse=reverse,
+                )
         return ExtendNode(
             source=self,
-            ops=ops,
+            parsed_ops=parsed_ops,
             partition_by=partition_by,
             order_by=order_by,
             reverse=reverse,
-            parse_env=parse_env,
         )
 
     def project(self, ops=None, *, group_by=None, parse_env=None):
@@ -357,7 +413,10 @@ def project(self, ops=None, *, group_by=None, parse_env=None):
             raise ValueError("must have ops or group_by")
         if self.is_trivial_when_intermediate():
             return self.sources[0].project(ops, group_by=group_by, parse_env=parse_env)
-        return ProjectNode(source=self, ops=ops, group_by=group_by, parse_env=parse_env)
+        parsed_ops = data_algebra.expr_rep.parse_assignments_in_context(
+            ops, self, parse_env=parse_env
+        )
+        return ProjectNode(source=self, parsed_ops=parsed_ops, group_by=group_by)
 
     def natural_join(self, b, *, by=None, jointype="INNER"):
         if not isinstance(b, ViewRepresentation):
@@ -793,31 +852,12 @@ def wrap(d, *, table_name="data_frame"):
 
 class ExtendNode(ViewRepresentation):
     def __init__(
-        self,
-        source,
-        ops,
-        *,
-        partition_by=None,
-        order_by=None,
-        reverse=None,
-        parse_env=None
+        self, *, source, parsed_ops, partition_by=None, order_by=None, reverse=None,
     ):
-        windowed_situation = False
-        if ops is None:
-            ops = {}
-        ops = data_algebra.expr_rep.parse_assignments_in_context(
-            ops, source, parse_env=parse_env
-        )
-        if len(ops) < 1:
-            raise ValueError("no ops")
-        for (k, opk) in ops.items():  # look for aggregation functions
-            if isinstance(opk, data_algebra.expr_rep.Expression):
-                if (
-                    opk.op
-                    in data_algebra.expr_rep.fn_names_that_imply_windowed_situation
-                ):
-                    windowed_situation = True
-        self.ops = ops
+        windowed_situation = data_algebra.expr_rep.implies_windowed(parsed_ops)
+        self.ops = parsed_ops
+        self.cols_used_in_calc = data_algebra.expr_rep.get_columns_used(parsed_ops)
+        self.cols_produced_in_calc = [k for k in parsed_ops.keys()]
         if partition_by is None:
             partition_by = []
         if isinstance(partition_by, numbers.Number):
@@ -843,13 +883,13 @@ def __init__(
         self.reverse = reverse
         column_names = source.column_names.copy()
         consumed_cols = set()
-        for (k, o) in ops.items():
+        for (k, o) in parsed_ops.items():
             o.get_column_names(consumed_cols)
         unknown_cols = consumed_cols - source.column_set
         if len(unknown_cols) > 0:
             raise KeyError("referred to unknown columns: " + str(unknown_cols))
         known_cols = set(column_names)
-        for ci in ops.keys():
+        for ci in parsed_ops.keys():
             if ci not in known_cols:
                 column_names.append(ci)
         if len(partition_by) != len(set(partition_by)):
@@ -867,14 +907,14 @@ def __init__(
         unknown = set(reverse) - set(order_by)
         if len(unknown) > 0:
             raise ValueError("reverse columns not in order_by: " + str(unknown))
-        bad_overwrite = set(ops.keys()).intersection(
+        bad_overwrite = set(parsed_ops.keys()).intersection(
             set(partition_by).union(order_by, reverse)
         )
         if len(bad_overwrite) > 0:
             raise ValueError("tried to change: " + str(bad_overwrite))
         # check op arguments are very simple: all arguments are column names
         if windowed_situation:
-            for (k, opk) in ops.items():
+            for (k, opk) in parsed_ops.items():
                 if not isinstance(opk, data_algebra.expr_rep.Expression):
                     raise ValueError(
                         "non-aggregated expression in windowed/partitoned extend: "
@@ -991,13 +1031,8 @@ def eval_implementation(self, *, data_map, eval_env, data_model):
 
 
 class ProjectNode(ViewRepresentation):
-    def __init__(self, source, ops=None, *, group_by=None, parse_env=None):
-        if ops is None:
-            ops = {}
-        ops = data_algebra.expr_rep.parse_assignments_in_context(
-            ops, source, parse_env=parse_env
-        )
-        self.ops = ops
+    def __init__(self, *, source, parsed_ops, group_by=None):
+        self.ops = parsed_ops
         if group_by is None:
             group_by = []
         if isinstance(group_by, str):
@@ -1007,13 +1042,13 @@ def __init__(self, source, ops=None, *, group_by=None, parse_env=None):
         consumed_cols = set()
         for c in group_by:
             consumed_cols.add(c)
-        for (k, o) in ops.items():
+        for (k, o) in parsed_ops.items():
             o.get_column_names(consumed_cols)
         unknown_cols = consumed_cols - source.column_set
         if len(unknown_cols) > 0:
             raise KeyError("referred to unknown columns: " + str(unknown_cols))
         known_cols = set(column_names)
-        for ci in ops.keys():
+        for ci in parsed_ops.keys():
             if ci not in known_cols:
                 column_names.append(ci)
         if len(group_by) != len(set(group_by)):
 
@@ -4,7 +4,6 @@
 import data_algebra.util
 import data_algebra.env
 
-
 # for some ideas in capturing expressions in Python see:
 #  scipy
 # pipe-like idea
@@ -1104,3 +1103,26 @@ def standardize_join_type(join_str):
     except KeyError:
         pass
     return join_str
+
+
+def get_columns_used(parsed_exprs):
+    if not isinstance(parsed_exprs, dict):
+        raise TypeError(
+            "expected parsed_exprs to be a dictionary of data_algebra.expr_rep.Term(s)"
+        )
+    columns_seen = set()
+    for node in parsed_exprs.values():
+        node.get_column_names(columns_seen)
+    return columns_seen
+
+
+def implies_windowed(parsed_exprs):
+    if not isinstance(parsed_exprs, dict):
+        raise TypeError(
+            "expected parsed_exprs to be a dictionary of data_algebra.expr_rep.Term(s)"
+        )
+    for opk in parsed_exprs.values():  # look for aggregation functions
+        if isinstance(opk, data_algebra.expr_rep.Expression):
+            if opk.op in data_algebra.expr_rep.fn_names_that_imply_windowed_situation:
+                return True
+    return False
@@ -2,45 +2,45 @@
 platform darwin -- Python 3.6.9, pytest-5.2.2, py-1.8.0, pluggy-0.13.0
 rootdir: /Users/johnmount/Documents/work/data_algebra
 plugins: cov-2.8.1
-collected 73 items
+collected 74 items
 
 tests/test_R_yaml.py .                                                   [  1%]
 tests/test_apply.py .                                                    [  2%]
 tests/test_arrow1.py .                                                   [  4%]
 tests/test_calc_warnings_errors.py .                                     [  5%]
 tests/test_cc.py ......                                                  [ 13%]
-tests/test_cdata1.py .                                                   [ 15%]
+tests/test_cdata1.py .                                                   [ 14%]
 tests/test_cdata_example.py ....                                         [ 20%]
 tests/test_cols_used.py .                                                [ 21%]
-tests/test_concat_rows.py .                                              [ 23%]
+tests/test_concat_rows.py .                                              [ 22%]
 tests/test_degenerate_project.py .                                       [ 24%]
-tests/test_drop_columns.py .                                             [ 26%]
+tests/test_drop_columns.py .                                             [ 25%]
 tests/test_exampe1.py ....                                               [ 31%]
 tests/test_example_data_ops.py .                                         [ 32%]
-tests/test_exp.py .                                                      [ 34%]
+tests/test_exp.py .                                                      [ 33%]
 tests/test_export_neg.py .                                               [ 35%]
 tests/test_expr_parse.py .                                               [ 36%]
-tests/test_extend.py ...                                                 [ 41%]
-tests/test_flow_text.py .                                                [ 42%]
-tests/test_free_expr.py .                                                [ 43%]
+tests/test_extend.py ....                                                [ 41%]
+tests/test_flow_text.py .                                                [ 43%]
+tests/test_free_expr.py .                                                [ 44%]
 tests/test_ghost_col_issue.py .                                          [ 45%]
-tests/test_if_else.py .                                                  [ 46%]
-tests/test_join_check.py .                                               [ 47%]
-tests/test_join_effects.py ..                                            [ 50%]
+tests/test_if_else.py .                                                  [ 47%]
+tests/test_join_check.py .                                               [ 48%]
+tests/test_join_effects.py ..                                            [ 51%]
 tests/test_math.py .                                                     [ 52%]
-tests/test_natural_join.py .                                             [ 53%]
-tests/test_neg.py .                                                      [ 54%]
+tests/test_natural_join.py .                                             [ 54%]
+tests/test_neg.py .                                                      [ 55%]
 tests/test_null_bad.py .                                                 [ 56%]
-tests/test_parse.py .                                                    [ 57%]
+tests/test_parse.py .                                                    [ 58%]
 tests/test_project.py .....                                              [ 64%]
-tests/test_scatter_example.py .                                          [ 65%]
+tests/test_scatter_example.py .                                          [ 66%]
 tests/test_scoring_example.py .                                          [ 67%]
 tests/test_select_stacking.py .                                          [ 68%]
-tests/test_shorten.py .                                                  [ 69%]
-tests/test_simple.py .....                                               [ 76%]
+tests/test_shorten.py .                                                  [ 70%]
+tests/test_simple.py .....                                               [ 77%]
 tests/test_spark_sql.py .                                                [ 78%]
 tests/test_sqlite.py .                                                   [ 79%]
-tests/test_strat_example.py .                                            [ 80%]
+tests/test_strat_example.py .                                            [ 81%]
 tests/test_table_is_key_by_columns.py .                                  [ 82%]
 tests/test_transform_examples.py ...........                             [ 97%]
 tests/test_window2.py .                                                  [ 98%]
@@ -58,20 +58,20 @@ data_algebra/cdata.py                    232     75    68%
 data_algebra/cdata_impl.py                10      1    90%
 data_algebra/connected_components.py      49      1    98%
 data_algebra/data_model.py                29     13    55%
-data_algebra/data_ops.py                1230    236    81%
+data_algebra/data_ops.py                1244    240    81%
 data_algebra/data_ops_types.py            42     16    62%
 data_algebra/db_model.py                 389     72    81%
 data_algebra/diagram.py                   56     43    23%
 data_algebra/env.py                       31      3    90%
 data_algebra/expr.py                      20      4    80%
-data_algebra/expr_rep.py                 638    209    67%
+data_algebra/expr_rep.py                 653    210    68%
 data_algebra/flow_text.py                 17      0   100%
 data_algebra/pandas_model.py             182     20    89%
 data_algebra/test_util.py                119     17    86%
 data_algebra/util.py                      44     10    77%
 data_algebra/yaml.py                     101     13    87%
 ----------------------------------------------------------
-TOTAL                                   3464    795    77%
+TOTAL                                   3493    800    77%
 
 
-============================== 73 passed in 7.55s ==============================
+============================== 74 passed in 6.94s ==============================