Merge branch 'main' into aling/v4-diamond-join

sfc-gh-aling · web-flow · commit 205f97ef1b58 · 2025-03-04T19:28:28.000-08:00
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -15,6 +15,8 @@
 
 - Fixed a bug where creating a Dataframe with large number of values raised `Unsupported feature 'SCOPED_TEMPORARY'.` error if thread-safe session was disabled.
 - Fixed a bug where `df.describe` raised internal SQL execution error when the dataframe is created from reading a stage file and CTE optimization is enabled.
+- Fixed a bug where `df.order_by(A).select(B).distinct()` would generate invalid SQL when simplified query generation was enabled using `session.conf.set("use_simplified_query_generation", True)`.
+  - Disabled simplified query generation by default.
 
 #### Improvements
 
diff --git a/src/snowflake/snowpark/_internal/analyzer/select_statement.py b/src/snowflake/snowpark/_internal/analyzer/select_statement.py
@@ -1278,6 +1278,9 @@ def distinct(self) -> "SelectStatement":
             # has a limit clause to avoid moving distinct in front of limit.
             and (not self.limit_)
             and (not self.offset)
+            # .order_by(col1).select(col2).distinct() cannot be flattened because
+            # SELECT DISTINCT B FROM TABLE ORDER BY A is not valid SQL
+            and (not (self.order_by and self.projection))
             and not has_data_generator_exp(self.projection)
         )
         if can_be_flattened:
diff --git a/src/snowflake/snowpark/_internal/telemetry.py b/src/snowflake/snowpark/_internal/telemetry.py
@@ -112,6 +112,7 @@ class TelemetryField(Enum):
     "select_expr": 1,
     "drop": 1,
     "agg": 2,
+    "distinct": 2,
     "with_column": 1,
     "with_columns": 1,
     "with_column_renamed": 1,
diff --git a/src/snowflake/snowpark/modin/plugin/_internal/apply_utils.py b/src/snowflake/snowpark/modin/plugin/_internal/apply_utils.py
@@ -40,6 +40,7 @@
 from snowflake.snowpark.modin.plugin._internal.utils import (
     TempObjectType,
     generate_snowflake_quoted_identifiers_helper,
+    get_default_snowpark_pandas_statement_params,
     parse_object_construct_snowflake_quoted_identifier_and_extract_pandas_label,
     parse_snowflake_object_construct_identifier_to_map,
 )
@@ -303,6 +304,7 @@ def end_partition(self, df):  # type: ignore[no-untyped-def] # pragma: no cover
         # We have to use the current pandas version to ensure the behavior consistency
         packages=[native_pd] + packages,
         session=session,
+        statement_params=get_default_snowpark_pandas_statement_params(),
     )
 
     return func_udtf
@@ -683,6 +685,7 @@ def end_partition(self, df: native_pd.DataFrame):  # type: ignore[no-untyped-def
         # behavior is consistent with client-side pandas behavior.
         packages=[native_pd] + list(session.get_packages().values()),
         session=session,
+        statement_params=get_default_snowpark_pandas_statement_params(),
     )
 
 
@@ -947,6 +950,7 @@ def end_partition(self, df: native_pd.DataFrame):  # type: ignore[no-untyped-def
         # behavior is consistent with client-side pandas behavior.
         packages=[native_pd] + list(session.get_packages().values()),
         session=session,
+        statement_params=get_default_snowpark_pandas_statement_params(),
     )
 
 
@@ -1019,6 +1023,7 @@ def apply_func(x):  # type: ignore[no-untyped-def] # pragma: no cover
         strict=bool(na_action == "ignore"),
         session=session,
         packages=packages,
+        statement_params=get_default_snowpark_pandas_statement_params(),
     )
     return func_udf
 
diff --git a/src/snowflake/snowpark/session.py b/src/snowflake/snowpark/session.py
@@ -374,7 +374,7 @@ def __init__(self, session: "Session", conf: Dict[str, Any]) -> None:
                 "use_constant_subquery_alias": True,
                 "flatten_select_after_filter_and_orderby": True,
                 "collect_stacktrace_in_query_tag": False,
-                "use_simplified_query_generation": True,
+                "use_simplified_query_generation": False,
             }  # For config that's temporary/to be removed soon
             self._lock = self._session._lock
             for key, val in conf.items():
diff --git a/tests/integ/scala/test_snowflake_plan_suite.py b/tests/integ/scala/test_snowflake_plan_suite.py
@@ -210,7 +210,7 @@ def test_plan_height(session, temp_table, sql_simplifier_enabled):
 
     aggregate1 = df3.distinct()
     if sql_simplifier_enabled:
-        assert aggregate1._plan.plan_state[PlanState.PLAN_HEIGHT] == 2
+        assert aggregate1._plan.plan_state[PlanState.PLAN_HEIGHT] == 4
     else:
         assert aggregate1._plan.plan_state[PlanState.PLAN_HEIGHT] == 3
 
diff --git a/tests/integ/test_simplifier_suite.py b/tests/integ/test_simplifier_suite.py
@@ -140,44 +140,49 @@ def test_set_same_operator(session, set_operator):
     ],
 )
 def test_distinct_set_operator(session, distinct_table, action, operator):
-    df1 = session.table(distinct_table)
-    df2 = session.table(distinct_table)
+    try:
+        original = session.conf.get("use_simplified_query_generation")
+        session.conf.set("use_simplified_query_generation", True)
+        df1 = session.table(distinct_table)
+        df2 = session.table(distinct_table)
 
-    df = action(df1, df2.distinct())
-    assert (
-        df.queries["queries"][0]
-        == f"""( SELECT  *  FROM {distinct_table}){operator}( SELECT  DISTINCT  *  FROM {distinct_table})"""
-    )
+        df = action(df1, df2.distinct())
+        assert (
+            df.queries["queries"][0]
+            == f"""( SELECT  *  FROM {distinct_table}){operator}( SELECT  DISTINCT  *  FROM {distinct_table})"""
+        )
 
-    df = action(df1.distinct(), df2)
-    assert (
-        df.queries["queries"][0]
-        == f"""( SELECT  DISTINCT  *  FROM {distinct_table}){operator}( SELECT  *  FROM {distinct_table})"""
-    )
+        df = action(df1.distinct(), df2)
+        assert (
+            df.queries["queries"][0]
+            == f"""( SELECT  DISTINCT  *  FROM {distinct_table}){operator}( SELECT  *  FROM {distinct_table})"""
+        )
 
-    df = action(df1, df2).distinct()
-    assert (
-        df.queries["queries"][0]
-        == f"""SELECT  DISTINCT  *  FROM (( SELECT  *  FROM {distinct_table}){operator}( SELECT  *  FROM {distinct_table}))"""
-    )
+        df = action(df1, df2).distinct()
+        assert (
+            df.queries["queries"][0]
+            == f"""SELECT  DISTINCT  *  FROM (( SELECT  *  FROM {distinct_table}){operator}( SELECT  *  FROM {distinct_table}))"""
+        )
 
-    df = action(df1, df2.distinct()).distinct()
-    assert (
-        df.queries["queries"][0]
-        == f"""SELECT  DISTINCT  *  FROM (( SELECT  *  FROM {distinct_table}){operator}( SELECT  DISTINCT  *  FROM {distinct_table}))"""
-    )
+        df = action(df1, df2.distinct()).distinct()
+        assert (
+            df.queries["queries"][0]
+            == f"""SELECT  DISTINCT  *  FROM (( SELECT  *  FROM {distinct_table}){operator}( SELECT  DISTINCT  *  FROM {distinct_table}))"""
+        )
 
-    df = action(df1.distinct(), df2).distinct()
-    assert (
-        df.queries["queries"][0]
-        == f"""SELECT  DISTINCT  *  FROM (( SELECT  DISTINCT  *  FROM {distinct_table}){operator}( SELECT  *  FROM {distinct_table}))"""
-    )
+        df = action(df1.distinct(), df2).distinct()
+        assert (
+            df.queries["queries"][0]
+            == f"""SELECT  DISTINCT  *  FROM (( SELECT  DISTINCT  *  FROM {distinct_table}){operator}( SELECT  *  FROM {distinct_table}))"""
+        )
 
-    df = action(df1.distinct(), df2.distinct()).distinct()
-    assert (
-        df.queries["queries"][0]
-        == f"""SELECT  DISTINCT  *  FROM (( SELECT  DISTINCT  *  FROM {distinct_table}){operator}( SELECT  DISTINCT  *  FROM {distinct_table}))"""
-    )
+        df = action(df1.distinct(), df2.distinct()).distinct()
+        assert (
+            df.queries["queries"][0]
+            == f"""SELECT  DISTINCT  *  FROM (( SELECT  DISTINCT  *  FROM {distinct_table}){operator}( SELECT  DISTINCT  *  FROM {distinct_table}))"""
+        )
+    finally:
+        session.conf.set("use_simplified_query_generation", original)
 
 
 @pytest.mark.parametrize("set_operator", [SET_UNION_ALL, SET_EXCEPT, SET_INTERSECT])
@@ -1486,19 +1491,58 @@ def test_select_limit_orderby(session):
             [Row(1, "c"), Row(3, "b"), Row(3, "c"), Row(5, "a")],
             False,
         ),
+        (
+            lambda df: df.sort(col("a"), col("b")).distinct(),
+            lambda table: f"""SELECT  DISTINCT  *  FROM {table} ORDER BY "A" ASC NULLS FIRST, "B" ASC NULLS FIRST""",
+            [Row(1, "c"), Row(3, "b"), Row(3, "c"), Row(5, "a")],
+            True,
+        ),
         (
             lambda df: df.select("a", "b").sort(col("a"), col("b")).distinct(),
-            lambda table: f"""SELECT  DISTINCT "A", "B" FROM {table} ORDER BY "A" ASC NULLS FIRST, "B" ASC NULLS FIRST""",
+            lambda table: f"""SELECT  DISTINCT  *  FROM ( SELECT "A", "B" FROM {table} ORDER BY "A" ASC NULLS FIRST, "B" ASC NULLS FIRST)""",
             [Row(1, "c"), Row(3, "b"), Row(3, "c"), Row(5, "a")],
             True,
         ),
+        # df.sort(A).select(B).distinct()
+        (
+            lambda df: df.sort(col("a")).select("b").distinct(),
+            lambda table: f"""SELECT  DISTINCT  *  FROM ( SELECT "B" FROM {table} ORDER BY "A" ASC NULLS FIRST)""",
+            [Row("a"), Row("b"), Row("c")],
+            True,
+        ),
+        # df.sort(A).distinct().select(B)
+        (
+            lambda df: df.sort(col("a")).distinct().select("b"),
+            lambda table: f"""SELECT "B" FROM ( SELECT  DISTINCT  *  FROM {table} ORDER BY "A" ASC NULLS FIRST)""",
+            [Row("a"), Row("b"), Row("c"), Row("c")],
+            True,
+        ),
+        # df.filter(A).select(B).distinct()
+        (
+            lambda df: df.filter(col("a") > 1).select("b").distinct(),
+            lambda table: f"""SELECT  DISTINCT "B" FROM {table} WHERE ("A" > 1)""",
+            [Row("a"), Row("b"), Row("c")],
+            True,
+        ),
+        # df.filter(A).distinct().select(B)
+        (
+            lambda df: df.filter(col("a") > 1).distinct().select("b"),
+            lambda table: f"""SELECT "B" FROM ( SELECT  DISTINCT  *  FROM {table} WHERE ("A" > 1))""",
+            [Row("a"), Row("b"), Row("c")],
+            True,
+        ),
     ],
 )
 def test_select_distinct(
     session, distinct_table, operation, expected_query, expected_result, sort_results
 ):
-    df = session.table(distinct_table)
-    df1 = operation(df)
-    if expected_result is not None:
-        Utils.check_answer(df1, expected_result, sort=sort_results)
-    assert df1.queries["queries"][0] == expected_query(distinct_table)
+    try:
+        original = session.conf.get("use_simplified_query_generation")
+        session.conf.set("use_simplified_query_generation", True)
+        df = session.table(distinct_table)
+        df1 = operation(df)
+        if expected_result is not None:
+            Utils.check_answer(df1, expected_result, sort=sort_results)
+        assert df1.queries["queries"][0] == expected_query(distinct_table)
+    finally:
+        session.conf.set("use_simplified_query_generation", original)
diff --git a/tests/integ/test_telemetry.py b/tests/integ/test_telemetry.py
@@ -297,6 +297,10 @@ def test_drop_duplicates_api_calls(session):
             "subcalls": [
                 {
                     "name": "DataFrame.distinct",
+                    "subcalls": [
+                        {"name": "DataFrame.group_by"},
+                        {"name": "RelationalGroupedDataFrame.agg"},
+                    ],
                 }
             ],
         },
@@ -444,6 +448,10 @@ def test_distinct_api_calls(session):
         {"name": "DataFrame.to_df", "subcalls": [{"name": "DataFrame.select"}]},
         {
             "name": "DataFrame.distinct",
+            "subcalls": [
+                {"name": "DataFrame.group_by"},
+                {"name": "RelationalGroupedDataFrame.agg"},
+            ],
         },
     ]
     # check to make sure that the original DF is unchanged
@@ -460,6 +468,10 @@ def test_distinct_api_calls(session):
         {"name": "DataFrame.select"},
         {
             "name": "DataFrame.distinct",
+            "subcalls": [
+                {"name": "DataFrame.group_by"},
+                {"name": "RelationalGroupedDataFrame.agg"},
+            ],
         },
         {"name": "DataFrame.sort"},
     ]
@@ -470,6 +482,10 @@ def test_distinct_api_calls(session):
         {"name": "DataFrame.select"},
         {
             "name": "DataFrame.distinct",
+            "subcalls": [
+                {"name": "DataFrame.group_by"},
+                {"name": "RelationalGroupedDataFrame.agg"},
+            ],
         },
     ]
 

Original file line number	Diff line number	Diff line change
`@@ -297,6 +297,10 @@ def test_drop_duplicates_api_calls(session):`
`297`	`297`	`"subcalls": [`
`298`	`298`	`{`
`299`	`299`	`"name": "DataFrame.distinct",`
	`300`	`+ "subcalls": [`
	`301`	`+ {"name": "DataFrame.group_by"},`
	`302`	`+ {"name": "RelationalGroupedDataFrame.agg"},`
	`303`	`+ ],`
`300`	`304`	`}`
`301`	`305`	`],`
`302`	`306`	`},`
`@@ -444,6 +448,10 @@ def test_distinct_api_calls(session):`
`444`	`448`	`{"name": "DataFrame.to_df", "subcalls": [{"name": "DataFrame.select"}]},`
`445`	`449`	`{`
`446`	`450`	`"name": "DataFrame.distinct",`
	`451`	`+ "subcalls": [`
	`452`	`+ {"name": "DataFrame.group_by"},`
	`453`	`+ {"name": "RelationalGroupedDataFrame.agg"},`
	`454`	`+ ],`
`447`	`455`	`},`
`448`	`456`	`]`
`449`	`457`	`# check to make sure that the original DF is unchanged`
`@@ -460,6 +468,10 @@ def test_distinct_api_calls(session):`
`460`	`468`	`{"name": "DataFrame.select"},`
`461`	`469`	`{`
`462`	`470`	`"name": "DataFrame.distinct",`
	`471`	`+ "subcalls": [`
	`472`	`+ {"name": "DataFrame.group_by"},`
	`473`	`+ {"name": "RelationalGroupedDataFrame.agg"},`
	`474`	`+ ],`
`463`	`475`	`},`
`464`	`476`	`{"name": "DataFrame.sort"},`
`465`	`477`	`]`
`@@ -470,6 +482,10 @@ def test_distinct_api_calls(session):`
`470`	`482`	`{"name": "DataFrame.select"},`
`471`	`483`	`{`
`472`	`484`	`"name": "DataFrame.distinct",`
	`485`	`+ "subcalls": [`
	`486`	`+ {"name": "DataFrame.group_by"},`
	`487`	`+ {"name": "RelationalGroupedDataFrame.agg"},`
	`488`	`+ ],`
`473`	`489`	`},`
`474`	`490`	`]`
`475`	`491`