elementary-data
diff --git a/‎integration_tests/tests/test_column_pii_sampling.py‎
Lines changed: 165 additions & 24 deletions b/‎integration_tests/tests/test_column_pii_sampling.py‎
Lines changed: 165 additions & 24 deletions
diff --git a/‎integration_tests/tests/test_disable_samples_config.py‎
Lines changed: 7 additions & 7 deletions b/‎integration_tests/tests/test_disable_samples_config.py‎
Lines changed: 7 additions & 7 deletions
@@ -27,13 +27,13 @@
 def test_column_pii_sampling_enabled(test_id: str, dbt_project: DbtProject):
     """Test that PII columns are excluded when column-level PII protection is enabled"""
     data = [
-        {SENSITIVE_COLUMN: f"user{i}@example.com", SAFE_COLUMN: None} for i in range(10)
+        {SENSITIVE_COLUMN: "[email protected]", SAFE_COLUMN: None} for i in range(10)
     ]
 
     test_result = dbt_project.test(
         test_id,
-        "not_null",
-        test_args=dict(column_name=SAFE_COLUMN),
+        "unique",
+        test_args=dict(column_name=SENSITIVE_COLUMN),
         data=data,
         columns=[
             {"name": SENSITIVE_COLUMN, "config": {"tags": ["pii"]}},
@@ -53,27 +53,25 @@ def test_column_pii_sampling_enabled(test_id: str, dbt_project: DbtProject):
         for row in dbt_project.run_query(SAMPLES_QUERY.format(test_id=test_id))
     ]
 
-    assert len(samples) == TEST_SAMPLE_ROW_COUNT
-    for sample in samples:
-        assert SENSITIVE_COLUMN not in sample
-        assert SAFE_COLUMN in sample
+    assert len(samples) == 1
+    assert samples[0]["n_records"] == 10
+    assert len(samples[0]) == 1
 
 
 @pytest.mark.skip_targets(["clickhouse"])
 def test_column_pii_sampling_disabled(test_id: str, dbt_project: DbtProject):
     """Test that all columns are included when column-level PII protection is disabled"""
     data = [
-        {SENSITIVE_COLUMN: f"user{i}@example.com", SAFE_COLUMN: None} for i in range(10)
+        {SENSITIVE_COLUMN: "[email protected]", SAFE_COLUMN: None} for i in range(10)
     ]
 
     test_result = dbt_project.test(
         test_id,
-        "not_null",
-        test_args=dict(column_name=SAFE_COLUMN),
+        "unique",
+        test_args=dict(column_name=SENSITIVE_COLUMN),
         data=data,
         columns=[
             {"name": SENSITIVE_COLUMN, "config": {"tags": ["pii"]}},
-            {"name": SAFE_COLUMN},
         ],
         test_vars={
             "enable_elementary_test_materialization": True,
@@ -88,30 +86,31 @@ def test_column_pii_sampling_disabled(test_id: str, dbt_project: DbtProject):
         for row in dbt_project.run_query(SAMPLES_QUERY.format(test_id=test_id))
     ]
 
-    assert len(samples) == TEST_SAMPLE_ROW_COUNT
+    # sample should be {'unique_field': '[email protected]', 'n_records': 10}
+    assert len(samples) == 1
     for sample in samples:
-        assert SENSITIVE_COLUMN in sample
-        assert SAFE_COLUMN in sample
+        # The original column name is mapped to 'unique_field' in unique tests
+        assert "unique_field" in sample
+        assert "n_records" in sample
 
 
 @pytest.mark.skip_targets(["clickhouse"])
 def test_column_pii_sampling_tags_exist_but_flag_disabled(
     test_id: str, dbt_project: DbtProject
 ):
     """Test that when PII tags exist but disable_samples_on_pii_tags is false, samples are collected normally"""
-    data = [
-        {SENSITIVE_COLUMN: f"user{i}@example.com", SAFE_COLUMN: None} for i in range(10)
-    ]
+    data = [{SENSITIVE_COLUMN: "[email protected]", SAFE_COLUMN: 1} for i in range(10)]
 
     test_result = dbt_project.test(
         test_id,
-        "not_null",
+        "unique",
         test_args=dict(column_name=SAFE_COLUMN),
         data=data,
         columns=[
             {"name": SENSITIVE_COLUMN, "config": {"tags": ["pii"]}},
             {"name": SAFE_COLUMN},
         ],
+        test_column=None,
         test_vars={
             "enable_elementary_test_materialization": True,
             "test_sample_row_count": TEST_SAMPLE_ROW_COUNT,
@@ -126,12 +125,12 @@ def test_column_pii_sampling_tags_exist_but_flag_disabled(
         for row in dbt_project.run_query(SAMPLES_QUERY.format(test_id=test_id))
     ]
 
-    assert len(samples) == TEST_SAMPLE_ROW_COUNT
+    # When flag is disabled, we get the full sample (not limited by PII filtering)
+    assert len(samples) == 1
     for sample in samples:
-        assert (
-            SENSITIVE_COLUMN in sample
-        )  # PII column should be included when flag is disabled
-        assert SAFE_COLUMN in sample
+        # The original column name is mapped to 'unique_field' in unique tests
+        assert "unique_field" in sample
+        assert "n_records" in sample
 
 
 @pytest.mark.skip_targets(["clickhouse"])
@@ -150,6 +149,7 @@ def test_column_pii_sampling_all_columns_pii(test_id: str, dbt_project: DbtProje
             {"name": SENSITIVE_COLUMN, "config": {"tags": ["pii"]}},
             {"name": SAFE_COLUMN, "config": {"tags": ["pii"]}},
         ],
+        test_column=None,
         test_vars={
             "enable_elementary_test_materialization": True,
             "test_sample_row_count": TEST_SAMPLE_ROW_COUNT,
@@ -164,9 +164,150 @@ def test_column_pii_sampling_all_columns_pii(test_id: str, dbt_project: DbtProje
         for row in dbt_project.run_query(SAMPLES_QUERY.format(test_id=test_id))
     ]
 
+    # When all columns are PII, no samples should be collected
+    assert len(samples) == 0
+
+
+@pytest.mark.skip_targets(["clickhouse"])
+def test_unique_test_column_mapping(test_id: str, dbt_project: DbtProject):
+    """Test that column mapping correctly maps unique test columns"""
+    data = [{SENSITIVE_COLUMN: "[email protected]", SAFE_COLUMN: i} for i in range(10)]
+
+    test_result = dbt_project.test(
+        test_id,
+        "unique",
+        test_args=dict(column_name=SENSITIVE_COLUMN),
+        data=data,
+        columns=[
+            {"name": SENSITIVE_COLUMN, "config": {"tags": ["pii"]}},
+            {"name": SAFE_COLUMN},
+        ],
+        test_vars={
+            "enable_elementary_test_materialization": True,
+            "test_sample_row_count": TEST_SAMPLE_ROW_COUNT,
+            "disable_samples_on_pii_tags": True,
+            "pii_tags": ["pii"],
+        },
+    )
+    assert test_result["status"] == "fail"
+
+    samples = [
+        json.loads(row["result_row"])
+        for row in dbt_project.run_query(SAMPLES_QUERY.format(test_id=test_id))
+    ]
+
+    # Should only contain n_records, not unique_field (which contains PII)
+    assert len(samples) == 1
+    assert "n_records" in samples[0]
+    assert "unique_field" not in samples[0]
+    assert len(samples[0]) == 1
+
+
+@pytest.mark.skip_targets(["clickhouse"])
+def test_accepted_values_test_column_mapping(test_id: str, dbt_project: DbtProject):
+    """Test that column mapping correctly maps accepted_values test columns"""
+    data = [{SENSITIVE_COLUMN: "invalid_value", SAFE_COLUMN: i} for i in range(10)]
+
+    test_result = dbt_project.test(
+        test_id,
+        "accepted_values",
+        test_args=dict(column_name=SENSITIVE_COLUMN, values=["valid1", "valid2"]),
+        data=data,
+        columns=[
+            {"name": SENSITIVE_COLUMN, "config": {"tags": ["pii"]}},
+            {"name": SAFE_COLUMN},
+        ],
+        test_vars={
+            "enable_elementary_test_materialization": True,
+            "test_sample_row_count": TEST_SAMPLE_ROW_COUNT,
+            "disable_samples_on_pii_tags": True,
+            "pii_tags": ["pii"],
+        },
+    )
+    assert test_result["status"] == "fail"
+
+    samples = [
+        json.loads(row["result_row"])
+        for row in dbt_project.run_query(SAMPLES_QUERY.format(test_id=test_id))
+    ]
+
+    # Should only contain n_records, not value (which contains PII)
+    assert len(samples) == 1
+    assert "n_records" in samples[0]
+    assert "value" not in samples[0]
+    assert len(samples[0]) == 1
+
+
+@pytest.mark.skip_targets(["clickhouse"])
+def test_not_null_test_column_mapping(test_id: str, dbt_project: DbtProject):
+    """Test that column mapping correctly handles not_null test columns"""
+    data = [{SENSITIVE_COLUMN: None, SAFE_COLUMN: i} for i in range(10)]
+
+    test_result = dbt_project.test(
+        test_id,
+        "not_null",
+        test_args=dict(column_name=SENSITIVE_COLUMN),
+        data=data,
+        columns=[
+            {"name": SENSITIVE_COLUMN, "config": {"tags": ["pii"]}},
+            {"name": SAFE_COLUMN},
+        ],
+        test_vars={
+            "enable_elementary_test_materialization": True,
+            "test_sample_row_count": TEST_SAMPLE_ROW_COUNT,
+            "disable_samples_on_pii_tags": True,
+            "pii_tags": ["pii"],
+        },
+    )
+    assert test_result["status"] == "fail"
+
+    samples = [
+        json.loads(row["result_row"])
+        for row in dbt_project.run_query(SAMPLES_QUERY.format(test_id=test_id))
+    ]
+
+    # Should only contain _no_non_excluded_columns when all columns are PII
     assert len(samples) == TEST_SAMPLE_ROW_COUNT
     for sample in samples:
         assert "_no_non_excluded_columns" in sample
-        assert sample["_no_non_excluded_columns"] == 1
         assert SENSITIVE_COLUMN not in sample
         assert SAFE_COLUMN not in sample
+
+
+@pytest.mark.skip_targets(["clickhouse"])
+def test_multiple_pii_columns_mapping(test_id: str, dbt_project: DbtProject):
+    """Test that column mapping handles multiple PII columns correctly"""
+    data = [
+        {SENSITIVE_COLUMN: "[email protected]", "phone": "123-456-7890", SAFE_COLUMN: i}
+        for i in range(10)
+    ]
+
+    test_result = dbt_project.test(
+        test_id,
+        "unique",
+        test_args=dict(column_name=SENSITIVE_COLUMN),
+        data=data,
+        columns=[
+            {"name": SENSITIVE_COLUMN, "config": {"tags": ["pii"]}},
+            {"name": "phone", "config": {"tags": ["pii"]}},
+            {"name": SAFE_COLUMN},
+        ],
+        test_vars={
+            "enable_elementary_test_materialization": True,
+            "test_sample_row_count": TEST_SAMPLE_ROW_COUNT,
+            "disable_samples_on_pii_tags": True,
+        },
+    )
+    assert test_result["status"] == "fail"
+
+    samples = [
+        json.loads(row["result_row"])
+        for row in dbt_project.run_query(SAMPLES_QUERY.format(test_id=test_id))
+    ]
+
+    # Should only contain n_records, not unique_field or phone (which contain PII)
+    assert len(samples) == 1
+    assert "n_records" in samples[0]
+    assert "unique_field" not in samples[0]
+    assert "phone" not in samples[0]
+    assert len(samples[0]) == 1
@@ -30,7 +30,7 @@ def test_disable_samples_config_prevents_sampling(
     columns = [
         {
             "name": COLUMN_NAME,
-            "config": {"disable_samples": True},
+            "config": {"disable_test_samples": True},
             "tests": [{"not_null": {}}],
         }
     ]
@@ -66,7 +66,7 @@ def test_disable_samples_false_allows_sampling(test_id: str, dbt_project: DbtPro
     columns = [
         {
             "name": COLUMN_NAME,
-            "config": {"disable_samples": False},
+            "config": {"disable_test_samples": False},
             "tests": [{"not_null": {}}],
         }
     ]
@@ -103,7 +103,7 @@ def test_disable_samples_config_overrides_pii_tags(
     columns = [
         {
             "name": COLUMN_NAME,
-            "config": {"disable_samples": True, "tags": ["pii"]},
+            "config": {"disable_test_samples": True, "tags": ["pii"]},
             "tests": [{"not_null": {}}],
         }
     ]
@@ -134,15 +134,15 @@ def test_disable_samples_config_overrides_pii_tags(
 
 @pytest.mark.skip_targets(["clickhouse"])
 def test_disable_samples_and_pii_interaction(test_id: str, dbt_project: DbtProject):
-    """Test that disable_samples and PII columns both get excluded"""
+    """Test that disable_test_samples and PII columns both get excluded"""
     data = [
         {"col1": None, "col2": f"pii{i}", "col3": f"disabled{i}"} for i in range(10)
     ]
 
     columns = [
         {"name": "col1", "tests": [{"not_null": {}}]},
         {"name": "col2", "config": {"tags": ["pii"]}},
-        {"name": "col3", "config": {"disable_samples": True}},
+        {"name": "col3", "config": {"disable_test_samples": True}},
     ]
 
     test_result = dbt_project.test(
@@ -173,13 +173,13 @@ def test_disable_samples_and_pii_interaction(test_id: str, dbt_project: DbtProje
 
 @pytest.mark.skip_targets(["clickhouse"])
 def test_disable_samples_with_multiple_columns(test_id: str, dbt_project: DbtProject):
-    """Test that disable_samples excludes only the disabled column"""
+    """Test that disable_test_samples excludes only the disabled column"""
     data = [{"col1": None, "col2": f"value{i}"} for i in range(10)]
 
     columns = [
         {
             "name": "col1",
-            "config": {"disable_samples": True},
+            "config": {"disable_test_samples": True},
             "tests": [{"not_null": {}}],
         },
         {"name": "col2"},
Original file line number	Diff line number	Diff line change
`@@ -30,7 +30,7 @@ def test_disable_samples_config_prevents_sampling(`
`30`	`30`	`columns = [`
`31`	`31`	`{`
`32`	`32`	`"name": COLUMN_NAME,`
`33`		`- "config": {"disable_samples": True},`
	`33`	`+ "config": {"disable_test_samples": True},`
`34`	`34`	`"tests": [{"not_null": {}}],`
`35`	`35`	`}`
`36`	`36`	`]`
`@@ -66,7 +66,7 @@ def test_disable_samples_false_allows_sampling(test_id: str, dbt_project: DbtPro`
`66`	`66`	`columns = [`
`67`	`67`	`{`
`68`	`68`	`"name": COLUMN_NAME,`
`69`		`- "config": {"disable_samples": False},`
	`69`	`+ "config": {"disable_test_samples": False},`
`70`	`70`	`"tests": [{"not_null": {}}],`
`71`	`71`	`}`
`72`	`72`	`]`
`@@ -103,7 +103,7 @@ def test_disable_samples_config_overrides_pii_tags(`
`103`	`103`	`columns = [`
`104`	`104`	`{`
`105`	`105`	`"name": COLUMN_NAME,`
`106`		`- "config": {"disable_samples": True, "tags": ["pii"]},`
	`106`	`+ "config": {"disable_test_samples": True, "tags": ["pii"]},`
`107`	`107`	`"tests": [{"not_null": {}}],`
`108`	`108`	`}`
`109`	`109`	`]`
`@@ -134,15 +134,15 @@ def test_disable_samples_config_overrides_pii_tags(`
`134`	`134`
`135`	`135`	`@pytest.mark.skip_targets(["clickhouse"])`
`136`	`136`	`def test_disable_samples_and_pii_interaction(test_id: str, dbt_project: DbtProject):`
`137`		`- """Test that disable_samples and PII columns both get excluded"""`
	`137`	`+ """Test that disable_test_samples and PII columns both get excluded"""`
`138`	`138`	`data = [`
`139`	`139`	`{"col1": None, "col2": f"pii{i}", "col3": f"disabled{i}"} for i in range(10)`
`140`	`140`	`]`
`141`	`141`
`142`	`142`	`columns = [`
`143`	`143`	`{"name": "col1", "tests": [{"not_null": {}}]},`
`144`	`144`	`{"name": "col2", "config": {"tags": ["pii"]}},`
`145`		`- {"name": "col3", "config": {"disable_samples": True}},`
	`145`	`+ {"name": "col3", "config": {"disable_test_samples": True}},`
`146`	`146`	`]`
`147`	`147`
`148`	`148`	`test_result = dbt_project.test(`
`@@ -173,13 +173,13 @@ def test_disable_samples_and_pii_interaction(test_id: str, dbt_project: DbtProje`
`173`	`173`
`174`	`174`	`@pytest.mark.skip_targets(["clickhouse"])`
`175`	`175`	`def test_disable_samples_with_multiple_columns(test_id: str, dbt_project: DbtProject):`
`176`		`- """Test that disable_samples excludes only the disabled column"""`
	`176`	`+ """Test that disable_test_samples excludes only the disabled column"""`
`177`	`177`	`data = [{"col1": None, "col2": f"value{i}"} for i in range(10)]`
`178`	`178`
`179`	`179`	`columns = [`
`180`	`180`	`{`
`181`	`181`	`"name": "col1",`
`182`		`- "config": {"disable_samples": True},`
	`182`	`+ "config": {"disable_test_samples": True},`
`183`	`183`	`"tests": [{"not_null": {}}],`
`184`	`184`	`},`
`185`	`185`	`{"name": "col2"},`