adapt to new behaviour of CategoricalArrays.levels

ablaom · ablaom · commit 09e14a2688d9 · 2025-10-21T17:05:22.000+13:00
diff --git a/src/MLJTransforms.jl b/src/MLJTransforms.jl
@@ -20,6 +20,9 @@ using OrderedCollections
 
 const MMI = MLJModelInterface
 
+# old behaviour of `levels` (before CategoricalArrays 1.0):
+rawlevels(A) = unwrap.(levels(A))
+
 # Functions of generic use across transformers
 include("common_docs.jl")
 include("generic.jl")
diff --git a/src/encoders/contrast_encoder/contrast_encoder.jl b/src/encoders/contrast_encoder/contrast_encoder.jl
@@ -102,7 +102,7 @@ function contrast_encoder_fit(
 
     # ensure mode is one of :contrast, :dummy, :sum, :backward_diff, :forward_diff, :helmert, :polynomial, :hypothesis
     function feature_mapper(col, name)
-        feat_levels = levels(col)
+        feat_levels = rawlevels(col)
         k = length(feat_levels)
         feat_mode = (mode_is_vector) ? mode[findfirst(isequal(name), features)] : mode
         if feat_mode == :contrast
diff --git a/src/encoders/frequency_encoding/frequency_encoding.jl b/src/encoders/frequency_encoding/frequency_encoding.jl
@@ -29,7 +29,7 @@ function frequency_encoder_fit(
     # 1. Define feature mapper
     function feature_mapper(col, name)
         frequency_map = (!normalize) ? countmap(col) : proportionmap(col)
-        feat_levels = levels(col)
+        feat_levels = rawlevels(col)
         statistic_given_feat_val = Dict{eltype(feat_levels), output_type}(
             level => get(frequency_map, level, 0) for level in feat_levels
         )
diff --git a/src/encoders/missingness_encoding/missingness_encoding.jl b/src/encoders/missingness_encoding/missingness_encoding.jl
@@ -39,7 +39,7 @@ function missingness_encoder_fit(
 
     # 1. Define feature mapper
     function feature_mapper(col, name)
-        feat_levels = levels(col; skipmissing = true)
+        feat_levels = unwrap.(levels(col; skipmissing = true))
         col_type = nonmissingtype(eltype(feat_levels))
 
         # Ensure column type is valid (can't test because never occurs)
diff --git a/src/encoders/ordinal_encoding/ordinal_encoding.jl b/src/encoders/ordinal_encoding/ordinal_encoding.jl
@@ -25,7 +25,7 @@ function ordinal_encoder_fit(
 )
     # 1. Define feature mapper
     function feature_mapper(col, name)
-        feat_levels = levels(col)
+        feat_levels = rawlevels(col)
         index_given_feat_val =
             Dict{eltype(feat_levels), output_type}(
                 value => index for (index, value) in enumerate(feat_levels)
diff --git a/src/encoders/target_encoding/target_encoding.jl b/src/encoders/target_encoding/target_encoding.jl
@@ -148,12 +148,12 @@ function target_encoder_fit(
         "Your target must be Continuous/Count for regression or Multiclass/OrderedFactor for classification",
     )
 
-    # 2. Setup prior statistics 
+    # 2. Setup prior statistics
     if task == "Regression"
         y_mean = mean(y)                             # for mixing
         m == :auto && (y_var = std(y)^2)              # for empirical Bayes estimation
     else
-        y_classes = levels(y)
+        y_classes = rawlevels(y)
         is_multiclass = length(y_classes) > 2
         if !is_multiclass       # binary case
             y_prior = sum(y .== y_classes[1]) / length(y)   # for mixing
@@ -165,10 +165,10 @@ function target_encoder_fit(
 
     # 3. Define function to compute the new value(s) for each level given a column
     function feature_mapper(col, name)
-        feat_levels = levels(col)
+        feat_levels = rawlevels(col)
         y_stat_given_feat_level_for_col =
             Dict{eltype(feat_levels), Any}()
-        for level in levels(col)
+        for level in rawlevels(col)
             # Get the targets of an example that belong to this level
             targets_for_level = y[col.==level]
 
@@ -230,14 +230,14 @@ end
 Transform given data with fitted target encoder cache.
 
 # Arguments
-- `X`: A table where the elements of the categorical features have [scitypes](https://juliaai.github.io/ScientificTypes.jl/dev/) 
+- `X`: A table where the elements of the categorical features have [scitypes](https://juliaai.github.io/ScientificTypes.jl/dev/)
 `Multiclass` or `OrderedFactor`
-- `cache`: A dictionary containing a dictionary `y_stat_given_feat_level` with the necessary statistics for 
+- `cache`: A dictionary containing a dictionary `y_stat_given_feat_level` with the necessary statistics for
 every categorical feature as well as other metadata needed for transform
 
 # Returns
 - `X`: A table where the categorical features as specified during fitting are transformed by target encoding. Other features will remain
-    the same. This will attempt to preserve the type of the table but may not succeed. 
+    the same. This will attempt to preserve the type of the table but may not succeed.
 """
 
 function target_encoder_transform(X, cache)
@@ -253,4 +253,3 @@ function target_encoder_transform(X, cache)
         use_levelnames = true,
         custom_levels = y_classes)
 end
-
diff --git a/src/generic.jl b/src/generic.jl
@@ -207,7 +207,7 @@ function generic_transform(
         if feat_name in keys(mapping_per_feat_level)
             if !ignore_unknown
                 train_levels = keys(mapping_per_feat_level[feat_name])
-                test_levels = levels(col)
+                test_levels = rawlevels(col)
                 # test levels must be a subset of train levels
                 if !issubset(test_levels, train_levels)
                     # get the levels in test that are not in train
diff --git a/src/transformers/cardinality_reducer/cardinality_reducer.jl b/src/transformers/cardinality_reducer/cardinality_reducer.jl
@@ -46,7 +46,7 @@ function cardinality_reducer_fit(
     # 1. Define feature mapper
     function feature_mapper(col, name)
         val_to_freq = (min_frequency isa AbstractFloat) ? proportionmap(col) : countmap(col)
-        feat_levels = levels(col)
+        feat_levels = rawlevels(col)
         col_type = eltype(feat_levels)
 
         # Ensure column type is valid (can't test because never occurs)
diff --git a/src/transformers/other_transformers/one_hot_encoder.jl b/src/transformers/other_transformers/one_hot_encoder.jl
@@ -61,7 +61,7 @@ function MMI.fit(transformer::OneHotEncoder, verbosity::Int, X)
         if T <: allowed_scitypes && ftr in specified_features
             ref_name_pairs_given_feature[ftr] = Pair{<:Unsigned,Symbol}[]
             shift = transformer.drop_last ? 1 : 0
-            levels = classes(col)
+            levels = CategoricalArrays.levels(col)
             fitted_levels_given_feature[ftr] = levels
             if verbosity > 0
                 @info "Spawning $(length(levels)-shift) sub-features "*
@@ -136,7 +136,7 @@ function MMI.transform(transformer::OneHotEncoder, fitresult, X)
         col = MMI.selectcols(X, ftr)
         if ftr in features_to_be_transformed
             Set(fitresult.fitted_levels_given_feature[ftr]) ==
-                Set(classes(col)) ||
+                Set(levels(col)) ||
             error("Found category level mismatch in feature `$(ftr)`. "*
             "Consider using `levels!` to ensure fitted and transforming "*
             "features have the same category levels.")
@@ -289,4 +289,4 @@ julia> schema(W)
 See also [`ContinuousEncoder`](@ref).
 
 """
-OneHotEncoder
+OneHotEncoder
diff --git a/test/encoders/contrast_encoder.jl b/test/encoders/contrast_encoder.jl
@@ -82,9 +82,9 @@ end
     end
     # test that fit is correct for dummy Coding
     cache = contrast_encoder_fit(X, [:name]; ignore = false, mode = :dummy)
-    k = length(levels(X.name))
+    k = length(rawlevels(X.name))
     contrast_matrix = get_dummy_contrast(k)
-    for (i, level) in enumerate(levels(X.name))
+    for (i, level) in enumerate(rawlevels(X.name))
         @test cache.vector_given_value_given_feature[:name][level] == contrast_matrix[i, :]
     end
 end
@@ -110,9 +110,9 @@ end
     @test size(contrast_matrix_3) == (3, 2)
     # test that fit is correct for sum Coding
     cache = contrast_encoder_fit(X, [:name, :favnum]; ignore = false, mode = :sum)
-    k = length(levels(X.favnum))
+    k = length(rawlevels(X.favnum))
     contrast_matrix = get_sum_contrast(k)
-    for (i, level) in enumerate(levels(X.favnum))
+    for (i, level) in enumerate(rawlevels(X.favnum))
         @test cache.vector_given_value_given_feature[:favnum][level] ==
               contrast_matrix[i, :]
     end
@@ -130,9 +130,9 @@ end
 
     # Test that fit is correct for backward Coding
     cache = contrast_encoder_fit(X, [:name, :favnum]; ignore = false, mode = :backward_diff)
-    k = length(levels(X.favnum))
+    k = length(rawlevels(X.favnum))
     contrast_matrix = get_backward_diff_contrast(k)
-    for (i, level) in enumerate(levels(X.favnum))
+    for (i, level) in enumerate(rawlevels(X.favnum))
         @test cache.vector_given_value_given_feature[:favnum][level] ==
               contrast_matrix[i, :]
     end
@@ -148,9 +148,9 @@ end
 
     # Test that fit is correct for forward Coding
     cache = contrast_encoder_fit(X, [:name, :favnum]; ignore = false, mode = :forward_diff)
-    k = length(levels(X.favnum))
+    k = length(rawlevels(X.favnum))
     contrast_matrix = get_forward_diff_contrast(k)
-    for (i, level) in enumerate(levels(X.favnum))
+    for (i, level) in enumerate(rawlevels(X.favnum))
         @test cache.vector_given_value_given_feature[:favnum][level] ==
               contrast_matrix[i, :]
     end
@@ -171,9 +171,9 @@ end
          0.0   0.0   3.0]
     # test that fit is correct for helmert Coding
     cache = contrast_encoder_fit(X, [:name, :favnum]; ignore = false, mode = :helmert)
-    k = length(levels(X.name))
+    k = length(rawlevels(X.name))
     contrast_matrix = get_helmert_contrast(k)
-    for (i, level) in enumerate(levels(X.name))
+    for (i, level) in enumerate(rawlevels(X.name))
         @test cache.vector_given_value_given_feature[:name][level] == contrast_matrix[i, :]
     end
 end
@@ -227,12 +227,12 @@ end
         contrasts = Dict(
             :name => StatsModels.HypothesisCoding(
                 buildrandomhypothesis(nothing, 3);
-                levels = levels(X.name),
+                levels = rawlevels(X.name),
                 labels = [],
             ),
             :favnum => StatsModels.HypothesisCoding(
                 buildrandomhypothesis(nothing, 4);
-                levels = levels(X.favnum),
+                levels = rawlevels(X.favnum),
                 labels = [],
             ),
         ),
@@ -263,7 +263,7 @@ end
             StatsModels.HelmertCoding(),
             StatsModels.HypothesisCoding(
                 buildrandomhypothesis(nothing, k);
-                levels = (k == 3) ? levels(X.name) : levels(X.favnum),
+                levels = (k == 3) ? rawlevels(X.name) : rawlevels(X.favnum),
                 labels = [],
             ),
         ][ind]
@@ -304,7 +304,7 @@ end
                 StatsModels.HelmertCoding(),
                 StatsModels.HypothesisCoding(
                     buildrandomhypothesis(nothing, k);
-                    levels = (k == 3) ? levels(X.name) : levels(X.favnum),
+                    levels = (k == 3) ? rawlevels(X.name) : rawlevels(X.favnum),
                     labels = [],
                 ),
             ][ind]
diff --git a/test/encoders/missingness_encoding.jl b/test/encoders/missingness_encoding.jl
@@ -34,7 +34,7 @@ end
     X = generate_X_with_missingness()
     cache = missingness_encoder_fit(X)
     label_for_missing_given_feature = cache.label_for_missing_given_feature
-    @test label_for_missing_given_feature[:C][missing] == minimum(levels(X.C)) - 1
+    @test label_for_missing_given_feature[:C][missing] == minimum(rawlevels(X.C)) - 1
 end
 
 
@@ -52,14 +52,14 @@ end
     X_tr = missingness_encoder_transform(X, cache)
 
     for col in [:A, :B, :C, :D, :E]
-        @test issubset(levels(X[col]), levels(X_tr[col]))
+        @test issubset(rawlevels(X[col]), rawlevels(X_tr[col]))
     end
 
-    @test Set(push!(levels(X[:A]), "missing-item")) == Set(levels(X_tr[:A]))
-    @test Set(push!(levels(X[:C]), -99)) == Set(levels(X_tr[:C]))
-    @test Set(push!(levels(X[:E]), 'i')) == Set(levels(X_tr[:E]))
-    @test levels(X[:B]) == levels(X_tr[:B])
-    @test levels(X[:D]) == levels(X_tr[:D])
+    @test Set(push!(rawlevels(X[:A]), "missing-item")) == Set(rawlevels(X_tr[:A]))
+    @test Set(push!(rawlevels(X[:C]), -99)) == Set(rawlevels(X_tr[:C]))
+    @test Set(push!(rawlevels(X[:E]), 'i')) == Set(rawlevels(X_tr[:E]))
+    @test rawlevels(X[:B]) == rawlevels(X_tr[:B])
+    @test rawlevels(X[:D]) == rawlevels(X_tr[:D])
 end
 
 
@@ -158,7 +158,7 @@ end
     )
     X_tr = missingness_encoder_transform(X, cache)
 
-    @test issubset(levels(X[:A]), levels(X_tr[:A])) # Will have "MissingOne" added
+    @test issubset(rawlevels(X[:A]), rawlevels(X_tr[:A])) # Will have "MissingOne" added
 end
 
 @testset "MLJ Interface Missingness Encoder" begin
diff --git a/test/encoders/ordinal_encoding.jl b/test/encoders/ordinal_encoding.jl
@@ -18,22 +18,22 @@ push!(
     A_col, C_col, D_col, F_col = selectcols(X, [1, 3, 4, 6])
     true_output = Dict{Symbol, Dict{Any, AbstractFloat}}(
         :F => Dict(
-            "m" => findfirst(==("m"), levels(F_col)),
-            "l" => findfirst(==("l"), levels(F_col)),
-            "s" => findfirst(==("s"), levels(F_col)),
+            "m" => findfirst(==("m"), rawlevels(F_col)),
+            "l" => findfirst(==("l"), rawlevels(F_col)),
+            "s" => findfirst(==("s"), rawlevels(F_col)),
         ),
         :A => Dict(
-            "g" => findfirst(==("g"), levels(A_col)),
-            "b" => findfirst(==("b"), levels(A_col)),
-            "r" => findfirst(==("r"), levels(A_col)),
+            "g" => findfirst(==("g"), rawlevels(A_col)),
+            "b" => findfirst(==("b"), rawlevels(A_col)),
+            "r" => findfirst(==("r"), rawlevels(A_col)),
         ),
         :D => Dict(
-            false => findfirst(==(false), levels(D_col)),
-            true => findfirst(==(true), levels(D_col)),
+            false => findfirst(==(false), rawlevels(D_col)),
+            true => findfirst(==(true), rawlevels(D_col)),
         ),
         :C => Dict(
-            "f" => findfirst(==("f"), levels(C_col)),
-            "m" => findfirst(==("m"), levels(C_col)),
+            "f" => findfirst(==("f"), rawlevels(C_col)),
+            "m" => findfirst(==("m"), rawlevels(C_col)),
         ),
     )
     @test result == true_output
@@ -46,7 +46,7 @@ end
 
     X_tr = ordinal_encoder_transform(X, cache)
 
-    enc = (col, level) -> findfirst(==(level), levels(X[col]))
+    enc = (col, level) -> findfirst(==(level), rawlevels(X[col]))
 
     target = (
         A = [enc(:A, X[:A][i]) for i in 1:10],
diff --git a/test/generic.jl b/test/generic.jl
@@ -86,7 +86,7 @@ function dummy_encoder_fit(
 )
     # 1. Define feature mapper
     function feature_mapper(col, name)
-        feat_levels = levels(col)
+        feat_levels = rawlevels(col)
         hash_given_feat_val =
             Dict{Any, Integer}(value => hash(value) for value in feat_levels)
         return hash_given_feat_val
diff --git a/test/runtests.jl b/test/runtests.jl
@@ -9,6 +9,9 @@ import StatsModels
 using Random
 using LinearAlgebra
 
+# old behaviour of `levels` (before CategoricalArrays 1.0):
+rawlevels(A) = unwrap.(levels(A))
+
 # Other transformers
 using Tables, CategoricalArrays
 using Statistics
diff --git a/test/transformers/cardinality_reducer.jl b/test/transformers/cardinality_reducer.jl
@@ -40,7 +40,7 @@ end
     new_cat_given_col_val = cache.new_cat_given_col_val
 
     @test minimum(values(new_cat_given_col_val[:HighCardFeature1])) ==
-          minimum(levels(X.HighCardFeature1)) - 1
+          minimum(rawlevels(X.HighCardFeature1)) - 1
 end
 
 
@@ -101,21 +101,21 @@ end
         :LowCardFeature => Dict(
             [
             (level, enc_char(LowCardFeature_col, level)) for
-            level in levels(LowCardFeature_col) if
+            level in rawlevels(LowCardFeature_col) if
             proportionmap(LowCardFeature_col)[level] < 0.3
         ],
         ),
         :HighCardFeature1 => Dict(
             [
             (level, enc_num(HighCardFeature1_col, level)) for
-            level in levels(HighCardFeature1_col) if
+            level in rawlevels(HighCardFeature1_col) if
             proportionmap(HighCardFeature1_col)[level] < 0.3
         ],
         ),
         :HighCardFeature2 => Dict(
             [
             (level, enc_str(HighCardFeature2_col, level)) for
-            level in levels(HighCardFeature2_col) if
+            level in rawlevels(HighCardFeature2_col) if
             proportionmap(HighCardFeature2_col)[level] < 0.3
         ],
         ),
@@ -191,7 +191,7 @@ end
     )
     X_tr = cardinality_reducer_transform(X, cache)
 
-    @test 'Z' in Set(levels(X_tr[:LowCardFeature]))
+    @test 'Z' in Set(rawlevels(X_tr[:LowCardFeature]))
 end
 
 @testset "MLJ Interface Cardinality Reducer" begin
@@ -236,7 +236,7 @@ end
         :B => Multiclass,
     )
 
-    levels(X.A)
+    rawlevels(X.A)
 
     encoder = CardinalityReducer(ordered_factor = false, min_frequency = 3)
     mach = fit!(machine(encoder, X))
diff --git a/test/transformers/other_transformers/univariate_discretizer.jl b/test/transformers/other_transformers/univariate_discretizer.jl
@@ -1,4 +1,3 @@
-
 @testset "U-Discr" begin
     v = randn(10000)
     t = UnivariateDiscretizer(n_classes=100);
@@ -24,5 +23,6 @@
     v2 = v[1:3]
     w2 = MLJBase.transform(t, result, v2)
     @test levels(w2) == levels(w)
+end
 
-end
+true

Original file line number	Diff line number	Diff line change
`@@ -29,7 +29,7 @@ function frequency_encoder_fit(`
`29`	`29`	`# 1. Define feature mapper`
`30`	`30`	`function feature_mapper(col, name)`
`31`	`31`	`frequency_map = (!normalize) ? countmap(col) : proportionmap(col)`
`32`		`- feat_levels = levels(col)`
	`32`	`+ feat_levels = rawlevels(col)`
`33`	`33`	`statistic_given_feat_val = Dict{eltype(feat_levels), output_type}(`
`34`	`34`	`level => get(frequency_map, level, 0) for level in feat_levels`
`35`	`35`	`)`
Original file line number	Diff line number	Diff line change
`@@ -25,7 +25,7 @@ function ordinal_encoder_fit(`
`25`	`25`	`)`
`26`	`26`	`# 1. Define feature mapper`
`27`	`27`	`function feature_mapper(col, name)`
`28`		`- feat_levels = levels(col)`
	`28`	`+ feat_levels = rawlevels(col)`
`29`	`29`	`index_given_feat_val =`
`30`	`30`	`Dict{eltype(feat_levels), output_type}(`
`31`	`31`	`value => index for (index, value) in enumerate(feat_levels)`