Keep the messiness

StanFromIreland · StanFromIreland · commit 2ad72b20dfd4 · 2025-07-14T10:17:22.000+01:00
diff --git a/Lib/encodings/__init__.py b/Lib/encodings/__init__.py
@@ -29,6 +29,7 @@
 """
 
 import codecs
+from _codecs import _normalize_encoding
 import sys
 from . import aliases
 
@@ -38,18 +39,6 @@
 _aliases = aliases.aliases
 
 
-_norm_encoding_map = (
-    #0123456789ABCDEF0123456789ABCDEF
-    '                                '
-    '              . 0123456789      '
-    ' ABCDEFGHIJKLMNOPQRSTUVWXYZ     '
-    ' abcdefghijklmnopqrstuvwxyz     '
-    '                                '
-    '                                '
-    '                                '
-    '                                ')
-
-
 class CodecRegistryError(LookupError, SystemError):
     pass
 
@@ -68,10 +57,7 @@ def normalize_encoding(encoding):
     if isinstance(encoding, bytes):
         encoding = str(encoding, "ascii")
 
-    s = encoding.translate(_norm_encoding_map)
-    return '_'.join(s.split())
-
-from _codecs import _normalize_encoding as normalize_encoding
+    return _normalize_encoding(encoding)
 
 def search_function(encoding):
 
diff --git a/Modules/_codecsmodule.c b/Modules/_codecsmodule.c
@@ -1026,18 +1026,23 @@ extern int _Py_normalize_encoding(const char *, char *, size_t, int);
 
 /*[clinic input]
 _codecs._normalize_encoding
-    encoding: str(encoding='ascii')
+    encoding: unicode
 
 Normalize an encoding name *encoding*.
 
 Used for encodings.normalize_encoding. Does not convert to lower case.
 [clinic start generated code]*/
 
 static PyObject *
-_codecs__normalize_encoding_impl(PyObject *module, char *encoding)
-/*[clinic end generated code: output=d5e3a4b5266fbe96 input=cdb53c013b2400e3]*/
+_codecs__normalize_encoding_impl(PyObject *module, PyObject *encoding)
+/*[clinic end generated code: output=d27465d81e361f8e input=3ff3f4d64995b988]*/
 {
-    size_t len = strlen(encoding);
+    const char *cstr = PyUnicode_AsUTF8(encoding);
+    if (cstr == NULL) {
+        return NULL;
+    }
+
+    size_t len = strlen(cstr);
     if (len > PY_SSIZE_T_MAX) {
         PyErr_SetString(PyExc_OverflowError, "encoding is too large");
         return NULL;
@@ -1048,7 +1053,7 @@ _codecs__normalize_encoding_impl(PyObject *module, char *encoding)
         return PyErr_NoMemory();
     }
 
-    if (!_Py_normalize_encoding(encoding, normalized, len + 1, 0)) {
+    if (!_Py_normalize_encoding(cstr, normalized, len + 1, 0)) {
         PyErr_SetString(PyExc_RuntimeError, "_Py_normalize_encoding() failed");
         PyMem_Free(normalized);
         return NULL;
diff --git a/Modules/clinic/_codecsmodule.c.h b/Modules/clinic/_codecsmodule.c.h