Merge branch 'wchar-utf32to8' into wchar-utf32-to-8

uzairnawaz · uzairnawaz · commit 3bdf7ce5ecf6 · 2025-06-12T20:34:55.000Z
diff --git a/libc/src/__support/wchar/character_converter.cpp b/libc/src/__support/wchar/character_converter.cpp
@@ -8,6 +8,7 @@
 
 #include "hdr/types/char32_t.h"
 #include "hdr/types/char8_t.h"
+#include "src/__support/common.h"
 #include "src/__support/wchar/mbstate.h"
 #include "src/__support/wchar/utf_ret.h"
 
@@ -22,13 +23,138 @@ bool CharacterConverter::isComplete() {
   return state->bytes_processed == state->total_bytes;
 }
 
-int CharacterConverter::push(char8_t utf8_byte) {}
+int CharacterConverter::push(char8_t utf8_byte) { return utf8_byte; }
 
-int CharacterConverter::push(char32_t utf32) {}
+int CharacterConverter::push(char32_t utf32) {
+  state->partial = utf32;
+  state->bytes_processed = 0;
+  state->total_bytes = 0;
 
-utf_ret<char8_t> CharacterConverter::pop_utf8() {}
+  // determine number of utf-8 bytes needed to represent this utf32 value
+  char32_t ranges[] = {0x7f, 0x7ff, 0xffff, 0x10ffff};
+  const int num_ranges = 4;
+  for (uint8_t i = 0; i < num_ranges; i++) {
+    if (state->partial <= ranges[i]) {
+      state->total_bytes = i + 1;
+      break;
+    }
+  }
+  if (state->total_bytes == 0) {
+    return -1;
+  }
 
-utf_ret<char32_t> CharacterConverter::pop_utf32() {}
+  return 0;
+}
+
+utf_ret<char8_t> CharacterConverter::pop_utf8_seqlength1() {
+  utf_ret<char8_t> result;
+  result.error = 0;
+
+  // 0xxxxxxx
+  switch (state->bytes_processed) {
+  case 0:
+    result.out = (char8_t)(state->partial);
+    break;
+  default:
+    result.error = -1;
+    return result;
+  }
+
+  state->bytes_processed++;
+  return result;
+}
+
+utf_ret<char8_t> CharacterConverter::pop_utf8_seqlength2() {
+  utf_ret<char8_t> result;
+  result.error = 0;
+
+  // 110xxxxx 10xxxxxx
+  char32_t utf32 = state->partial;
+  switch (state->bytes_processed) {
+  case 0:
+    result.out = (char8_t)(0xC0 | (utf32 >> 6));
+    break;
+  case 1:
+    result.out = (char8_t)(0x80 | (utf32 & 0x3f));
+    break;
+  default:
+    result.error = -1;
+    return result;
+  }
+
+  state->bytes_processed++;
+  return result;
+}
+
+utf_ret<char8_t> CharacterConverter::pop_utf8_seqlength3() {
+  utf_ret<char8_t> result;
+  result.error = 0;
+
+  // 1110xxxx 10xxxxxx 10xxxxxx
+  char32_t utf32 = state->partial;
+  switch (state->bytes_processed) {
+  case 0:
+    result.out = (char8_t)(0xE0 | (utf32 >> 12));
+    break;
+  case 1:
+    result.out = (char8_t)(0x80 | ((utf32 >> 6) & 0x3f));
+    break;
+  case 2:
+    result.out = (char8_t)(0x80 | (utf32 & 0x3f));
+    break;
+  default:
+    result.error = -1;
+    return result;
+  }
+
+  state->bytes_processed++;
+  return result;
+}
+
+utf_ret<char8_t> CharacterConverter::pop_utf8_seqlength4() {
+  utf_ret<char8_t> result;
+  result.error = 0;
+
+  // 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
+  char32_t utf32 = state->partial;
+  switch (state->bytes_processed) {
+  case 0:
+    result.out = (char8_t)(0xF0 | (utf32 >> 18));
+    break;
+  case 1:
+    result.out = (char8_t)(0x80 | ((utf32 >> 12) & 0x3f));
+    break;
+  case 2:
+    result.out = (char8_t)(0x80 | ((utf32 >> 6) & 0x3f));
+    break;
+  case 3:
+    result.out = (char8_t)(0x80 | (utf32 & 0x3f));
+    break;
+  default:
+    result.error = -1;
+    return result;
+  }
+
+  state->bytes_processed++;
+  return result;
+}
+
+utf_ret<char8_t> CharacterConverter::pop_utf8() {
+  switch (state->total_bytes) {
+  case 1:
+    return pop_utf8_seqlength1();
+  case 2:
+    return pop_utf8_seqlength2();
+  case 3:
+    return pop_utf8_seqlength3();
+  case 4:
+    return pop_utf8_seqlength4();
+  }
+
+  return {.out = 0, .error = -1};
+}
+
+utf_ret<char32_t> CharacterConverter::pop_utf32() { return {0, -1}; }
 
 } // namespace internal
 } // namespace LIBC_NAMESPACE_DECL
diff --git a/libc/src/__support/wchar/character_converter.h b/libc/src/__support/wchar/character_converter.h
@@ -11,6 +11,7 @@
 
 #include "hdr/types/char32_t.h"
 #include "hdr/types/char8_t.h"
+#include "src/__support/common.h"
 #include "src/__support/wchar/mbstate.h"
 #include "src/__support/wchar/utf_ret.h"
 
@@ -21,6 +22,11 @@ class CharacterConverter {
 private:
   mbstate *state;
 
+  utf_ret<char8_t> pop_utf8_seqlength1();
+  utf_ret<char8_t> pop_utf8_seqlength2();
+  utf_ret<char8_t> pop_utf8_seqlength3();
+  utf_ret<char8_t> pop_utf8_seqlength4();
+
 public:
   CharacterConverter(mbstate *mbstate);
 
diff --git a/libc/test/src/__support/CMakeLists.txt b/libc/test/src/__support/CMakeLists.txt
@@ -275,3 +275,4 @@ add_subdirectory(fixed_point)
 add_subdirectory(HashTable)
 add_subdirectory(time)
 add_subdirectory(threads)
+add_subdirectory(wchar)
diff --git a/libc/test/src/__support/wchar/CMakeLists.txt b/libc/test/src/__support/wchar/CMakeLists.txt
@@ -0,0 +1,11 @@
+add_custom_target(libc-support-wchar-tests)
+
+add_libc_test(
+  utf32_to_8_test 
+  SUITE
+    libc-support-tests
+  SRCS
+    utf32_to_8_test.cpp 
+  DEPENDS
+    libc.src.__support.wchar.character_converter
+)
diff --git a/libc/test/src/__support/wchar/utf32_to_8_test.cpp b/libc/test/src/__support/wchar/utf32_to_8_test.cpp
@@ -0,0 +1,160 @@
+//===-- Unittests for the CharacterConverter class (utf32 -> 8) -----------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+#include "src/__support/common.h"
+#include "src/__support/wchar/character_converter.h"
+#include "src/__support/wchar/mbstate.h"
+
+#include "test/UnitTest/Test.h"
+
+TEST(LlvmLibcCharacterConverterUTF32To8Test, OneByte) {
+  LIBC_NAMESPACE::internal::mbstate state;
+  LIBC_NAMESPACE::internal::CharacterConverter cr(&state);
+
+  // utf8 1-byte encodings are identical to their utf32 representations
+  char32_t utf32_A = 0x41; // 'A'
+  cr.push(utf32_A);
+  auto popped = cr.pop_utf8();
+  ASSERT_EQ(popped.error, 0);
+  ASSERT_EQ(static_cast<char>(popped.out), 'A');
+  ASSERT_TRUE(cr.isComplete());
+
+  char32_t utf32_B = 0x42; // 'B'
+  cr.push(utf32_B);
+  popped = cr.pop_utf8();
+  ASSERT_EQ(popped.error, 0);
+  ASSERT_EQ(static_cast<char>(popped.out), 'B');
+  ASSERT_TRUE(cr.isComplete());
+
+  // should error if we try to pop another utf8 byte out
+  popped = cr.pop_utf8();
+  ASSERT_NE(popped.error, 0);
+}
+
+TEST(LlvmLibcCharacterConverterUTF32To8Test, TwoByte) {
+  LIBC_NAMESPACE::internal::mbstate state;
+  LIBC_NAMESPACE::internal::CharacterConverter cr(&state);
+
+  // testing utf32: 0xff -> utf8: 0xc3 0xbf
+  char32_t utf32 = 0xff;
+  cr.push(utf32);
+  auto popped = cr.pop_utf8();
+  ASSERT_EQ(popped.error, 0);
+  ASSERT_EQ(static_cast<int>(popped.out), 0xc3);
+  ASSERT_TRUE(!cr.isComplete());
+  popped = cr.pop_utf8();
+  ASSERT_EQ(popped.error, 0);
+  ASSERT_EQ(static_cast<int>(popped.out), 0xbf);
+  ASSERT_TRUE(cr.isComplete());
+
+  // testing utf32: 0x58e -> utf8: 0xd6 0x8e
+  utf32 = 0x58e;
+  cr.push(utf32);
+  popped = cr.pop_utf8();
+  ASSERT_EQ(popped.error, 0);
+  ASSERT_EQ(static_cast<int>(popped.out), 0xd6);
+  ASSERT_TRUE(!cr.isComplete());
+  popped = cr.pop_utf8();
+  ASSERT_EQ(popped.error, 0);
+  ASSERT_EQ(static_cast<int>(popped.out), 0x8e);
+  ASSERT_TRUE(cr.isComplete());
+
+  // should error if we try to pop another utf8 byte out
+  popped = cr.pop_utf8();
+  ASSERT_NE(popped.error, 0);
+}
+
+TEST(LlvmLibcCharacterConverterUTF32To8Test, ThreeByte) {
+  LIBC_NAMESPACE::internal::mbstate state;
+  LIBC_NAMESPACE::internal::CharacterConverter cr(&state);
+
+  // testing utf32: 0xac15 -> utf8: 0xea 0xb0 0x95
+  char32_t utf32 = 0xac15;
+  cr.push(utf32);
+  auto popped = cr.pop_utf8();
+  ASSERT_EQ(popped.error, 0);
+  ASSERT_EQ(static_cast<int>(popped.out), 0xea);
+  ASSERT_TRUE(!cr.isComplete());
+  popped = cr.pop_utf8();
+  ASSERT_EQ(popped.error, 0);
+  ASSERT_EQ(static_cast<int>(popped.out), 0xb0);
+  ASSERT_TRUE(!cr.isComplete());
+  popped = cr.pop_utf8();
+  ASSERT_EQ(popped.error, 0);
+  ASSERT_EQ(static_cast<int>(popped.out), 0x95);
+  ASSERT_TRUE(cr.isComplete());
+
+  // testing utf32: 0x267b -> utf8: 0xe2 0x99 0xbb
+  utf32 = 0x267b;
+  cr.push(utf32);
+  popped = cr.pop_utf8();
+  ASSERT_EQ(popped.error, 0);
+  ASSERT_EQ(static_cast<int>(popped.out), 0xe2);
+  ASSERT_TRUE(!cr.isComplete());
+  popped = cr.pop_utf8();
+  ASSERT_EQ(popped.error, 0);
+  ASSERT_EQ(static_cast<int>(popped.out), 0x99);
+  ASSERT_TRUE(!cr.isComplete());
+  popped = cr.pop_utf8();
+  ASSERT_EQ(popped.error, 0);
+  ASSERT_EQ(static_cast<int>(popped.out), 0xbb);
+  ASSERT_TRUE(cr.isComplete());
+
+  // should error if we try to pop another utf8 byte out
+  popped = cr.pop_utf8();
+  ASSERT_NE(popped.error, 0);
+}
+
+TEST(LlvmLibcCharacterConverterUTF32To8Test, FourByte) {
+  LIBC_NAMESPACE::internal::mbstate state;
+  LIBC_NAMESPACE::internal::CharacterConverter cr(&state);
+
+  // testing utf32: 0x1f921 -> utf8: 0xf0 0x9f 0xa4 0xa1
+  char32_t utf32 = 0x1f921;
+  cr.push(utf32);
+  auto popped = cr.pop_utf8();
+  ASSERT_EQ(popped.error, 0);
+  ASSERT_EQ(static_cast<int>(popped.out), 0xf0);
+  ASSERT_TRUE(!cr.isComplete());
+  popped = cr.pop_utf8();
+  ASSERT_EQ(popped.error, 0);
+  ASSERT_EQ(static_cast<int>(popped.out), 0x9f);
+  ASSERT_TRUE(!cr.isComplete());
+  popped = cr.pop_utf8();
+  ASSERT_EQ(popped.error, 0);
+  ASSERT_EQ(static_cast<int>(popped.out), 0xa4);
+  ASSERT_TRUE(!cr.isComplete());
+  popped = cr.pop_utf8();
+  ASSERT_EQ(popped.error, 0);
+  ASSERT_EQ(static_cast<int>(popped.out), 0xa1);
+  ASSERT_TRUE(cr.isComplete());
+
+  // testing utf32: 0x12121 -> utf8: 0xf0 0x92 0x84 0xa1
+  utf32 = 0x12121;
+  cr.push(utf32);
+  popped = cr.pop_utf8();
+  ASSERT_EQ(popped.error, 0);
+  ASSERT_EQ(static_cast<int>(popped.out), 0xf0);
+  ASSERT_TRUE(!cr.isComplete());
+  popped = cr.pop_utf8();
+  ASSERT_EQ(popped.error, 0);
+  ASSERT_EQ(static_cast<int>(popped.out), 0x92);
+  ASSERT_TRUE(!cr.isComplete());
+  popped = cr.pop_utf8();
+  ASSERT_EQ(popped.error, 0);
+  ASSERT_EQ(static_cast<int>(popped.out), 0x84);
+  ASSERT_TRUE(!cr.isComplete());
+  popped = cr.pop_utf8();
+  ASSERT_EQ(popped.error, 0);
+  ASSERT_EQ(static_cast<int>(popped.out), 0xa1);
+  ASSERT_TRUE(cr.isComplete());
+
+  // should error if we try to pop another utf8 byte out
+  popped = cr.pop_utf8();
+  ASSERT_NE(popped.error, 0);
+}