switched to bytes_processed

uzairnawaz · uzairnawaz · commit 3b6fccf53b40 · 2025-06-12T20:30:27.000Z
diff --git a/libc/src/__support/wchar/character_converter.cpp b/libc/src/__support/wchar/character_converter.cpp
@@ -19,15 +19,11 @@ namespace internal {
 
 CharacterConverter::CharacterConverter(mbstate *mbstate) { state = mbstate; }
 
-bool CharacterConverter::isComplete() {
-  return state->bits_processed / 8 == state->total_bytes;
-}
-
 int CharacterConverter::push(char8_t utf8_byte) { return utf8_byte; }
 
 int CharacterConverter::push(char32_t utf32) {
   state->partial = utf32;
-  state->bits_processed = 0;
+  state->bytes_processed = 0;
   state->total_bytes = 0;
 
   // determine number of utf-8 bytes needed to represent this utf32 value
@@ -51,7 +47,7 @@ utf_ret<char8_t> CharacterConverter::pop_utf8_seqlength1() {
   result.error = 0;
 
   // 0xxxxxxx
-  switch (state->bits_processed) {
+  switch (state->bytes_processed) {
   case 0:
     result.out = (char8_t)(state->partial);
     break;
@@ -60,7 +56,7 @@ utf_ret<char8_t> CharacterConverter::pop_utf8_seqlength1() {
     return result;
   }
 
-  state->bits_processed += 8;
+  state->bytes_processed++;
   return result;
 }
 
@@ -70,19 +66,19 @@ utf_ret<char8_t> CharacterConverter::pop_utf8_seqlength2() {
 
   // 110xxxxx 10xxxxxx
   char32_t utf32 = state->partial;
-  switch (state->bits_processed) {
+  switch (state->bytes_processed) {
   case 0:
     result.out = (char8_t)(0xC0 | (utf32 >> 6));
     break;
-  case 8:
+  case 1:
     result.out = (char8_t)(0x80 | (utf32 & 0x3f));
     break;
   default:
     result.error = -1;
     return result;
   }
 
-  state->bits_processed += 8;
+  state->bytes_processed++;
   return result;
 }
 
@@ -92,22 +88,22 @@ utf_ret<char8_t> CharacterConverter::pop_utf8_seqlength3() {
 
   // 1110xxxx 10xxxxxx 10xxxxxx
   char32_t utf32 = state->partial;
-  switch (state->bits_processed) {
+  switch (state->bytes_processed) {
   case 0:
     result.out = (char8_t)(0xE0 | (utf32 >> 12));
     break;
-  case 8:
+  case 1:
     result.out = (char8_t)(0x80 | ((utf32 >> 6) & 0x3f));
     break;
-  case 16:
+  case 2:
     result.out = (char8_t)(0x80 | (utf32 & 0x3f));
     break;
   default:
     result.error = -1;
     return result;
   }
 
-  state->bits_processed += 8;
+  state->bytes_processed++;
   return result;
 }
 
@@ -117,25 +113,25 @@ utf_ret<char8_t> CharacterConverter::pop_utf8_seqlength4() {
 
   // 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
   char32_t utf32 = state->partial;
-  switch (state->bits_processed) {
+  switch (state->bytes_processed) {
   case 0:
     result.out = (char8_t)(0xF0 | (utf32 >> 18));
     break;
-  case 8:
+  case 1:
     result.out = (char8_t)(0x80 | ((utf32 >> 12) & 0x3f));
     break;
-  case 16:
+  case 2:
     result.out = (char8_t)(0x80 | ((utf32 >> 6) & 0x3f));
     break;
-  case 24:
+  case 3:
     result.out = (char8_t)(0x80 | (utf32 & 0x3f));
     break;
   default:
     result.error = -1;
     return result;
   }
 
-  state->bits_processed += 8;
+  state->bytes_processed++;
   return result;
 }
 
diff --git a/libc/test/src/__support/wchar/utf32_to_8_test.cpp b/libc/test/src/__support/wchar/utf32_to_8_test.cpp
@@ -16,20 +16,22 @@ TEST(LlvmLibcCharacterConverterUTF32To8Test, OneByte) {
   LIBC_NAMESPACE::internal::mbstate state;
   LIBC_NAMESPACE::internal::CharacterConverter cr(&state);
 
-  char32_t utf32_A = 0x41;
+  // utf8 1-byte encodings are identical to their utf32 representations
+  char32_t utf32_A = 0x41; // 'A'
   cr.push(utf32_A);
   auto popped = cr.pop_utf8();
   ASSERT_EQ(popped.error, 0);
   ASSERT_EQ(static_cast<char>(popped.out), 'A');
   ASSERT_TRUE(cr.isComplete());
 
-  char32_t utf32_B = 0x42;
+  char32_t utf32_B = 0x42; // 'B'
   cr.push(utf32_B);
   popped = cr.pop_utf8();
   ASSERT_EQ(popped.error, 0);
   ASSERT_EQ(static_cast<char>(popped.out), 'B');
   ASSERT_TRUE(cr.isComplete());
 
+  // should error if we try to pop another utf8 byte out
   popped = cr.pop_utf8();
   ASSERT_NE(popped.error, 0);
 }
@@ -38,6 +40,7 @@ TEST(LlvmLibcCharacterConverterUTF32To8Test, TwoByte) {
   LIBC_NAMESPACE::internal::mbstate state;
   LIBC_NAMESPACE::internal::CharacterConverter cr(&state);
 
+  // testing utf32: 0xff -> utf8: 0xc3 0xbf
   char32_t utf32 = 0xff;
   cr.push(utf32);
   auto popped = cr.pop_utf8();
@@ -49,6 +52,7 @@ TEST(LlvmLibcCharacterConverterUTF32To8Test, TwoByte) {
   ASSERT_EQ(static_cast<int>(popped.out), 0xbf);
   ASSERT_TRUE(cr.isComplete());
 
+  // testing utf32: 0x58e -> utf8: 0xd6 0x8e
   utf32 = 0x58e;
   cr.push(utf32);
   popped = cr.pop_utf8();
@@ -60,6 +64,7 @@ TEST(LlvmLibcCharacterConverterUTF32To8Test, TwoByte) {
   ASSERT_EQ(static_cast<int>(popped.out), 0x8e);
   ASSERT_TRUE(cr.isComplete());
 
+  // should error if we try to pop another utf8 byte out
   popped = cr.pop_utf8();
   ASSERT_NE(popped.error, 0);
 }
@@ -68,6 +73,7 @@ TEST(LlvmLibcCharacterConverterUTF32To8Test, ThreeByte) {
   LIBC_NAMESPACE::internal::mbstate state;
   LIBC_NAMESPACE::internal::CharacterConverter cr(&state);
 
+  // testing utf32: 0xac15 -> utf8: 0xea 0xb0 0x95
   char32_t utf32 = 0xac15;
   cr.push(utf32);
   auto popped = cr.pop_utf8();
@@ -83,6 +89,7 @@ TEST(LlvmLibcCharacterConverterUTF32To8Test, ThreeByte) {
   ASSERT_EQ(static_cast<int>(popped.out), 0x95);
   ASSERT_TRUE(cr.isComplete());
 
+  // testing utf32: 0x267b -> utf8: 0xe2 0x99 0xbb
   utf32 = 0x267b;
   cr.push(utf32);
   popped = cr.pop_utf8();
@@ -98,6 +105,7 @@ TEST(LlvmLibcCharacterConverterUTF32To8Test, ThreeByte) {
   ASSERT_EQ(static_cast<int>(popped.out), 0xbb);
   ASSERT_TRUE(cr.isComplete());
 
+  // should error if we try to pop another utf8 byte out
   popped = cr.pop_utf8();
   ASSERT_NE(popped.error, 0);
 }
@@ -106,36 +114,47 @@ TEST(LlvmLibcCharacterConverterUTF32To8Test, FourByte) {
   LIBC_NAMESPACE::internal::mbstate state;
   LIBC_NAMESPACE::internal::CharacterConverter cr(&state);
 
-  char32_t utf32 = 0xac15;
+  // testing utf32: 0x1f921 -> utf8: 0xf0 0x9f 0xa4 0xa1
+  char32_t utf32 = 0x1f921;
   cr.push(utf32);
   auto popped = cr.pop_utf8();
   ASSERT_EQ(popped.error, 0);
-  ASSERT_EQ(static_cast<int>(popped.out), 0xea);
+  ASSERT_EQ(static_cast<int>(popped.out), 0xf0);
   ASSERT_TRUE(!cr.isComplete());
   popped = cr.pop_utf8();
   ASSERT_EQ(popped.error, 0);
-  ASSERT_EQ(static_cast<int>(popped.out), 0xb0);
+  ASSERT_EQ(static_cast<int>(popped.out), 0x9f);
   ASSERT_TRUE(!cr.isComplete());
   popped = cr.pop_utf8();
   ASSERT_EQ(popped.error, 0);
-  ASSERT_EQ(static_cast<int>(popped.out), 0x95);
+  ASSERT_EQ(static_cast<int>(popped.out), 0xa4);
+  ASSERT_TRUE(!cr.isComplete());
+  popped = cr.pop_utf8();
+  ASSERT_EQ(popped.error, 0);
+  ASSERT_EQ(static_cast<int>(popped.out), 0xa1);
   ASSERT_TRUE(cr.isComplete());
 
-  utf32 = 0x267b;
+  // testing utf32: 0x12121 -> utf8: 0xf0 0x92 0x84 0xa1
+  utf32 = 0x12121;
   cr.push(utf32);
   popped = cr.pop_utf8();
   ASSERT_EQ(popped.error, 0);
-  ASSERT_EQ(static_cast<int>(popped.out), 0xe2);
+  ASSERT_EQ(static_cast<int>(popped.out), 0xf0);
   ASSERT_TRUE(!cr.isComplete());
   popped = cr.pop_utf8();
   ASSERT_EQ(popped.error, 0);
-  ASSERT_EQ(static_cast<int>(popped.out), 0x99);
+  ASSERT_EQ(static_cast<int>(popped.out), 0x92);
   ASSERT_TRUE(!cr.isComplete());
   popped = cr.pop_utf8();
   ASSERT_EQ(popped.error, 0);
-  ASSERT_EQ(static_cast<int>(popped.out), 0xbb);
+  ASSERT_EQ(static_cast<int>(popped.out), 0x84);
+  ASSERT_TRUE(!cr.isComplete());
+  popped = cr.pop_utf8();
+  ASSERT_EQ(popped.error, 0);
+  ASSERT_EQ(static_cast<int>(popped.out), 0xa1);
   ASSERT_TRUE(cr.isComplete());
 
+  // should error if we try to pop another utf8 byte out
   popped = cr.pop_utf8();
   ASSERT_NE(popped.error, 0);
 }