Added manual UTF-8 to UTF-16 conversion implementation.

stgates · stgates · commit ecae840c3269 · 2015-05-04T17:54:04.000-07:00
diff --git a/Release/src/utilities/asyncrt_utils.cpp b/Release/src/utilities/asyncrt_utils.cpp
@@ -32,7 +32,7 @@
 
 // Could use C++ standard library if not __GLIBCXX__,
 // For testing purposes we just the handwritten on all platforms.
-#if defined(CPPREST_STDLIB_UTF_CONVERSIONS)
+#if defined(CPPREST_STDLIB_UNICODE_CONVERSIONS)
 #include <codecvt>
 #endif
 
@@ -252,25 +252,100 @@ const std::error_category & __cdecl linux_category()
 
 }
 
-utf16string __cdecl conversions::utf8_to_utf16(const std::string &src)
+utf16string __cdecl conversions::utf8_to_utf16(const std::string &s)
 {
-#if defined(CPPREST_STDLIB_UTF_CONVERSIONS)
+#if defined(CPPREST_STDLIB_UNICODE_CONVERSIONS)
     std::wstring_convert<std::codecvt_utf8_utf16<utf16char>, utf16char> conversion;
     return conversion.from_bytes(src);
 #else
+    utf16string dest;
+    // Save repeated heap allocations, use less than source string size assuming some
+    // of the characters are not just ASCII and collapse.
+    dest.reserve(static_cast<size_t>(s.size() * .70));
+    
+    const unsigned char *src = reinterpret_cast<const unsigned char *>(s.c_str());
+    auto srcRemainingSize = s.size();
+    const auto leadingBits = 0x3F;
+    while (srcRemainingSize > 0)
+    {
+        if (*src < 0x80) // single byte character, 0x0 to 0x7F
+        {
+            dest.push_back(utf16string::value_type(*src));
+        }
+        else
+        {
+            unsigned char numContBytes = 0;
+            int32_t codePoint;
+            if (*src < 0xE0) // 2 byte character, 0x80 to 0x7FF
+            {
+                codePoint = *src & 0x1F;
+                numContBytes = 1;
+            }
+            else if (*src < 0xF0) // 3 byte character, 0x800 to 0xFFFF
+            {
+                codePoint = *src & 0xF;
+                numContBytes = 2;
+            }
+            else if (*src < 0xF8) // 4 byte character, 0x10000 to 0x10FFFF
+            {
+                codePoint = *src & 0x7;
+                numContBytes = 3;
+            }
+            else
+            {
+                throw std::invalid_argument("UTF-8 string has invalid Unicode code point");
+            }
+            srcRemainingSize -= numContBytes;
+            if (srcRemainingSize == 0)
+            {
+                throw std::invalid_argument("UTF-8 string is missing bytes in character");
+            }
+
+            for (unsigned char i = 0; i < numContBytes; ++i)
+            {
+                codePoint <<= 6;
+                codePoint |= *++src & leadingBits;
+            }
+
+            if (numContBytes == 3)
+            {
+                // In UTF-16 U+1000 to U+10FFFF are represented as two 16-bit code units, surrogate pairs.
+                //  - 0x10000 is subtracted from the code point
+                //  - high surrogate is 0xD800 added to the top ten bits
+                //  - low surrogate is 0xDC00 added to the low ten bits
+                codePoint -= 0x10000;
+                dest.push_back(utf16string::value_type((codePoint >> 10) + 0xD800));
+                dest.push_back(utf16string::value_type((codePoint & 0x3FF) + 0xDC00));
+            }
+            else
+            {
+                // In UTF-16 U+0000 to U+D7FF and U+E000 to U+FFFF are represented exactly as the Unicode code point value.
+                // U+D800 to U+DFFF are not valid characters, for simplicity we assume they are not present but will encode
+                // them if encountered.
+                dest.push_back(utf16string::value_type(codePoint));
+            }
+        }
 
-    // TODO
+        --srcRemainingSize;
+        ++src;
+    }
+    return dest;
 #endif
 }
 
 std::string __cdecl conversions::utf16_to_utf8(const utf16string &w)
 {
-#if defined(CPPREST_STDLIB_UTF_CONVERSIONS)
-    std::wstring_convert<std::codecvt_utf8_utf16<utf16char>, utf16char> conversion;
-    return conversion.to_bytes(w);
-#else
-    // TODO
-#endif
+ #if defined(CPPREST_STDLIB_UNICODE_CONVERSIONS)
+     std::wstring_convert<std::codecvt_utf8_utf16<utf16char>, utf16char> conversion;
+     return conversion.to_bytes(w);
+ #else
+    std::string dest;
+    dest.reserve(w.size());
+
+    
+
+    return dest;
+ #endif
 }
 
 utf16string __cdecl conversions::usascii_to_utf16(const std::string &s)
diff --git a/Release/tests/functional/utils/strings.cpp b/Release/tests/functional/utils/strings.cpp
@@ -25,6 +25,10 @@
 
 #include "stdafx.h"
 
+#if !defined(__GLIBCXX__)
+#include <codecvt>
+#endif
+
 #include <locale_guard.h>
 
 using namespace utility;
@@ -44,17 +48,86 @@ TEST(usascii_to_utf16)
         VERIFY_ARE_EQUAL((utf16char)str_ascii[i], str_utf16[i]);
     }
 }
-    
-TEST(default_to_utf16)
+
+TEST(utf8_to_utf16)
 {
-    // TODO: find some string that actually uses something unique to the default code page.
-    std::string str_default("This is a test");
-    utf16string str_utf16 = utility::conversions::usascii_to_utf16(str_default);
-    
-    for (size_t i = 0; i < str_default.size(); ++i)
-    {
-        VERIFY_ARE_EQUAL((utf16char)str_default[i], str_utf16[i]);
-    }
+#if !defined(__GLIBCXX__)
+    std::wstring_convert<std::codecvt_utf8_utf16<utf16char>, utf16char> conversion;
+#endif
+
+    // single byte character
+    VERIFY_ARE_EQUAL(_XPLATSTR("ABC123"), utility::conversions::utf8_to_utf16("ABC123"));
+
+    // 2 byte character
+    std::string input;
+    input.push_back(unsigned char(207)); // 11001111
+    input.push_back(unsigned char(129)); // 10000001
+    input.push_back(unsigned char(198)); // 11000110
+    input.push_back(unsigned char(141)); // 10001101
+    auto result = utility::conversions::utf8_to_utf16(input);
+#if defined(__GLIBCXX__)
+    VERIFY_ARE_EQUAL(961, result[0]);
+    VERIFY_ARE_EQUAL(397, result[1]);
+#else
+    VERIFY_ARE_EQUAL(conversion.from_bytes(input), result);
+#endif
+
+    // 3 byte character
+    input.clear();
+    input.push_back(unsigned char(230)); // 11100110
+    input.push_back(unsigned char(141)); // 10001101
+    input.push_back(unsigned char(157)); // 10011101
+    input.push_back(unsigned char(231)); // 11100111
+    input.push_back(unsigned char(143)); // 10001111
+    input.push_back(unsigned char(156)); // 10011100
+    result = utility::conversions::utf8_to_utf16(input);
+#if defined(__GLIBCXX__)
+    VERIFY_ARE_EQUAL(25437, result[0]);
+    VERIFY_ARE_EQUAL(29660, result[1]);
+#else
+    VERIFY_ARE_EQUAL(conversion.from_bytes(input), result);
+#endif
+
+    // 4 byte character
+    input.clear();
+    input.push_back(unsigned char(240)); // 11110000
+    input.push_back(unsigned char(173)); // 10101101
+    input.push_back(unsigned char(157)); // 10011101
+    input.push_back(unsigned char(143)); // 10001111
+    input.push_back(unsigned char(240)); // 11111000
+    input.push_back(unsigned char(161)); // 10100001
+    input.push_back(unsigned char(191)); // 10111111
+    input.push_back(unsigned char(191)); // 10111111
+    result = utility::conversions::utf8_to_utf16(input);
+#if defined(__GLIBCXX__)
+    VERIFY_ARE_EQUAL(55413, result[0]);
+    VERIFY_ARE_EQUAL(57167, result[1]);
+    VERIFY_ARE_EQUAL(55296, result[2]);
+    VERIFY_ARE_EQUAL(57160, result[3]);
+#else
+    VERIFY_ARE_EQUAL(conversion.from_bytes(input), result);
+#endif
+}
+
+TEST(utf8_to_utf16_errors)
+{
+    // missing second continuation byte
+    std::string input;
+    input.push_back(unsigned char(207)); // 11001111
+    VERIFY_THROWS(utility::conversions::utf8_to_utf16(input), std::invalid_argument);
+
+    // missing third continuation byte
+    input.clear();
+    input.push_back(unsigned char(230)); // 11100110
+    input.push_back(unsigned char(141)); // 10001101
+    VERIFY_THROWS(utility::conversions::utf8_to_utf16(input), std::invalid_argument);
+
+    // missing fourth continuation byte
+    input.clear();
+    input.push_back(unsigned char(240)); // 11110000
+    input.push_back(unsigned char(173)); // 10101101
+    input.push_back(unsigned char(157)); // 10011101
+    VERIFY_THROWS(utility::conversions::utf8_to_utf16(input), std::invalid_argument);
 }
 
 TEST(latin1_to_utf16)