microsoft
diff --git a/‎samples/features/sql2019notebooks/README.md‎
Lines changed: 7 additions & 0 deletions b/‎samples/features/sql2019notebooks/README.md‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎samples/features/unicode/DataType_WesternMyth.sql‎
Lines changed: 171 additions & 0 deletions b/‎samples/features/unicode/DataType_WesternMyth.sql‎
Lines changed: 171 additions & 0 deletions
diff --git a/‎samples/features/unicode/Functional.sql‎
Lines changed: 182 additions & 0 deletions b/‎samples/features/unicode/Functional.sql‎
Lines changed: 182 additions & 0 deletions
@@ -26,6 +26,13 @@ The [What's New](https://docs.microsoft.com/sql/sql-server/what-s-new-in-sql-ser
 * **[Basic_ADR.ipynb](https://github.com/microsoft/sql-server-samples/blob/master/samples/features/accelerated-database-recovery/basic_adr.ipynb)** - In this notebook, you will see how fast long-running transaction rollback can now be with Accelerated Database Recovery. You will also see that a long active transaction does not affect the ability to truncate the transaction log.
 * **[Recovery_ADR.ipynb](https://github.com/microsoft/sql-server-samples/blob/master/samples/features/accelerated-database-recovery/recovery_adr.ipynb)** - In this example, you will see how Accelerated Database Recovery will speed up recovery.
 
+### Unicode Support (UTF-8 and UTF-16)
+* **[DataType_WesternMyth.ipynb](https://github.com/microsoft/sql-server-samples/blob/master/samples/features/unicode/notebooks/DataType_WesternMyth.ipynb)**  - In this notebook, you will see proof that the integer that defines the length of string types (CHAR/VARCHAR/NCHAR/NVARCHAR) does not mean "number of characters" but "number of byte sto store", debunking a common misconception in SQL Server.
+* **[Functional.ipynb](https://github.com/microsoft/sql-server-samples/blob/master/samples/features/unicode/notebooks/Functional.ipynb)** - In this notebook, you will see how to use UTF-8 in your database or columns.
+* **[Storage.ipynb](https://github.com/microsoft/sql-server-samples/blob/master/samples/features/unicode/notebooks/Storage.ipynb)** - In this notebook, you will see how to the storage footprint differences are expressive between Unicode encoded in UTF-8 and UTF-16.
+* **[Perf_Latin.ipynb](https://github.com/microsoft/sql-server-samples/blob/master/samples/features/unicode/notebooks/Perf_Latin.ipynb)** - In this notebook, you will see the performance differences of using string data encoded in UTF-8 and UTF-16 using Latin data.
+* **[Perf_Non-Latin.ipynb](https://github.com/microsoft/sql-server-samples/blob/master/samples/features/unicode/notebooks/Perf_Non-Latin.ipynb)** - In this notebook, you will see the performance differences of using string data encoded in UTF-8 and UTF-16 using non-Latin data.
+
 ### SQL Server 2019 Querying 1 TRILLION rows
 * **[OneTrillionRowsWarm.ipynb](https://github.com/microsoft/sql-server-samples/blob/master/samples/features/sql2019notebooks/OneTrillionRowsWarm.ipynb)** - This notebook shows how SQL Server 2019 reads **9 BILLION rows/second** using a 1 trillion row table using a warm cache,
 * **[OneTrillionRowsCold.ipynb](https://github.com/microsoft/sql-server-samples/blob/master/samples/features/sql2019notebooks/OneTrillionRowsCold.ipynb)** - This notebook shows how SQL Server 2019 performs IO at **~24GB/s** using a 1 trillion row table with a cold cache.
 
@@ -0,0 +1,171 @@
+----------------------------------------------
+-- Data type sizes - a western myth
+----------------------------------------------
+
+-- Note: my server default is SQL_Latin1_General_CP1_CI_AS
+
+-- Test Latin character strings with Latin collation
+-- Set size limit of data types to be the same under Basic Multilingual Plane (BMP)
+-- Characters between 1-byte (ASCII) and 3-bytes (East Asian)
+
+DROP TABLE IF EXISTS t1;
+CREATE TABLE t1 (c1 varchar(24) COLLATE Latin1_General_100_CI_AI, 
+	c2 nvarchar(8) COLLATE Latin1_General_100_CI_AI);  
+INSERT INTO t1 VALUES (N'MyString', N'MyString')  
+SELECT LEN(c1) AS [varchar LEN],  
+	DATALENGTH(c1) AS [varchar DATALENGTH], c1
+FROM t1;  
+SELECT LEN(c2) AS [nvarchar LEN], 
+	DATALENGTH(c2) AS [nvarchar DATALENGTH], c2 
+FROM t1;
+GO
+
+
+
+
+
+-- That's as expected. So what was I talking about?
+
+
+
+
+
+-- Test Chinese character strings with Latin collation
+DROP TABLE IF EXISTS t1;
+CREATE TABLE t1 (c1 varchar(24) COLLATE Latin1_General_100_CI_AI, 
+	c2 nvarchar(8) COLLATE Latin1_General_100_CI_AI);  
+INSERT INTO t1 VALUES (N'敏捷的棕色狐狸跳', N'敏捷的棕色狐狸跳')  
+SELECT LEN(c1) AS [varchar LEN],  
+	DATALENGTH(c1) AS [varchar DATALENGTH], c1
+FROM t1;  
+SELECT LEN(c2) AS [nvarchar LEN], 
+	DATALENGTH(c2) AS [nvarchar DATALENGTH], c2 
+FROM t1;
+GO
+
+
+
+-- uh-oh data loss on the varchar example. Why?
+-- varchar is bound to code page enconding, and these code points cannot be found in the Latin code page.
+SELECT ASCII('敏' COLLATE Latin1_General_100_CI_AI), CHAR(63)
+SELECT ASCII('捷' COLLATE Latin1_General_100_CI_AI), CHAR(63)
+
+
+
+
+
+
+-- But why didn't it happen in the nvarchar example?
+-- These Chinese characters are double-byte and within the Basic Multilingual Plane (BMP)
+-- nvarchar with this non-SC collation encodes in UCS-2 (BMP), not the code page
+SELECT UNICODE(N'敏' COLLATE Latin1_General_100_CI_AI), NCHAR(25935)
+SELECT UNICODE(N'捷' COLLATE Latin1_General_100_CI_AI), NCHAR(25463)
+
+
+
+
+-- Irrespective of collation now. With a Unicode capable data type,
+-- collation only sets linguistic algorithms 
+-- (Compare = sort; Case sensitivity = Upper/Lowercase)
+SELECT UNICODE(N'敏' COLLATE Chinese_Traditional_Stroke_Order_100_CI_AI), NCHAR(25935)
+SELECT UNICODE(N'捷' COLLATE Chinese_Traditional_Stroke_Order_100_CI_AI), NCHAR(25463)
+
+
+
+-- Now test Chinese character strings with Chinese collation
+DROP TABLE IF EXISTS t2;
+CREATE TABLE t2 (c1 varchar(24) COLLATE Chinese_Traditional_Stroke_Order_100_CI_AI, 
+	c2 nvarchar(8) COLLATE Chinese_Traditional_Stroke_Order_100_CI_AI);  
+INSERT INTO t2 VALUES (N'敏捷的棕色狐狸跳', N'敏捷的棕色狐狸跳')  
+SELECT LEN(c1) AS [varchar LEN],  
+	DATALENGTH(c1) AS [varchar DATALENGTH], c1
+FROM t2;  
+SELECT LEN(c2) AS [nvarchar LEN], 
+	DATALENGTH(c2) AS [nvarchar DATALENGTH], c2 
+FROM t2;
+GO
+
+
+-- Now the varchar example is correct. But there's 2 bytes per character?...
+-- Myth buster: code page defines string length for varchar. It's not always 1 byte per character.
+-- Wasn't East-Asian 3 bytes? Yes, but under Chinese collation code page, 
+-- they are encoded using 2 bytes just like UCS-2/UTF-16
+
+
+
+-- Test with Supplementary Characters (4 bytes) and using SC
+DROP TABLE IF EXISTS t2;
+CREATE TABLE t2 (c1 varchar(24) COLLATE Chinese_Traditional_Stroke_Order_100_CI_AI_SC, 
+	c2 nvarchar(8) COLLATE Chinese_Traditional_Stroke_Order_100_CI_AI_SC);  
+INSERT INTO t2 VALUES (N'👶👦👧👨👩👴👵👨', N'👶👦👧👨👩👴👵👨')  
+SELECT LEN(c1) AS [varchar LEN],  
+	DATALENGTH(c1) AS [varchar DATALENGTH], c1
+FROM t2;  
+SELECT LEN(c2) AS [nvarchar LEN], 
+	DATALENGTH(c2) AS [nvarchar DATALENGTH], c2 
+FROM t2;
+GO
+
+
+
+-- Fix the error
+DROP TABLE IF EXISTS t2;
+CREATE TABLE t2 (c1 varchar(24) COLLATE Chinese_Traditional_Stroke_Order_100_CI_AI_SC, 
+	c2 nvarchar(16) COLLATE Chinese_Traditional_Stroke_Order_100_CI_AI_SC);  
+INSERT INTO t2 VALUES (N'👶👦👧👨👩👴👵👨', N'👶👦👧👨👩👴👵👨')  
+SELECT LEN(c1) AS [varchar LEN],  
+	DATALENGTH(c1) AS [varchar DATALENGTH], c1
+FROM t2;  
+SELECT LEN(c2) AS [nvarchar LEN], 
+	DATALENGTH(c2) AS [nvarchar DATALENGTH], c2 
+FROM t2;
+GO
+
+
+-- Varchar still doesn't encode? 
+DROP TABLE IF EXISTS t2;
+CREATE TABLE t2 (c1 varchar(48) COLLATE Chinese_Traditional_Stroke_Order_100_CI_AI_SC_UTF8, 
+	c2 nvarchar(16) COLLATE Chinese_Traditional_Stroke_Order_100_CI_AI_SC);  
+INSERT INTO t2 VALUES (N'👶👦👧👨👩👴👵👨', N'👶👦👧👨👩👴👵👨')  
+SELECT LEN(c1) AS [varchar LEN],  
+	DATALENGTH(c1) AS [varchar DATALENGTH], c1
+FROM t2;  
+SELECT LEN(c2) AS [nvarchar LEN], 
+	DATALENGTH(c2) AS [nvarchar DATALENGTH], c2 
+FROM t2;
+GO
+
+
+
+
+-- What if I needed all these in one database? Easy, I could just use nvarchar.
+DROP TABLE IF EXISTS t3;
+CREATE TABLE t3 (c1 nvarchar(110) COLLATE Latin1_General_100_CI_AI_SC);  
+INSERT INTO t3 VALUES (N'MyStringThequickbrownfoxjumpsoverthelazydogIsLatinAscii敏捷的棕色狐狸跳👶👦')  
+SELECT LEN(c1) AS [nvarchar UTF16 LEN],  
+	DATALENGTH(c1) AS [nvarchar UTF16 DATALENGTH], c1
+FROM t3; 
+GO
+
+
+
+
+-- But the majority of my data is set to Latin (ASCII)
+DROP TABLE IF EXISTS t4;
+CREATE TABLE t4 (c1 varchar(110) COLLATE Latin1_General_100_CI_AI_SC);  
+INSERT INTO t4 VALUES (N'MyStringThequickbrownfoxjumpsoverthelazydogIsLatinAscii敏捷的棕色狐狸跳👶👦')  
+SELECT LEN(c1) AS [varchar UTF16 LEN],  
+	DATALENGTH(c1) AS [varchar UTF16 DATALENGTH], c1
+FROM t4; 
+GO
+
+
+
+-- Where are the savings?
+SELECT DATALENGTH(N'MyStringThequickbrownfoxjumpsoverthelazydogIsLatinAscii') AS [Latin_UTF16_2bytes], 
+	DATALENGTH(N'敏捷的棕色狐狸跳') AS [Chinese_UTF16_2bytes], 
+	DATALENGTH(N'👶👦') AS [SC_UTF16_4bytes]
+SELECT DATALENGTH('MyStringThequickbrownfoxjumpsoverthelazydogIsLatinAscii' COLLATE Latin1_General_100_CI_AI_SC_UTF8) AS [Latin_UTF8_1byte], 
+	DATALENGTH('敏捷的棕色狐狸跳' COLLATE Latin1_General_100_CI_AI_SC_UTF8) AS [Chinese_UTF8_3bytes], 
+	DATALENGTH('👶👦' COLLATE Latin1_General_100_CI_AI_SC_UTF8) AS [SC_UTF8_4bytes]
+GO
@@ -0,0 +1,182 @@
+----------------------------------------------
+-- UTF-8 Functional
+----------------------------------------------
+
+USE master;
+GO
+
+DROP DATABASE IF EXISTS MyNonUtf8Database;
+
+DROP DATABASE IF EXISTS MyUtf8Database;
+
+DROP DATABASE IF EXISTS MyFormerlyUnicodeOnlyDatabase;
+
+DROP DATABASE IF EXISTS MaskingDatabase;
+
+--
+-- Create a database that is NOT collated with UTF-8.
+-- This demonstrates that you can insert Unicode data into VARCHAR columns collated with UTF-8.
+--
+CREATE DATABASE MyNonUtf8Database COLLATE SQL_Latin1_General_CP1_CI_AI;
+GO
+
+USE MyNonUtf8Database;
+GO
+
+CREATE TABLE MyUtf8Table (datakind VARCHAR(100), data VARCHAR(8000) COLLATE Latin1_General_100_CI_AS_SC_UTF8);
+GO
+
+INSERT INTO MyUtf8Table
+VALUES ('ASCII - 1 byte per character', N'Thequickbrownfoxjumpsoverthelazydog'), 
+	('Cyrillic - 2 bytes per character', N'Быстраякоричневаялисапрыгаетчерезленивуюсобаку'), 
+	('Far East - 3 bytes per character', N'敏捷的棕色狐狸跳过了懒狗'), 
+	('Emojis - 4 bytes per character', N'👶👦👧👨👩👴👵👨👩👨👩👨👩👨👩'), 
+	('Emojis with Variation Selector - 6 bytes per glyph', N'⚕️⚖️↔︎↕︎↖︎↗︎↘︎↙︎↩︎↪︎↔️↕️↖️↗️↘️↙️↩️↪️'), 
+	('Ashi with Supplementary Variation Selector - 7 bytes per glyph', N'芦󠄀芦󠄁芦󠄂芦󠄃芦󠄄芦󠄅芦󠄆芦󠄇芦󠄈芦󠄉芦󠄃芦󠄂芦󠄁芦󠄀芦󠄁芦󠄂芦󠄃芦󠄄芦󠄈芦󠄉');
+GO
+
+SELECT datakind, data
+FROM MyUtf8Table;
+GO
+
+-- This demo used the N' syntax, as string literals are always collated in the collation
+-- of the currently active database.
+
+
+
+--
+-- Create a database collated with UTF-8.
+-- This is to demonstrate that now string literals can be used without N'', 
+-- as string literals are collated with the database collation, and can hold any characters.
+-- 
+CREATE DATABASE MyUtf8Database COLLATE Lithuanian_100_CS_AI_WS_SC_UTF8;
+GO
+
+USE MyUtf8Database;
+GO
+
+CREATE TABLE MyTableWithInheritedCollation (datakind VARCHAR(100), data VARCHAR(8000));
+GO
+
+INSERT INTO MyTableWithInheritedCollation
+VALUES ('ASCII - 1 byte per character', 'Thequickbrownfoxjumpsoverthelazydog'), 
+	('Cyrillic - 2 bytes per character', 'Быстраякоричневаялисапрыгаетчерезленивуюсобаку'), 
+	('Far East - 3 bytes per character', '敏捷的棕色狐狸跳过了懒狗'), 
+	('Emojis - 4 bytes per character', '👶👦👧👨👩👴👵👨👩👨👩👨👩👨👩'), 
+	('Emojis with Variation Selector - 6 bytes per glyph', '⚕️⚖️↔︎↕︎↖︎↗︎↘︎↙︎↩︎↪︎↔️↕️↖️↗️↘️↙️↩️↪️'), 
+	('Ashi with Supplementary Variation Selector - 7 bytes per glyph', '芦󠄀芦󠄁芦󠄂芦󠄃芦󠄄芦󠄅芦󠄆芦󠄇芦󠄈芦󠄉芦󠄃芦󠄂芦󠄁芦󠄀芦󠄁芦󠄂芦󠄃芦󠄄芦󠄈芦󠄉');
+GO
+
+SELECT datakind, data
+FROM MyTableWithInheritedCollation;
+GO
+
+--
+-- Create a collation prefixed with formerly Unicode-only collation (not having its own Windows code page).
+-- You can do it now.
+--
+CREATE DATABASE GonnaFailDueToUnicodeOnlyCollation COLLATE Lao_100_CS_AS_KS_WS_SC;
+GO
+
+CREATE DATABASE MyFormerlyUnicodeOnlyDatabase COLLATE Lao_100_CS_AS_KS_WS_SC_UTF8;
+GO
+
+USE MyFormerlyUnicodeOnlyDatabase;
+GO
+
+CREATE TABLE MyFormerlyUnicodeOnlyTable (datakind VARCHAR(100), data VARCHAR(8000));
+GO
+
+INSERT INTO MyFormerlyUnicodeOnlyTable (datakind, data)
+SELECT datakind, data
+FROM MyNonUtf8Database..MyUtf8Table;
+GO
+
+SELECT datakind, data
+FROM MyFormerlyUnicodeOnlyTable;
+GO
+
+
+
+
+
+
+
+
+
+--
+-- Demo of one orthogonality feature - data masking
+--
+CREATE DATABASE MaskingDatabase COLLATE Chinese_PRC_90_CI_AI_SC_UTF8;
+GO
+
+USE MaskingDatabase;
+GO
+
+CREATE user ToBeKeptAway without LOGIN;
+GO
+
+CREATE TABLE KeepAway (top_secret_data VARCHAR(8000) COLLATE Mapudungan_100_CS_AS_SC_UTF8 masked 
+WITH (FUNCTION = 'partial(2, "💩💩💩💩💩", 2)'));
+GO
+
+INSERT INTO KeepAway (top_secret_data)
+SELECT data
+FROM MyNonUtf8Database..MyUtf8Table;
+GO
+
+GRANT SELECT
+	ON KeepAway
+	TO ToBeKeptAway;
+GO
+
+EXECUTE AS user = 'ToBeKeptAway';
+
+SELECT top_secret_data
+FROM KeepAway;
+
+REVERT;
+GO
+
+----------------------------
+/*
+See how many bytes each character requires for both UTF-8 and UTF-16 encodings. 
+Returns all 65,536 BMP (Base Multilingual Plan) characters (which is also the entire UCS-2 character set), and 3 Supplementary Characters. 
+Since all Supplementary Characters are 4 bytes in both encodings, there is no need to return more of them, but we do need to see a few of them to see that they are:
+a) all 4 bytes
+b) encoded slightly differently
+*/
+	;
+
+WITH nums ([CodePoint])
+AS (
+	SELECT TOP (65536) (
+			ROW_NUMBER() OVER (
+				ORDER BY (
+						SELECT 0
+						)
+				) - 1
+			)
+	FROM [master].[sys].[columns] col
+	CROSS JOIN [master].[sys].[objects] obj
+	), chars
+AS (
+	SELECT nums.[CodePoint], CONVERT(VARCHAR(4), NCHAR(nums.[CodePoint]) COLLATE Latin1_General_100_CI_AS_SC_UTF8) AS [TheChar], CONVERT(VARBINARY(4), CONVERT(VARCHAR(4), NCHAR(nums.[CodePoint]) COLLATE Latin1_General_100_CI_AS_SC_UTF8)) AS [UTF8]
+	FROM nums
+	
+	UNION ALL
+	
+	SELECT tmp.val, CONVERT(VARCHAR(4), CONVERT(NVARCHAR(5), tmp.hex) COLLATE Latin1_General_100_CI_AS_SC_UTF8) AS [TheChar], CONVERT(VARBINARY(4), CONVERT(VARCHAR(4), CONVERT(NVARCHAR(5), tmp.hex) COLLATE Latin1_General_100_CI_AS_SC_UTF8)) AS [UTF8]
+	FROM (
+		VALUES (65536, 0x00D800DC), -- Linear B Syllable B008 A (U+10000)
+			(67618, 0x02D822DC), -- Cypriot Syllable Pu (U+10822)
+			(129384, 0x3ED868DD) -- Pretzel (U+1F968)
+		) tmp(val, hex)
+	)
+SELECT chr.[CodePoint], COALESCE(chr.[TheChar], N'TOTALS:') AS [Character], chr.[UTF8] AS [UTF8_Hex], DATALENGTH(chr.[UTF8]) AS [UTF8_Bytes], COUNT(CASE DATALENGTH(chr.[UTF8]) WHEN 1 THEN 'x' END) AS [1-byte], COUNT(CASE DATALENGTH(chr.[UTF8]) WHEN 2 THEN 'x' END) AS [2-bytes], COUNT(CASE DATALENGTH(chr.[UTF8]) WHEN 3 THEN 'x' END) AS [3-bytes], COUNT(CASE DATALENGTH(chr.[UTF8]) WHEN 4 THEN 'x' END) AS [4-bytes],
+	---
+	CONVERT(VARBINARY(4), CONVERT(NVARCHAR(3), chr.[TheChar])) AS [UTF16(LE)_Hex], DATALENGTH(CONVERT(NVARCHAR(3), chr.[TheChar])) AS [UTF16_Bytes],
+	---
+	((DATALENGTH(CONVERT(NVARCHAR(3), chr.[TheChar]))) - (DATALENGTH(chr.[TheChar]))) AS [UTF8savingsOverUTF16]
+FROM chars chr
+GROUP BY ROLLUP((chr.[CodePoint], chr.[TheChar], chr.[UTF8]));