Initial support for dialects

lu-zero · lu-zero · commit acbf5e791238 · 2025-10-07T20:09:02.000+02:00
diff --git a/src/lib.rs b/src/lib.rs
@@ -27,6 +27,17 @@ pub fn format(query: &str, params: &QueryParams, options: &FormatOptions) -> Str
     formatter::format(&tokens, params, options)
 }
 
+/// The SQL dialect to use
+#[derive(Debug, Clone, Copy, PartialEq, Eq)]
+pub enum Dialect {
+    /// Best effort, most dialect-specific constructs are disabled
+    Generic,
+    /// It considers array notations
+    PostgreSql,
+    /// It uses the `[brakets to quote]` notation
+    SQLServer,
+}
+
 /// Options for controlling how the library formats SQL
 #[derive(Debug, Clone)]
 pub struct FormatOptions<'a> {
@@ -68,6 +79,10 @@ pub struct FormatOptions<'a> {
     ///
     /// Default: false,
     pub joins_as_top_level: bool,
+    /// Tell the SQL dialect to use
+    ///
+    /// Default: Generic
+    pub dialect: Dialect,
 }
 
 impl<'a> Default for FormatOptions<'a> {
@@ -82,6 +97,7 @@ impl<'a> Default for FormatOptions<'a> {
             max_inline_arguments: None,
             max_inline_top_level: None,
             joins_as_top_level: false,
+            dialect: Dialect::Generic,
         }
     }
 }
@@ -1328,7 +1344,10 @@ mod tests {
     #[test]
     fn it_recognizes_bracketed_strings() {
         let inputs = ["[foo JOIN bar]", "[foo ]] JOIN bar]"];
-        let options = FormatOptions::default();
+        let options = FormatOptions {
+            dialect: Dialect::SQLServer,
+            ..Default::default()
+        };
         for input in &inputs {
             assert_eq!(&format(input, &QueryParams::None, &options), input);
         }
@@ -1338,7 +1357,10 @@ mod tests {
     fn it_recognizes_at_variables() {
         let input =
             "SELECT @variable, @a1_2.3$, @'var name', @\"var name\", @`var name`, @[var name];";
-        let options = FormatOptions::default();
+        let options = FormatOptions {
+            dialect: Dialect::SQLServer,
+            ..Default::default()
+        };
         let expected = indoc!(
             "
             SELECT
@@ -1363,7 +1385,10 @@ mod tests {
             ("var name".to_string(), "'var value'".to_string()),
             ("var\\name".to_string(), "'var\\ value'".to_string()),
         ];
-        let options = FormatOptions::default();
+        let options = FormatOptions {
+            dialect: Dialect::SQLServer,
+            ..Default::default()
+        };
         let expected = indoc!(
             "
             SELECT
@@ -1386,7 +1411,10 @@ mod tests {
     fn it_recognizes_colon_variables() {
         let input =
             "SELECT :variable, :a1_2.3$, :'var name', :\"var name\", :`var name`, :[var name];";
-        let options = FormatOptions::default();
+        let options = FormatOptions {
+            dialect: Dialect::SQLServer,
+            ..Default::default()
+        };
         let expected = indoc!(
             "
             SELECT
@@ -1419,7 +1447,10 @@ mod tests {
                 "'super weird value'".to_string(),
             ),
         ];
-        let options = FormatOptions::default();
+        let options = FormatOptions {
+            dialect: Dialect::SQLServer,
+            ..Default::default()
+        };
         let expected = indoc!(
             "
             SELECT
diff --git a/src/tokenizer.rs b/src/tokenizer.rs
@@ -8,7 +8,7 @@ use winnow::prelude::*;
 use winnow::token::{any, one_of, rest, take, take_until, take_while};
 use winnow::Result;
 
-use crate::FormatOptions;
+use crate::{Dialect, FormatOptions};
 
 pub(crate) fn tokenize<'a>(
     mut input: &'a str,
@@ -32,6 +32,7 @@ pub(crate) fn tokenize<'a>(
         last_reserved_token.clone(),
         last_reserved_top_level_token.clone(),
         named_placeholders,
+        options.dialect,
     ) {
         match result.kind {
             TokenKind::Reserved => {
@@ -124,13 +125,14 @@ fn get_next_token<'a>(
     last_reserved_token: Option<Token<'a>>,
     last_reserved_top_level_token: Option<Token<'a>>,
     named_placeholders: bool,
+    dialect: Dialect,
 ) -> Result<Token<'a>> {
     alt((
         get_comment_token,
         |input: &mut _| get_type_specifier_token(input, previous_token.clone()),
-        get_string_token,
-        get_open_paren_token,
-        get_close_paren_token,
+        |input: &mut _| get_string_token(input, dialect),
+        |input: &mut _| get_open_paren_token(input, dialect),
+        |input: &mut _| get_close_paren_token(input, dialect),
         get_number_token,
         |input: &mut _| {
             get_reserved_word_token(
@@ -141,7 +143,7 @@ fn get_next_token<'a>(
             )
         },
         get_operator_token,
-        |input: &mut _| get_placeholder_token(input, named_placeholders),
+        |input: &mut _| get_placeholder_token(input, named_placeholders, dialect),
         get_word_token,
         get_any_other_char,
     ))
@@ -237,10 +239,10 @@ pub fn take_till_escaping<'a>(
 // 4. single quoted string using '' or \' to escape
 // 5. national character quoted string using N'' or N\' to escape
 // 6. hex(blob literal) does not need to escape
-fn get_string_token<'i>(input: &mut &'i str) -> Result<Token<'i>> {
+fn get_string_token<'i>(input: &mut &'i str, dialect: Dialect) -> Result<Token<'i>> {
     dispatch! {any;
         '`' => (take_till_escaping('`', &['`']), any).void(),
-        '[' => (take_till_escaping(']', &[']']), any).void(),
+        '[' if dialect == Dialect::SQLServer => (take_till_escaping(']', &[']']), any).void(),
         '"' => (take_till_escaping('"', &['"', '\\']), any).void(),
         '\'' => (take_till_escaping('\'', &['\'', '\\']), any).void(),
         'N' => ('\'', take_till_escaping('\'', &['\'', '\\']), any).void(),
@@ -260,10 +262,10 @@ fn get_string_token<'i>(input: &mut &'i str) -> Result<Token<'i>> {
 }
 
 // Like above but it doesn't replace double quotes
-fn get_placeholder_string_token<'i>(input: &mut &'i str) -> Result<Token<'i>> {
+fn get_placeholder_string_token<'i>(input: &mut &'i str, dialect: Dialect) -> Result<Token<'i>> {
     dispatch! {any;
         '`'=>( take_till_escaping('`', &['`']), any).void(),
-        '['=>( take_till_escaping(']', &[']']), any).void(),
+        '[' if dialect == Dialect::SQLServer =>( take_till_escaping(']', &[']']), any).void(),
         '"'=>( take_till_escaping('"', &['\\']), any).void(),
         '\''=>( take_till_escaping('\'', &['\\']), any).void(),
         'N' =>('\'', take_till_escaping('\'', &['\\']), any).void(),
@@ -279,44 +281,57 @@ fn get_placeholder_string_token<'i>(input: &mut &'i str) -> Result<Token<'i>> {
     })
 }
 
-fn get_open_paren_token<'i>(input: &mut &'i str) -> Result<Token<'i>> {
-    alt(("(", terminated(Caseless("CASE"), end_of_word)))
-        .parse_next(input)
-        .map(|token| Token {
-            kind: TokenKind::OpenParen,
-            value: token,
-            key: None,
-            alias: token,
-        })
+fn get_open_paren_token<'i>(input: &mut &'i str, dialect: Dialect) -> Result<Token<'i>> {
+    let case = terminated(Caseless("CASE"), end_of_word);
+    let open_paren = if dialect == Dialect::PostgreSql {
+        ("(", "[", case)
+    } else {
+        ("(", "(", case)
+    };
+
+    alt(open_paren).parse_next(input).map(|token| Token {
+        kind: TokenKind::OpenParen,
+        value: token,
+        key: None,
+        alias: token,
+    })
 }
 
-fn get_close_paren_token<'i>(input: &mut &'i str) -> Result<Token<'i>> {
-    alt((")", terminated(Caseless("END"), end_of_word)))
-        .parse_next(input)
-        .map(|token| Token {
-            kind: TokenKind::CloseParen,
-            value: token,
-            key: None,
-            alias: token,
-        })
+fn get_close_paren_token<'i>(input: &mut &'i str, dialect: Dialect) -> Result<Token<'i>> {
+    let end = terminated(Caseless("END"), end_of_word);
+    let close_paren = if dialect == Dialect::PostgreSql {
+        (")", "]", end)
+    } else {
+        (")", ")", end)
+    };
+    alt(close_paren).parse_next(input).map(|token| Token {
+        kind: TokenKind::CloseParen,
+        value: token,
+        key: None,
+        alias: token,
+    })
 }
 
-fn get_placeholder_token<'i>(input: &mut &'i str, named_placeholders: bool) -> Result<Token<'i>> {
+fn get_placeholder_token<'i>(
+    input: &mut &'i str,
+    named_placeholders: bool,
+    dialect: Dialect,
+) -> Result<Token<'i>> {
     // The precedence changes based on 'named_placeholders' but not the exhaustiveness.
     // This is to ensure the formatting is the same even if parameters aren't used.
 
     if named_placeholders {
         alt((
             get_ident_named_placeholder_token,
-            get_string_named_placeholder_token,
+            |input: &mut _| get_string_named_placeholder_token(input, dialect),
             get_indexed_placeholder_token,
         ))
         .parse_next(input)
     } else {
         alt((
             get_indexed_placeholder_token,
             get_ident_named_placeholder_token,
-            get_string_named_placeholder_token,
+            |input: &mut _| get_string_named_placeholder_token(input, dialect),
         ))
         .parse_next(input)
     }
@@ -365,8 +380,13 @@ fn get_ident_named_placeholder_token<'i>(input: &mut &'i str) -> Result<Token<'i
         })
 }
 
-fn get_string_named_placeholder_token<'i>(input: &mut &'i str) -> Result<Token<'i>> {
-    (one_of(('@', ':')), get_placeholder_string_token)
+fn get_string_named_placeholder_token<'i>(
+    input: &mut &'i str,
+    dialect: Dialect,
+) -> Result<Token<'i>> {
+    (one_of(('@', ':')), |input: &mut _| {
+        get_placeholder_string_token(input, dialect)
+    })
         .take()
         .parse_next(input)
         .map(|token| {