Review celma lang grammar

d-plaindoux · d-plaindoux · commit 9697446da433 · 2025-02-14T18:02:51.000+01:00
diff --git a/README.md b/README.md
@@ -16,7 +16,7 @@ Generalization is the capability to design a parser based on pipelined parsers a
 In order to have a seamless parser definition two dedicated `proc_macro` are designed:
 
 ```rust
-parsec_rules = "let" ident ('{' rust_type '}')? ':' '{' rust_type '}' "=" parser)+
+parsec_rules = "pub"? "let" ident ('{' rust_type '}')? (':' '{' rust_type '}')? "=" parser)+
 parser       = binding? atom occurrence? additional? transform?
 ```
 
@@ -113,11 +113,11 @@ parsec_rules!(
 
 ```rust
 parsec_rules!(
-    let STRING:{String}      = delimited_string
-    let NUMBER:{f64}         = c=#(INT ('.' NAT)? (('E'|'e') INT)?)    -> {mk_f64(c)}
-    let INT:{()}             = ('-'|'+')? NAT                          -> {}
-    let NAT:{()}             = digit+                                  -> {}
-    let S:{()}               = space*                                  -> {}
+    let STRING:{String} = delimited_string
+    let NUMBER:{f64}    = c=#(INT ('.' NAT)? (('E'|'e') INT)?)    -> {mk_f64(c)}
+    let INT             = ('-'|'+')? NAT                          -> {}
+    let NAT             = digit+                                  -> {}
+    let S               = space*                                  -> {}
 );
 ```
 
@@ -136,7 +136,7 @@ parsec_rules!(
     let token:{Token}   = S _=(int|keyword) S
     let int:{Token}     = c=!(#(('-'|'+')? digit+)) -> {Token::Int(mk_i64(c))}
     let keyword:{Token} = s=('+'|'*'|'('|')')       -> {Token::Keyword(s)}
-    let S:{()}          = space*                    -> {}
+    let S               = space*                    -> {}
 );
 ```
 
@@ -146,10 +146,10 @@ The Lexeme parser recognizes simple token keywords.
 
 ```rust
 parsec_rules!(
-    let PLUS{Token}:{()}   = {kwd('+')} -> {}
-    let MULT{Token}:{()}   = {kwd('*')} -> {}
-    let LPAREN{Token}:{()} = {kwd('(')} -> {}
-    let RPAREN{Token}:{()} = {kwd(')')} -> {}
+    let PLUS{Token}   = {kwd('+')} -> {}
+    let MULT{Token}   = {kwd('*')} -> {}
+    let LPAREN{Token} = {kwd('(')} -> {}
+    let RPAREN{Token} = {kwd(')')} -> {}
 );
 ```
 
@@ -202,11 +202,19 @@ by the paper [A Typed, Algebraic Approach to Parsing](https://www.cl.cam.ac.uk/~
 #### Celma lang in Celma lang
 
 ```rust
-let skip:{()} = (' '|'\t'|'\n'|'\r')* -> {}
+let skip = (' '|'\t'|'\n'|'\r')* -> {}
 let ident:{String} = (skip i=#(alpha (alpha|digit|'_')*) skip) -> { i.into_iter().collect() }
 
-let kind:{String} = (skip '{' v=^'}'* '}' skip) -> { v.into_iter().collect() }
-let code:{String} = (skip '{' c=^'}'* '}' skip) -> { c.into_iter().collect() }
+let rkind = (/'>' -> {})
+          | (^('<'|'>')+ rkind -> {})
+          | ('<' rkind '>' rkind -> {})
+
+let rcode = (/'}' -> {})
+          | (^('}'|'{')+ rcode -> {})
+          | ('{' rcode '}' rcode -> {})
+
+let kind:{String} = (skip '<' c=#rkind '>' skip) -> { c.into_iter().collect() }
+let code:{String} = (skip '{' c=#rcode '}' skip) -> { c.into_iter().collect() }
 
 let rules:{Vec<ASTParsecRule<char>>} = rule*
 let rule:{ASTParsecRule<char>} = (
diff --git a/genlex/src/parser.rs b/genlex/src/parser.rs
@@ -45,9 +45,9 @@ where
     }
 
     parsec_rules!(
-        let INT:{()}    = ('-'|'+')? NAT -> {}
-        let NAT:{()}    = digit+         -> {}
-        let SPACES:{()} = space*         -> {}
+        let INT    = ('-'|'+')? NAT -> {}
+        let NAT    = digit+         -> {}
+        let SPACES = space*         -> {}
     );
 
     parsec_rules!(
diff --git a/lang/v0/macro/benches/json.rs b/lang/v0/macro/benches/json.rs
@@ -73,9 +73,9 @@ parsec_rules!(
 parsec_rules!(
     let STRING:{String}      = delimited_string
     let NUMBER:{f64}         = c=#(INT ('.' NAT)? (('E'|'e') INT)?)    -> {mk_f64(c)}
-    let INT:{()}             = ('-'|'+')? NAT                          -> {}
-    let NAT:{()}             = digit+                                  -> {}
-    let S:{()}               = space*                                  -> {}
+    let INT             = ('-'|'+')? NAT                          -> {}
+    let NAT             = digit+                                  -> {}
+    let S               = space*                                  -> {}
 );
 
 // -------------------------------------------------------------------------------------------------
diff --git a/lang/v0/macro/tests/expression.rs b/lang/v0/macro/tests/expression.rs
@@ -73,9 +73,9 @@ mod tests_transpiler {
 
     parsec_rules!(
         let NUMBER:{f64} = c=#(INT ('.' NAT)? (('E'|'e') INT)?) -> {mk_f64(c)}
-        let INT:{()}     = ('-'|'+')? NAT                       -> {}
-        let NAT:{()}     = digit+                               -> {}
-        let S:{()}       = space*                               -> {}
+        let INT     = ('-'|'+')? NAT                       -> {}
+        let NAT     = digit+                               -> {}
+        let S       = space*                               -> {}
     );
 
     #[test]
diff --git a/lang/v0/macro/tests/pipeline.rs b/lang/v0/macro/tests/pipeline.rs
@@ -123,8 +123,8 @@ mod tests_transpiler {
         let keyword{char}:{Token} = s=('+'|'*'|'('|')')    -> { Token::Keyword(s) }
 
         let INT{char}:{i64}       = c=#(('-'|'+')? NAT)    -> { mk_string(c).parse().unwrap() }
-        let NAT{char}:{()}        = digit+                 -> {}
-        let S{char}:{()}          = space*                 -> {}
+        let NAT{char}        = digit+                 -> {}
+        let S{char}          = space*                 -> {}
     );
 
     // ---------------------------------------------------------------------------------------------
@@ -133,10 +133,10 @@ mod tests_transpiler {
 
     // Lexemes
     parsec_rules!(
-        let PLUS{Token}:{()}   = {kwd('+')} -> {}
-        let MULT{Token}:{()}   = {kwd('*')} -> {}
-        let LPAREN{Token}:{()} = {kwd('(')} -> {}
-        let RPAREN{Token}:{()} = {kwd(')')} -> {}
+        let PLUS{Token}   = {kwd('+')} -> {}
+        let MULT{Token}   = {kwd('*')} -> {}
+        let LPAREN{Token} = {kwd('(')} -> {}
+        let RPAREN{Token} = {kwd(')')} -> {}
     );
 
     // Parser
diff --git a/lang/v0/macro/tests/transpiler_rules.rs b/lang/v0/macro/tests/transpiler_rules.rs
@@ -100,7 +100,7 @@ mod tests_transpiler {
     #[test]
     fn it_parse_with_recursive_parser() {
         parsec_rules!(
-            let parens:{()} = ('(' parens ')')? -> { () }
+            let parens = ('(' parens ')')? -> { () }
         );
 
         let response = parens()
diff --git a/lang/v0/parser/src/parser.rs b/lang/v0/parser/src/parser.rs
@@ -86,20 +86,20 @@ where
         .and_left(skip())
         .and(kind().opt())
         .and_left(skip())
-        .and_left(a_char(':'))
-        .and_left(skip())
-        .and(kind())
+        .and(a_char(':').and_right(skip()).and_right(kind()).opt())
         .and_left(skip())
         .and_left(string("="))
         .and_left(skip())
         .and(parsec())
         .and_left(skip())
         .map(
-            |(((n, i), r), b): (((String, Option<String>), String), ASTParsec)| ASTParsecRule {
-                name: n,
-                input: i.unwrap_or(String::from("char")),
-                returns: r,
-                rule: b,
+            |(((n, i), r), b): (((String, Option<String>), Option<String>), ASTParsec)| {
+                ASTParsecRule {
+                    name: n,
+                    input: i.unwrap_or(String::from("char")),
+                    returns: r.unwrap_or(String::from("()")),
+                    rule: b,
+                }
             },
         )
         .rep()
diff --git a/lang/v1/parser/src/parser.rs b/lang/v1/parser/src/parser.rs
@@ -91,11 +91,19 @@ fn mk_atom(operation: Option<char>, parsec: ASTParsec<char>) -> ASTParsec<char>
 }
 
 parsec_rules!(
-    let skip:{()} = (' '|'\t'|'\n'|'\r')* -> {}
+    let skip = (' '|'\t'|'\n'|'\r')* -> {}
     let ident:{String} = (skip i=#(alpha (alpha|digit|'_')*) skip) -> { i.into_iter().collect() }
 
-    let kind:{String} = (skip '{' v=^'}'* '}' skip) -> { v.into_iter().collect() }
-    let code:{String} = (skip '{' c=^'}'* '}' skip) -> { c.into_iter().collect() }
+    let rkind = (/'>' -> {})
+              | (^('<'|'>')+ rkind -> {})
+              | ('<' rkind '>' rkind -> {})
+
+    let rcode = (/'}' -> {})
+              | (^('}'|'{')+ rcode -> {})
+              | ('{' rcode '}' rcode -> {})
+
+    let kind:{String} = (skip '<' c=#rkind '>' skip) -> { c.into_iter().collect() }
+    let code:{String} = (skip '{' c=#rcode '}' skip) -> { c.into_iter().collect() }
 
     let rules:{Vec<ASTParsecRule<char>>} = rule*
     let rule:{ASTParsecRule<char>} = (
diff --git a/lang/v1/parser/tests/parser_tests.rs b/lang/v1/parser/tests/parser_tests.rs
@@ -18,7 +18,10 @@
 mod parser_tests {
     use celma_v0_core::parser::specs::Parse;
     use celma_v0_core::stream::char_stream::CharStream;
-    use celma_v1::parser::{atom_char, atom_code, atom_ident, atom_string, kind, parsec, rule};
+    use celma_v0_core::stream::specs::Len;
+    use celma_v1::parser::{
+        atom_char, atom_code, atom_ident, atom_string, code, kind, rcode, parsec, rule,
+    };
     use celma_v1_ast::syntax::ASTParsec::{
         PAtom, PAtoms, PBind, PCheck, PChoice, PCode, PIdent, PLookahead, PNot, POptional,
         PSequence, PTry,
@@ -28,9 +31,9 @@ mod parser_tests {
 
     #[test]
     fn should_parse_kind() {
-        let response = kind().parse(CharStream::new("{hello()}"));
+        let response = kind().parse(CharStream::new("<hello>"));
 
-        assert_eq!(response.fold(|v, _, _| v == "hello()", |_, _| false), true);
+        assert_eq!(response.fold(|v, _, _| v == "hello", |_, _| false), true);
     }
 
     #[test]
@@ -73,6 +76,50 @@ mod parser_tests {
         );
     }
 
+    #[test]
+    fn should_parse_ident_empty_rcode() {
+        let response = rcode().parse(CharStream::new("}"));
+
+        assert_eq!(response.fold(|_, s, _| s.len() == 1, |_, _| false), true);
+    }
+
+    #[test]
+    fn should_parse_ident_body_with_block_rcode() {
+        let response = rcode().parse(CharStream::new("tutu { titi } toto }"));
+
+        assert_eq!(response.fold(|_, s, _| s.len() == 1, |_, _| false), true);
+    }
+
+    #[test]
+    fn should_parse_ident_body_with_block_unbalanced_rcode() {
+        let response = rcode().parse(CharStream::new("{ titi }"));
+
+        assert_eq!(response.fold(|_, _, _| false, |_, _| true), true);
+    }
+
+    #[test]
+    fn should_parse_ident_body_code() {
+        let response = code().parse(CharStream::new("{ titi }"));
+
+        assert_eq!(
+            response.fold(|v, _, _| v == String::from(" titi "), |_, _| false),
+            true
+        );
+    }
+
+    #[test]
+    fn should_parse_ident_body_code_with_block() {
+        let response = code().parse(CharStream::new("{ {titi} }"));
+
+        assert_eq!(
+            response.fold(
+                |v, s, _| v == String::from(" {titi} ") && s.is_empty(),
+                |_, _| false
+            ),
+            true
+        );
+    }
+
     #[test]
     fn should_parse_ident_body() {
         let response = parsec().parse(CharStream::new("entry"));