Implement markup lexing

tecosaur · tecosaur · commit f1b5575b9576 · 2025-03-17T02:07:25.000+08:00
diff --git a/README.org b/README.org
@@ -84,5 +84,5 @@ TODO
 | Superscript         |      |     |       |     |      |      |
 | TableCell           |      | X   |       |     |      |      |
 | Timestamp           |      |     |       |     |      |      |
+| TextMarkup          |      | X   |       |     |      |      |
 | TextPlain           |      |     |       |     |      |      |
-| TextMarkup          |      |     |       |     |      |      |
diff --git a/src/lexer.jl b/src/lexer.jl
@@ -33,6 +33,7 @@ function Base.iterate(lex::Lexer, state::LexerState)
     while position <= length(lex.input)
         token, position = @inline lexnext(state, lex.input, position)
         if token.kind in K"elements"
+            ctx = ctx & ~!K"objects"
             lastelement = token.kind
         end
         if token.kind == K"plaintext"
@@ -69,6 +70,9 @@ const NONE_TOKEN = Token(K"", 0, 0), UInt32(0)
 
 function lexnext(state::LexerState, bytes::DenseVector{UInt8}, start::UInt32)
     linestart, newlines = @inline skipnewlines(bytes, start)
+    if start == 1 && state.lastelement != K"<paragraph"
+        newlines = 1
+    end
     skipws = skipspaces(bytes, linestart)
     pos = skipws.stop
     if state.lastelement == K""
@@ -95,7 +99,7 @@ function lexnext(state::LexerState, bytes::DenseVector{UInt8}, start::UInt32)
         lexnext_object(state, bytes, start, linestart, pos, chr)
     end
     if next != NONE_TOKEN
-        if K"paragraph" ∈ state.ctx
+        if newlines != 0 && K"paragraph" ∈ state.ctx
             Token(K">paragraph", start - 0x1, start - 0x1), start
         else
             next
@@ -191,6 +195,8 @@ function lexnext_object(state::LexerState, bytes::DenseVector{UInt8},
             end
             Token(K"<table_cell", pos, pos), pos
         end
+    elseif chr ∈ (UInt8('*'), UInt8('/'), UInt8('_'), UInt8('='), UInt8('~'), UInt8('+'))
+        lex_markup(state, bytes, pos)
     else
         NONE_TOKEN
     end
@@ -548,7 +554,56 @@ end
 
 # TODO: Timestamps
 
-# TODO: Text markup
+function markupkind(delim::UInt8)
+    if delim == UInt8('*')
+        K"bold"
+    elseif delim == UInt8('/')
+        K"italic"
+    elseif delim == UInt8('_')
+        K"underline"
+    elseif delim == UInt8('=')
+        K"verbatim"
+    elseif delim == UInt8('~')
+        K"code"
+    elseif delim == UInt8('+')
+        K"strikethrough"
+    else
+        K""
+    end
+end
+
+const MARKUP_PRE_CHARS = let chars = "-({'\""
+    Tuple(map(UInt8, collect(chars)))
+end
+
+const MARKUP_POST_CHARS = let chars = "-.,;:!?')}[\"\\"
+    Tuple(map(UInt8, collect(chars)))
+end
+
+function lex_markup(state::LexerState, bytes::DenseVector{UInt8}, pos::UInt32)
+    posprev = utf8prev(bytes, pos)
+    posnext = utf8next(bytes, pos)
+    side = if (posnext > length(bytes) || !iswhitespace(bytes, posnext)) &&
+        (islinestart(bytes, posprev) || iswhitespace(bytes, posprev) || bytes[posprev] ∈ MARKUP_PRE_CHARS ||
+         (bytes[posprev] != bytes[pos] && markupkind(bytes[posprev]) & state.restriction != K""))
+        K"<"
+    elseif (posprev == 0 || !iswhitespace(bytes, posprev)) &&
+        (islineend(bytes, posnext) || iswhitespace(bytes, posnext) || bytes[posnext] ∈ MARKUP_POST_CHARS ||
+         (bytes[posnext] != bytes[pos] && markupkind(bytes[posnext]) & state.ctx != K""))
+        K">"
+    else
+        return NONE_TOKEN
+    end
+    kind = markupkind(bytes[pos])
+    if kind == K""
+        false
+    elseif side == K"<"
+        kind ∈ state.restriction
+    else
+        kind ∈ state.ctx
+    end || return NONE_TOKEN
+    Token(kind | side, pos, pos), posnext
+end
 
 
 # Utility functions
@@ -603,7 +658,7 @@ const PLAIN_SKIP_TABLE = let canskip = zeros(Bool, 255)
     for c in UInt8('0'):UInt8('9')
         canskip[c] = true
     end
-    for c in "!\"&'(),.;?]}"
+    for c in " !\"&'(),.;?]}"
         canskip[UInt8(c)] = true
     end
     Tuple(canskip)
@@ -687,7 +742,7 @@ function skipplain(bytes::DenseVector{UInt8}, start::I, multiline::Bool = false;
             end
         else
             clen = utf8bytes(chr) % I
-            clen == 1 && pos > start && return pos - 0x1
+            clen == 1 && pos > start && return pos
             pos += clen
         end
     end
@@ -908,6 +963,10 @@ function lineend(bytes::DenseVector{UInt8}, pos::I; limit::I = length(bytes) % I
     limit + 0x1
 end
 
+function islinestart(bytes::DenseVector{UInt8}, pos::Integer)
+    pos < 1 || pos <= length(bytes) && ischarat(bytes, pos, '\n')
+end
+
 function hasprefix(bytes::DenseVector{UInt8}, start::Integer, pattern::String; limit::Integer = length(bytes) % typeof(start))
     limit >= start + ncodeunits(pattern) - 1 || return false
     for (i, c) in enumerate(codeunits(pattern))
@@ -943,7 +1002,7 @@ function untilwhitespace(bytes::DenseVector{UInt8}, pos::I; limit::I = length(by
 end
 
 function skipnewlines(bytes::DenseVector{UInt8}, pos::I; limit::I = length(bytes) % I)::Tuple{I, Int} where {I <: Integer}
-    newlines = Int(pos == 1)
+    newlines = 0
     while true
         if bytes[pos] == UInt8('\n')
             pos += 0x1
diff --git a/test/runtests.jl b/test/runtests.jl
@@ -126,8 +126,6 @@ end
             """)) ==
                 [Token(K"<drawer", 1, 8),
                  Token(K"<paragraph", 10, 10),
-                 Token(K">paragraph", 16, 16),
-                 Token(K"<paragraph", 18, 18),
                  Token(K">paragraph", 34, 34),
                  Token(K">drawer", 36, 40)]
         end
@@ -392,6 +390,42 @@ end
                  Token(K">paragraph", 85, 85),
                  Token(K"latex_environment", 88, 136)]
     end
+    @testset "Markup" begin
+        @test collect(Lexer("*bold*")) ==
+            [Token(K"<paragraph", 1, 1),
+             Token(K"<bold", 1, 1),
+             Token(K">bold", 6, 6)]
+        @test collect(Lexer("*bold* /italic/ _underline_ ~code~ =verbatim= +strikethrough+")) ==
+            [Token(K"<paragraph", 1, 1),
+             Token(K"<bold", 1, 1),
+             Token(K">bold", 6, 6),
+             Token(K"<italic", 8, 8),
+             Token(K">italic", 15, 15),
+             Token(K"<underline", 17, 17),
+             Token(K">underline", 27, 27),
+             Token(K"<code", 29, 29),
+             Token(K">code", 34, 34),
+             Token(K"<verbatim", 36, 36),
+             Token(K">verbatim", 45, 45),
+             Token(K"<strikethrough", 47, 47),
+             Token(K">strikethrough", 61, 61)]
+        @test collect(Lexer("*/italic/*")) ==
+            [Token(K"<paragraph", 1, 1),
+             Token(K"<bold", 1, 1),
+             Token(K"<italic", 2, 2),
+             Token(K">italic", 9, 9),
+             Token(K"<bold", 10, 10)]
+        @test collect(Lexer("=*/italic/*=")) ==
+            [Token(K"<paragraph", 1, 1),
+             Token(K"<verbatim", 1, 1),
+             Token(K">verbatim", 12, 12)]
+        @test collect(Lexer("*hey =and /not italic/ verbatim= there* stuff")) ==
+            [Token(K"<paragraph", 1, 1),
+             Token(K"<bold", 1, 1),
+             Token(K"<verbatim", 6, 6),
+             Token(K">verbatim", 32, 32),
+             Token(K">bold", 39, 39)]
+    end
     @testset "Type inference" begin
         @testset "Utilities" begin
             bytes, pos = codeunits("abc"), UInt32(1)
@@ -430,6 +464,7 @@ end
             @inferred Tuple{Token, UInt32} Org.lex_fixedwidth(lstate, bytes, pos)
             @inferred Tuple{Token, UInt32} Org.lex_hrule(lstate, bytes, pos)
             @inferred Tuple{Token, UInt32} Org.lex_latexenv(lstate, bytes, pos)
+            @inferred Tuple{Token, UInt32} Org.lex_markup(lstate, bytes, pos)
         end
     end
     @testset "Unhandled errors" begin
@@ -470,6 +505,7 @@ end
             @test_call Org.lex_fixedwidth(lstate, bytes, pos)
             @test_call Org.lex_hrule(lstate, bytes, pos)
             @test_call Org.lex_latexenv(lstate, bytes, pos)
+            @test_call Org.lex_markup(lstate, bytes, pos)
         end
         @testset "Iteration" begin
             @test_call iterate(Lexer("abc"), LexerState())
@@ -513,6 +549,7 @@ end
             @test_opt Org.lex_fixedwidth(lstate, bytes, pos)
             @test_opt Org.lex_hrule(lstate, bytes, pos)
             @test_opt Org.lex_latexenv(lstate, bytes, pos)
+            @test_opt Org.lex_markup(lstate, bytes, pos)
         end
         @testset "Iteration" begin
             @test_opt iterate(Lexer("abc"), LexerState())