feat: optimize peg parser

jnoortheen · jnoortheen · commit 4f9741c62ff7 · 2026-01-07T17:41:19.000+05:30
diff --git a/experiments.md b/experiments.md
@@ -221,12 +221,17 @@ test_large_file[PegenParser-memoize-all]        2,674.6126 (171.35)   20.5175 (6
 test_large_file[PegenParser]                5,312.4585 (217.00)   44.2033 (113.05)   5,325.4162 (218.56)   80.0707 (304.81)        1;0   0.1882 (0.00)          5           1
 --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
 
------------------------------------------------------------------------------------------ benchmark 'small-string': 4 tests -----------------------------------------------------------------------------------------
-Name (time in us)                         Mean                  StdDev                Median                IQR            Outliers           OPS            Rounds  Iterations
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
-test_small_string[RuffParser]                    6.8298 (1.0)       0.3288 (1.0)          6.7920 (1.0)       0.0840 (1.0)         12;22  146,417.6823 (1.0)         773           1
-test_small_string[TreeSitter]                  10.2818 (1.51)      1.0306 (3.13)        10.1670 (1.50)      0.1250 (1.49)        10;27   97,259.6897 (0.66)        786           1
-test_small_string[PlyParser]                268.5103 (39.31)    13.1569 (40.02)      263.9170 (38.86)     6.8540 (81.60)       15;19    3,724.2525 (0.03)        179           1
-test_small_string[PegenParser-memoize-all]  405.4760 (134.34)   41.5348 (180.66)   400.7085 (133.57)   34.6040 (823.40)       13;7        2.4662 (0.01)        440           1
-test_small_string[PegenParser]              1,074.9712 (157.39)   55.4020 (168.50)   1,067.2500 (157.13)   13.5200 (160.95)       8;13      930.2574 (0.01)        171           1
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
+# after memoize table optimization
+
+- there was around 20% improvement in the runtime
+
+---------------------------------------------------------------------------------------- benchmark 'large-file': 6 tests -----------------------------------------------------------------------------------------
+Name (time in ms)                           Min                   Max                  Mean             StdDev                Median                IQR            Outliers      OPS            Rounds  Iterations
+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
+test_large_file[TreeSitter]             10.8569 (1.0)         12.0598 (1.0)         11.0258 (1.0)       0.1734 (1.0)         10.9928 (1.0)       0.1003 (1.0)           6;6  90.6967 (1.0)          80           1
+test_large_file[RuffParser]             16.7757 (1.55)        25.4420 (2.11)        21.9133 (1.99)      2.7005 (15.57)       22.6645 (2.06)      2.1841 (21.77)         8;7  45.6345 (0.50)         35           1
+test_large_file[PlyParser]             295.7462 (27.24)      306.5685 (25.42)      301.7971 (27.37)     3.9262 (22.64)      302.3860 (27.51)     4.0868 (40.73)         2;0   3.3135 (0.04)          5           1
+test_large_file[PegenRustParser]       684.7476 (63.07)      716.6600 (59.43)      699.5411 (63.45)    11.8038 (68.07)      697.3384 (63.44)    14.7329 (146.84)        2;0   1.4295 (0.02)          5           1
+test_large_file[PegenParser]           704.1405 (64.86)      745.2963 (61.80)      719.5224 (65.26)    16.0691 (92.66)      715.5075 (65.09)    20.6549 (205.86)        1;0   1.3898 (0.02)          5           1
+test_large_file[PegenV0Parser]       2,524.6497 (232.54)   2,760.9785 (228.94)   2,604.5888 (236.23)   91.1026 (525.33)   2,584.9718 (235.15)   78.9500 (786.88)        1;1   0.3839 (0.00)          5           1
+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
diff --git a/peg_parser/subheader.py b/peg_parser/subheader.py
@@ -22,6 +22,8 @@
 Store = ast.Store()
 Del = ast.Del()
 
+_MEMOIZE_COUNTER = [0]
+
 # Node = TypeVar("Node", bound=ast.stmt | ast.expr)
 
 
@@ -106,34 +108,36 @@ def logger_wrapper(self: P, *args: object) -> Any:
 def memoize(method: F) -> F:
     """Memoize a symbol method."""
     method_name = method.__name__
+    method_id = _MEMOIZE_COUNTER[0]
+    _MEMOIZE_COUNTER[0] += 1
 
     def memoize_wrapper(self: P) -> Any:
-        mark = self._mark()
-        key = mark, method_name
+        mark = self._tokenizer._index
         # Fast path: cache hit, and not verbose.
-        if key in self._cache and not self._verbose:
-            tree, endmark = self._cache[key]
-            self._reset(endmark)
+        cache = self._caches[method_id]
+        if mark in cache and not self._verbose:
+            tree, endmark = cache[mark]
+            self._tokenizer._index = endmark
             return tree
         # Slow path: no cache hit, or verbose.
         verbose, argsr, fill = self._verbose, "", ""
         if verbose:
             fill = "  " * self._level
-        if key not in self._cache:
+        if mark not in cache:
             if verbose:
                 print(f"{fill}{method_name}({argsr}) ... (looking at {self.showpeek()})")
                 self._level += 1
             tree = method(self)
             if verbose:
                 self._level -= 1
                 print(f"{fill}... {method_name}({argsr}) -> {tree!s:.200}")
-            endmark = self._mark()
-            self._cache[key] = tree, endmark
+            endmark = self._tokenizer._index
+            cache[mark] = tree, endmark
         else:
-            tree, endmark = self._cache[key]
+            tree, endmark = cache[mark]
             if verbose:
                 print(f"{fill}{method_name}({argsr}) -> {tree!s:.200}")
-            self._reset(endmark)
+            self._tokenizer._index = endmark
         return tree
 
     memoize_wrapper.__wrapped__ = method  # type: ignore
@@ -143,20 +147,22 @@ def memoize_wrapper(self: P) -> Any:
 def memoize_left_rec(method: Callable[[P], T | None]) -> Callable[[P], T | None]:
     """Memoize a left-recursive symbol method."""
     method_name = method.__name__
+    method_id = _MEMOIZE_COUNTER[0]
+    _MEMOIZE_COUNTER[0] += 1
 
     def memoize_left_rec_wrapper(self: P) -> T | Any | None:
-        mark = self._mark()
-        key = mark, method_name
+        mark = self._tokenizer._index
         # Fast path: cache hit, and not verbose.
-        if key in self._cache and not self._verbose:
-            tree, endmark = self._cache[key]
-            self._reset(endmark)
+        cache = self._caches[method_id]
+        if mark in cache and not self._verbose:
+            tree, endmark = cache[mark]
+            self._tokenizer._index = endmark
             return tree
         # Slow path: no cache hit, or verbose.
         verbose, fill = self._verbose, ""
         if verbose:
             fill = "  " * self._level
-        if key not in self._cache:
+        if mark not in cache:
             if verbose:
                 print(f"{fill}{method_name} ... (looking at {self.showpeek()})")
                 self._level += 1
@@ -170,21 +176,21 @@ def memoize_left_rec_wrapper(self: P) -> T | Any | None:
             # (http://web.cs.ucla.edu/~todd/research/pub.php?id=pepm08).
 
             # Prime the cache with a failure.
-            self._cache[key] = None, mark
+            cache[mark] = None, mark
             lastresult: Any = None
             lastmark = mark
             depth = 0
             if verbose:
                 print(f"{fill}Recursive {method_name} at {mark} depth {depth}")
 
             while True:
-                self._reset(mark)
+                self._tokenizer._index = mark
                 self.in_recursive_rule += 1
                 try:
                     result = method(self)
                 finally:
                     self.in_recursive_rule -= 1
-                endmark = self._mark()
+                endmark = self._tokenizer._index
                 depth += 1
                 if verbose:
                     print(
@@ -198,26 +204,26 @@ def memoize_left_rec_wrapper(self: P) -> T | Any | None:
                     if verbose:
                         print(f"{fill}Bailing with {lastresult!s:.200} to {lastmark}")
                     break
-                self._cache[key] = lastresult, lastmark = result, endmark
+                cache[mark] = lastresult, lastmark = result, endmark
 
-            self._reset(lastmark)
+            self._tokenizer._index = lastmark
             tree = lastresult
 
             if verbose:
                 self._level -= 1
                 print(f"{fill}{method_name}() -> {tree!s:.200} [cached]")
             if tree:
-                endmark = self._mark()
+                endmark = self._tokenizer._index
             else:
                 endmark = mark
-                self._reset(endmark)
-            self._cache[key] = tree, endmark
+                self._tokenizer._index = endmark
+            cache[mark] = tree, endmark
         else:
-            tree, endmark = self._cache[key]
+            tree, endmark = cache[mark]
             if verbose:
                 print(f"{fill}{method_name}() -> {tree!s:.200} [fresh]")
             if tree:
-                self._reset(endmark)
+                self._tokenizer._index = endmark
         return tree
 
     memoize_left_rec_wrapper.__wrapped__ = method  # type: ignore
@@ -260,7 +266,7 @@ class Parser:
         "_tokenizer",
         "_verbose",
         "_level",
-        "_cache",
+        "_caches",
         "tok_cls",
         "in_recursive_rule",
         "_path_token",
@@ -285,7 +291,9 @@ def __init__(
         self._tokenizer = tokenizer
         self._verbose = verbose
         self._level = 0
-        self._cache: dict[tuple[Mark, str], tuple[Any, Mark]] = {}
+        self._verbose = verbose
+        self._level = 0
+        self._caches: list[dict[int, tuple[Any, Mark]]] = [{} for _ in range(_MEMOIZE_COUNTER[0] + 10)]
         self.tok_cls = tokenizer.tok_cls
 
         # Integer tracking wether we are in a left recursive rule or not. Can be useful
@@ -295,16 +303,18 @@ def __init__(
         # handle path literal joined-str
         self._path_token: TokenInfo | None = None
 
-        # Pass through common tokenizer methods.
-        self._mark = self._tokenizer.mark
-        self._reset = self._tokenizer.reset
-
         # Are we looking for syntax error ? When true enable matching on invalid rules
         self.call_invalid_rules = False
 
         self.filename = filename
         self.py_version = min(py_version, sys.version_info) if py_version else sys.version_info
 
+    def _mark(self) -> Mark:
+        return self._tokenizer._index
+
+    def _reset(self, index: Mark) -> None:
+        self._tokenizer._index = index
+
     def showpeek(self) -> str:
         tok = self._tokenizer.peek()
         return f"{tok.start[0]}.{tok.start[1]}: {tok.type}:{tok.string!r}"
@@ -344,12 +354,12 @@ def expect(self, typ: str) -> TokenInfo | None:
         return None
 
     def repeated(self, func: Callable[..., TR | None], *args: Any) -> list[TR]:
-        mark = self._mark()
+        mark = self._tokenizer._index
         children = []
         while result := func(*args):
             children.append(result)
-            mark = self._mark()
-        self._reset(mark)
+            mark = self._tokenizer._index
+        self._tokenizer._index = mark
         return children
 
     def sep_repeated(
@@ -370,24 +380,24 @@ def gathered(
     ) -> list[TG] | None:
         # gather: ','.e+
         seq: list[TG]
-        mark = self._mark()
+        mark = self._tokenizer._index
         if (elem := self.seq_alts(func)) is not None and (
             seq := self.repeated(self.sep_repeated, func, sep, *sep_args)
         ) is not None:
             return [elem, *seq]
-        self._reset(mark)
+        self._tokenizer._index = mark
         return None
 
     def positive_lookahead(self, func: Callable[..., T], *args: object) -> T:
-        mark = self._mark()
+        mark = self._tokenizer._index
         ok = func(*args)
-        self._reset(mark)
+        self._tokenizer._index = mark
         return ok
 
     def negative_lookahead(self, func: Callable[..., object], *args: object) -> bool:
-        mark = self._mark()
+        mark = self._tokenizer._index
         ok = func(*args)
-        self._reset(mark)
+        self._tokenizer._index = mark
         return not ok
 
     def span(self, lnum: int, col: int) -> SpanDict:
@@ -396,7 +406,7 @@ def span(self, lnum: int, col: int) -> SpanDict:
 
     def seq_alts(self, *alt: Callable[..., T] | tuple[Callable[..., T], Any]) -> T | None:
         """Handle sequence of alts that don't have action associated with them."""
-        mark = self._mark()
+        mark = self._tokenizer._index
         for arg in alt:
             if isinstance(arg, tuple):
                 method, *args = arg
@@ -405,7 +415,7 @@ def seq_alts(self, *alt: Callable[..., T] | tuple[Callable[..., T], Any]) -> T |
                 res = arg()
             if res:
                 return res
-            self._reset(mark)
+            self._tokenizer._index = mark
         return None
 
     def parse(self, rule: str, call_invalid_rules: bool = False) -> Node | Any | None:
@@ -423,7 +433,8 @@ def parse(self, rule: str, call_invalid_rules: bool = False) -> Node | Any | Non
                 # Reset the parser cache to be able to restart parsing from the
                 # beginning.
                 self._reset(0)  # type: ignore
-                self._cache.clear()
+                for c in self._caches:
+                    c.clear()
 
                 res = getattr(self, rule)()
 
diff --git a/peg_parser/tokenizer.py b/peg_parser/tokenizer.py
@@ -112,6 +112,9 @@ def _fetch(self) -> TokenInfo:
 
     def peek(self) -> TokenInfo:
         """Return the next token *without* updating the index."""
+        if self._index < len(self._tokens):
+            return self._tokens[self._index]
+
         try:
             while self._index == len(self._tokens):
                 # if self._with_macro: