Lexer cleanup and test fixes

mtdowling · mtdowling · commit 1f0ad9f038d8 · 2015-06-01T19:41:47.000-07:00
diff --git a/jmespath/lexer.py b/jmespath/lexer.py
@@ -5,26 +5,6 @@
 from jmespath.exceptions import LexerError, EmptyExpressionError
 
 
-START_IDENTIFIER = set(string.ascii_letters + '_')
-VALID_IDENTIFIER = set(string.ascii_letters + string.digits + '_')
-START_NUMBER = set(string.digits + '-')
-VALID_NUMBER = set(string.digits)
-WHITESPACE = set(" \t\n\r")
-SIMPLE_TOKENS = {
-    '.': 'dot',
-    '*': 'star',
-    ']': 'rbracket',
-    ',': 'comma',
-    ':': 'colon',
-    '@': 'current',
-    '&': 'expref',
-    '(': 'lparen',
-    ')': 'rparen',
-    '{': 'lbrace',
-    '}': 'rbrace'
-}
-
-
 class Scanner(object):
     def __init__(self, expression):
         if not expression:
@@ -45,68 +25,87 @@ def next(self):
 
     def in_delimiter(self, delimiter):
         start = self.pos
-        buffer = ''
+        buff = ''
         self.next()
         while self.current != delimiter:
             if self.current == '\\':
-                buffer += '\\'
+                buff += '\\'
                 self.next()
             if self.current is None:
-                print(buffer)
                 raise LexerError(lexer_position=start,
                                  lexer_value=self.expression,
-                                 message="Unclosed delimiter: %s" % buffer)
-            buffer += self.current
+                                 message="Unclosed %s delimiter" % delimiter)
+            buff += self.current
             self.next()
+        # Skip the closing delimiter.
         self.next()
-        return buffer
+        return buff
 
 
 class Lexer(object):
+    START_IDENTIFIER = set(string.ascii_letters + '_')
+    VALID_IDENTIFIER = set(string.ascii_letters + string.digits + '_')
+    START_NUMBER = set(string.digits + '-')
+    VALID_NUMBER = set(string.digits)
+    WHITESPACE = set(" \t\n\r")
+    SIMPLE_TOKENS = {
+        '.': 'dot',
+        '*': 'star',
+        ']': 'rbracket',
+        ',': 'comma',
+        ':': 'colon',
+        '@': 'current',
+        '&': 'expref',
+        '(': 'lparen',
+        ')': 'rparen',
+        '{': 'lbrace',
+        '}': 'rbrace'
+    }
+
     def tokenize(self, expression):
         scanner = Scanner(expression)
         while scanner.current is not None:
-            if scanner.current in SIMPLE_TOKENS:
-                yield {'type': SIMPLE_TOKENS[scanner.current],
+            if scanner.current in self.SIMPLE_TOKENS:
+                yield {'type': self.SIMPLE_TOKENS[scanner.current],
                        'value': scanner.current,
-                       'start': scanner.pos, 'end': scanner.pos}
+                       'start': scanner.pos, 'end': scanner.pos + 1}
                 scanner.next()
-            elif scanner.current in START_IDENTIFIER:
+            elif scanner.current in self.START_IDENTIFIER:
                 start = scanner.pos
-                buffer = scanner.current
-                while scanner.next() in VALID_IDENTIFIER:
-                    buffer += scanner.current
-                yield {'type': 'unquoted_identifier', 'value': buffer,
-                       'start': start, 'end': len(buffer)}
-            elif scanner.current in WHITESPACE:
+                buff = scanner.current
+                while scanner.next() in self.VALID_IDENTIFIER:
+                    buff += scanner.current
+                yield {'type': 'unquoted_identifier', 'value': buff,
+                       'start': start, 'end': start + len(buff)}
+            elif scanner.current in self.WHITESPACE:
                 scanner.next()
             elif scanner.current == '[':
                 start = scanner.pos
                 next_char = scanner.next()
                 if next_char == ']':
                     scanner.next()
                     yield {'type': 'flatten', 'value': '[]',
-                           'start': start, 'end': start + 1}
+                           'start': start, 'end': start + 2}
                 elif next_char == '?':
                     scanner.next()
                     yield {'type': 'filter', 'value': '[?',
-                           'start': start, 'end': start + 1}
+                           'start': start, 'end': start + 2}
                 else:
                     yield {'type': 'lbracket', 'value': '[',
-                           'start': start, 'end': start}
+                           'start': start, 'end': start + 1}
             elif scanner.current == "'":
                 yield self._consume_raw_string_literal(scanner)
             elif scanner.current == '|':
                 yield self._match_or_else(scanner, '|', 'or', 'pipe')
             elif scanner.current == '`':
                 yield self._consume_literal(scanner)
-            elif scanner.current in START_NUMBER:
+            elif scanner.current in self.START_NUMBER:
                 start = scanner.pos
-                buffer = scanner.current
-                while scanner.next() in VALID_NUMBER:
-                    buffer += scanner.current
-                yield {'type': 'number', 'value': int(buffer),
-                       'start': start, 'end': len(buffer)}
+                buff = scanner.current
+                while scanner.next() in self.VALID_NUMBER:
+                    buff += scanner.current
+                yield {'type': 'number', 'value': int(buff),
+                       'start': start, 'end': start + len(buff)}
             elif scanner.current == '"':
                 yield self._consume_quoted_identifier(scanner)
             elif scanner.current == '<':
@@ -118,15 +117,16 @@ def tokenize(self, expression):
             elif scanner.current == '=':
                 yield self._match_or_else(scanner, '=', 'eq', 'unknown')
             else:
-                yield {'type': 'unknown', 'value': scanner.current,
-                       'start': scanner.pos, 'end': scanner.pos}
-                scanner.next()
+                raise LexerError(lexer_position=scanner.pos,
+                                 lexer_value=scanner.current,
+                                 message="Unknown token %s" % scanner.current)
         yield {'type': 'eof', 'value': '',
                'start': len(expression), 'end': len(expression)}
 
     def _consume_literal(self, scanner):
         start = scanner.pos
         lexeme = scanner.in_delimiter('`')
+        lexeme = lexeme.replace('\\`', '`')
         try:
             # Assume it is valid JSON and attempt to parse.
             parsed_json = loads(lexeme)
@@ -141,15 +141,17 @@ def _consume_literal(self, scanner):
                 raise LexerError(lexer_position=start,
                                  lexer_value=lexeme,
                                  message="Bad token %s" % lexeme)
+        token_len = scanner.pos - start
         return {'type': 'literal', 'value': parsed_json,
-                'start': start, 'end': len(lexeme)}
+                'start': start, 'end': token_len}
 
     def _consume_quoted_identifier(self, scanner):
         start = scanner.pos
-        lexeme = scanner.in_delimiter('"')
+        lexeme = '"' + scanner.in_delimiter('"') + '"'
         try:
+            token_len = scanner.pos - start
             return {'type': 'quoted_identifier', 'value': loads(lexeme),
-                    'start': start, 'end': len(lexeme)}
+                    'start': start, 'end': token_len}
         except ValueError as e:
             error_message = str(e).split(':')[0]
             raise LexerError(lexer_position=start,
@@ -159,8 +161,9 @@ def _consume_quoted_identifier(self, scanner):
     def _consume_raw_string_literal(self, scanner):
         start = scanner.pos
         lexeme = scanner.in_delimiter("'")
+        token_len = scanner.pos - start
         return {'type': 'literal', 'value': lexeme,
-                'start': start, 'end': len(lexeme)}
+                'start': start, 'end': token_len}
 
     def _match_or_else(self, scanner, expected, match_type, else_type):
         start = scanner.pos
diff --git a/tests/test_lexer.py b/tests/test_lexer.py
@@ -132,6 +132,17 @@ def test_position_multiple_tokens(self):
              ]
         )
 
+    def test_adds_quotes_when_invalid_json(self):
+        tokens = list(self.lexer.tokenize('`{{}`'))
+        self.assertEqual(
+            tokens,
+            [{'type': 'literal', 'value': '{{}',
+              'start': 0, 'end': 4},
+             {'type': 'eof', 'value': '',
+              'start': 5, 'end': 5}
+             ]
+        )
+
     def test_unknown_character(self):
         with self.assertRaises(LexerError):
             tokens = list(self.lexer.tokenize('foo[0^]'))
diff --git a/tests/test_parser.py b/tests/test_parser.py
@@ -144,18 +144,12 @@ def test_incomplete_expression_with_missing_paren(self):
     def test_bad_lexer_values(self):
         error_message = (
             'Bad jmespath expression: '
-            'Starting quote is missing the ending quote:\n'
+            'Unclosed " delimiter:\n'
             'foo."bar\n'
             '    ^')
         self.assert_error_message('foo."bar', error_message,
                                   exception=exceptions.LexerError)
 
-    def test_bad_lexer_literal_value_with_json_object(self):
-        error_message = ('Bad jmespath expression: '
-                         'Bad token `{{}`:\n`{{}`\n^')
-        self.assert_error_message('`{{}`', error_message,
-                                  exception=exceptions.LexerError)
-
     def test_bad_unicode_string(self):
         # This error message is straight from the JSON parser
         # and pypy has a slightly different error message,