feat:支持数组取值

whki · whki · commit 9f6f545f9b7a · 2026-01-19T22:20:02.000+08:00
diff --git a/README.md b/README.md
@@ -18,7 +18,7 @@ English| [简体中文](README_ZH.md)
     - Pure in-memory operations
     - No dependencies
 - Data processing with SQL syntax
-  - **Nested field access**: Support dot notation syntax (`device.info.name`) for accessing nested structured data
+  - **Nested field access**: Support dot notation syntax (`device.info.name`) and array indexing (`sensors[0].value`) for accessing nested structured data
 - Data analysis
     - Built-in multiple window types: sliding window, tumbling window, counting window
     - Built-in aggregate functions: MAX, MIN, AVG, SUM, STDDEV, MEDIAN, PERCENTILE, etc.
diff --git a/README_ZH.md b/README_ZH.md
@@ -18,7 +18,7 @@
   - 纯内存操作
   - 无依赖
 - SQL语法处理数据
-  - **嵌套字段访问**：支持点号语法（`device.info.name`）访问嵌套结构数据
+  - **嵌套字段访问**：支持点号语法（`device.info.name`）和数组索引（`sensors[0].value`）访问嵌套结构数据
 - 数据分析
   - 内置多种窗口类型：滑动窗口、滚动窗口、计数窗口
   - 内置聚合函数：MAX, MIN, AVG, SUM, STDDEV,MEDIAN,PERCENTILE等
diff --git a/expr/expression.go b/expr/expression.go
@@ -183,6 +183,8 @@ func isValidChar(ch rune) bool {
 		return true
 	case '`': // Backtick (for identifiers)
 		return true
+	case '[', ']': // Brackets (for array/map access)
+		return true
 	default:
 		return false
 	}
diff --git a/expr/tokenizer.go b/expr/tokenizer.go
@@ -157,10 +157,23 @@ func tokenize(expr string) ([]string, error) {
 		}
 
 		// Handle identifiers and keywords
-		if isLetter(expr[i]) || expr[i] == '_' || expr[i] == '$' {
+		if isLetter(expr[i]) || expr[i] == '_' || expr[i] == '$' || expr[i] == '[' {
 			start := i
-			for i < len(expr) && (isLetter(expr[i]) || isDigit(expr[i]) || expr[i] == '_' || expr[i] == '.' || expr[i] == '$') {
-				i++
+			for i < len(expr) {
+				if isLetter(expr[i]) || isDigit(expr[i]) || expr[i] == '_' || expr[i] == '.' || expr[i] == '$' {
+					i++
+				} else if expr[i] == '[' {
+					// Consume until ]
+					i++ // skip [
+					for i < len(expr) && expr[i] != ']' {
+						i++
+					}
+					if i < len(expr) {
+						i++ // skip ]
+					}
+				} else {
+					break
+				}
 			}
 			tokens = append(tokens, expr[start:i])
 			continue
@@ -236,9 +249,9 @@ func isIdentifier(s string) bool {
 		return false
 	}
 
-	// Remaining characters can be letters, digits, or underscores
+	// Remaining characters can be letters, digits, underscores, dots, or brackets
 	for i := 1; i < len(s); i++ {
-		if !isLetter(s[i]) && !isDigit(s[i]) && s[i] != '_' {
+		if !isLetter(s[i]) && !isDigit(s[i]) && s[i] != '_' && s[i] != '.' && s[i] != '[' && s[i] != ']' && s[i] != '\'' && s[i] != '"' && s[i] != '$' {
 			return false
 		}
 	}
diff --git a/expr/tokenizer_custom_test.go b/expr/tokenizer_custom_test.go
@@ -0,0 +1,35 @@
+package expr
+
+import (
+	"testing"
+
+	"github.com/stretchr/testify/assert"
+)
+
+// TestTokenizeWithArrayAccess 测试包含数组访问的分词
+func TestTokenizeWithArrayAccess(t *testing.T) {
+	tests := []struct {
+		name     string
+		expr     string
+		expected []string
+		wantErr  bool
+	}{
+		{"数组访问", "sensors[0].temperature", []string{"sensors[0].temperature"}, false},
+		{"字符串键访问", "config['key']", []string{"config['key']"}, false},
+		{"混合访问", "data[0].items['key'].value", []string{"data[0].items['key'].value"}, false},
+		{"表达式中的数组访问", "a[0] + b[1]", []string{"a[0]", "+", "b[1]"}, false},
+		{"函数中的数组访问", "AVG(sensors[0].temperature)", []string{"AVG", "(", "sensors[0].temperature", ")"}, false},
+	}
+
+	for _, tt := range tests {
+		t.Run(tt.name, func(t *testing.T) {
+			got, err := tokenize(tt.expr)
+			if tt.wantErr {
+				assert.Error(t, err)
+				return
+			}
+			assert.NoError(t, err)
+			assert.Equal(t, tt.expected, got)
+		})
+	}
+}
diff --git a/expr/tokenizer_test.go b/expr/tokenizer_test.go
@@ -169,7 +169,9 @@ func TestIsIdentifier(t *testing.T) {
 		{"123abc", false},
 		{"", false},
 		{"var-name", false},
-		{"var.name", false},
+		{"var.name", true},
+		{"var[0]", true},
+		{"var['key']", true},
 		{"var name", false},
 	}
 
diff --git a/rsql/coverage_test.go b/rsql/coverage_test.go
@@ -969,7 +969,7 @@ func TestParserComplexFieldAccess(t *testing.T) {
 		{
 			name:        "混合访问表达式",
 			query:       "SELECT field.nested[0].deep FROM table",
-			expectError: true, // lexer不支持点号在表达式中
+			expectError: false, // lexer现已支持点号在表达式中
 		},
 		{
 			name:        "标识符数组索引",
diff --git a/rsql/lexer.go b/rsql/lexer.go
@@ -61,6 +61,8 @@ const (
 	// 数组索引相关token
 	TokenLBracket
 	TokenRBracket
+	// 点号token
+	TokenDot
 )
 
 type Token struct {
@@ -127,6 +129,9 @@ func (l *Lexer) NextToken() Token {
 	case ']':
 		l.readChar()
 		return Token{Type: TokenRBracket, Value: "]", Pos: tokenPos, Line: tokenLine, Column: tokenColumn}
+	case '.':
+		l.readChar()
+		return Token{Type: TokenDot, Value: ".", Pos: tokenPos, Line: tokenLine, Column: tokenColumn}
 	case '+':
 		l.readChar()
 		return Token{Type: TokenPlus, Value: "+", Pos: tokenPos, Line: tokenLine, Column: tokenColumn}
diff --git a/rsql/parser.go b/rsql/parser.go
@@ -31,6 +31,7 @@ var tokenTypeNames = map[TokenType]string{
 	TokenComma:       ",",
 	TokenLParen:      "(",
 	TokenRParen:      ")",
+	TokenDot:         ".",
 	TokenIdent:       "identifier",
 	TokenQuotedIdent: "quoted identifier",
 	TokenNumber:      "number",
@@ -358,11 +359,16 @@ func (p *Parser) parseSelect(stmt *SelectStatement) error {
 				// 3. 数字和标识符之间
 				// 4. 左括号之后
 				// 5. 右括号之前
-				if currentToken.Type == TokenLParen && lastChar != " " && lastChar != "(" {
-					// 函数名和左括号之间不加空格
+				// 6. 数组索引相关：[ 前，[ 后，] 前
+				// 7. 点号前后
+				if (currentToken.Type == TokenLParen || currentToken.Type == TokenLBracket) && lastChar != " " && lastChar != "(" && lastChar != "[" {
+					// 函数名/数组名和左括号/左中括号之间不加空格
 					shouldAddSpace = false
-				} else if lastChar == "(" || currentToken.Type == TokenRParen {
-					// 左括号之后或右括号之前不加空格
+				} else if lastChar == "(" || lastChar == "[" || currentToken.Type == TokenRParen || currentToken.Type == TokenRBracket {
+					// 左括号/左中括号之后或右括号/右中括号之前不加空格
+					shouldAddSpace = false
+				} else if currentToken.Type == TokenDot || lastChar == "." {
+					// 点号前后不加空格
 					shouldAddSpace = false
 				} else if len(exprStr) > 0 && currentToken.Type == TokenNumber {
 					// 检查前一个字符是否是字母（标识符的一部分），且前面没有空格
diff --git a/stream/processor_data_test.go b/stream/processor_data_test.go
@@ -215,7 +215,7 @@ func TestDataProcessor_EvaluateNestedFieldExpression(t *testing.T) {
 			data: map[string]interface{}{
 				"device": map[string]interface{}{"id": 123},
 			},
-			expected: 123.0,
+			expected: 123, // Expect int because EvaluateValueWithNull returns original type
 			hasError: false,
 		},
 		{
@@ -244,7 +244,7 @@ func TestDataProcessor_EvaluateNestedFieldExpression(t *testing.T) {
 			data: map[string]interface{}{
 				"device": map[string]interface{}{"id": 456},
 			},
-			expected: 456.0,
+			expected: 456, // Expect int because EvaluateValueWithNull returns original type
 			hasError: false,
 		},
 	}
@@ -434,14 +434,14 @@ func TestDataProcessor_ExpressionWithNullValues(t *testing.T) {
 // TestDataProcessor_ExpandUnnestResults 测试 expandUnnestResults 函数的各种情况
 func TestDataProcessor_ExpandUnnestResults(t *testing.T) {
 	tests := []struct {
-		name             string
+		name              string
 		hasUnnestFunction bool
-		result           map[string]interface{}
-		originalData     map[string]interface{}
-		expected         []map[string]interface{}
+		result            map[string]interface{}
+		originalData      map[string]interface{}
+		expected          []map[string]interface{}
 	}{
 		{
-			name:             "no unnest function - should return single result",
+			name:              "no unnest function - should return single result",
 			hasUnnestFunction: false,
 			result: map[string]interface{}{
 				"name": "test",
@@ -453,16 +453,16 @@ func TestDataProcessor_ExpandUnnestResults(t *testing.T) {
 			},
 		},
 		{
-			name:             "empty result - should return single empty result",
+			name:              "empty result - should return single empty result",
 			hasUnnestFunction: true,
-			result:           map[string]interface{}{},
-			originalData:     map[string]interface{}{"id": 1},
+			result:            map[string]interface{}{},
+			originalData:      map[string]interface{}{"id": 1},
 			expected: []map[string]interface{}{
 				{},
 			},
 		},
 		{
-			name:             "no unnest result - should return single result",
+			name:              "no unnest result - should return single result",
 			hasUnnestFunction: true,
 			result: map[string]interface{}{
 				"name": "test",
@@ -474,7 +474,7 @@ func TestDataProcessor_ExpandUnnestResults(t *testing.T) {
 			},
 		},
 		{
-			name:             "unnest result with simple values",
+			name:              "unnest result with simple values",
 			hasUnnestFunction: true,
 			result: map[string]interface{}{
 				"name": "test",
@@ -496,7 +496,7 @@ func TestDataProcessor_ExpandUnnestResults(t *testing.T) {
 			},
 		},
 		{
-			name:             "unnest result with object values",
+			name:              "unnest result with object values",
 			hasUnnestFunction: true,
 			result: map[string]interface{}{
 				"name": "test",
@@ -524,7 +524,7 @@ func TestDataProcessor_ExpandUnnestResults(t *testing.T) {
 			},
 		},
 		{
-			name:             "empty unnest result - should return empty array",
+			name:              "empty unnest result - should return empty array",
 			hasUnnestFunction: true,
 			result: map[string]interface{}{
 				"name": "test",
diff --git a/streamsql_nested_field_test.go b/streamsql_nested_field_test.go

Original file line number	Diff line number	Diff line change
`@@ -183,6 +183,8 @@ func isValidChar(ch rune) bool {`
`183`	`183`	`return true`
`184`	`184`	case '`': // Backtick (for identifiers)
`185`	`185`	`return true`
	`186`	`+ case '[', ']': // Brackets (for array/map access)`
	`187`	`+ return true`
`186`	`188`	`default:`
`187`	`189`	`return false`
`188`	`190`	`}`
Original file line number	Diff line number	Diff line change
`@@ -969,7 +969,7 @@ func TestParserComplexFieldAccess(t *testing.T) {`
`969`	`969`	`{`
`970`	`970`	`name: "混合访问表达式",`
`971`	`971`	`query: "SELECT field.nested[0].deep FROM table",`
`972`		`- expectError: true, // lexer不支持点号在表达式中`
	`972`	`+ expectError: false, // lexer现已支持点号在表达式中`
`973`	`973`	`},`
`974`	`974`	`{`
`975`	`975`	`name: "标识符数组索引",`