cache schema fields to avoid memory allocation on every Next() call

s0und0fs1lence · s0und0fs1lence · commit 28304a8e750f · 2025-08-25T17:15:05.000Z
diff --git a/chdb/driver/driver.go b/chdb/driver/driver.go
@@ -54,6 +54,7 @@ func (d DriverType) PrepareRows(result chdbpurego.ChdbResult, buf []byte, bufSiz
 			localResult: result, reader: reader,
 			bufferSize: bufSize, needNewBuffer: true,
 			useUnsafeStringReader: useUnsafe,
+			schemaFields:          reader.Schema().Fields(),
 		}, nil
 
 	}
@@ -73,6 +74,7 @@ func (d DriverType) PrepareStreamingRows(result chdbpurego.ChdbStreamResult, buf
 			stream: result, curChunk: nextRes, reader: reader,
 			bufferSize: bufSize, needNewBuffer: true,
 			useUnsafeStringReader: useUnsafe,
+			schemaFields:          reader.Schema().Fields(),
 		}, nil
 
 	}
diff --git a/chdb/driver/parquet.go b/chdb/driver/parquet.go
@@ -28,6 +28,7 @@ type parquetRows struct {
 	reader                *parquet.GenericReader[any] // parquet reader
 	curRecord             parquet.Row                 // TODO: delete this?
 	buffer                []parquet.Row               // record buffer
+	schemaFields          []parquet.Field             // schema fields
 	bufferSize            int                         // amount of records to preload into buffer
 	bufferIndex           int64                       // index in the current buffer
 	curRow                int64                       // row counter
@@ -36,8 +37,7 @@ type parquetRows struct {
 }
 
 func (r *parquetRows) Columns() (out []string) {
-	sch := r.reader.Schema()
-	for _, f := range sch.Fields() {
+	for _, f := range r.schemaFields {
 		out = append(out, f.Name())
 	}
 
@@ -53,7 +53,7 @@ func (r *parquetRows) Close() error {
 	r.reader = nil
 	r.localResult.Free()
 	r.localResult = nil
-
+	r.schemaFields = nil
 	r.buffer = nil
 	return nil
 }
@@ -90,7 +90,7 @@ func (r *parquetRows) Next(dest []driver.Value) error {
 
 	}
 	r.curRecord = r.buffer[r.bufferIndex]
-	if r.curRecord == nil || len(r.curRecord) == 0 {
+	if len(r.curRecord) == 0 {
 		return fmt.Errorf("empty row")
 	}
 	var scanError error
@@ -166,19 +166,19 @@ func (r *parquetRows) Next(dest []driver.Value) error {
 }
 
 func (r *parquetRows) ColumnTypeDatabaseTypeName(index int) string {
-	return r.reader.Schema().Fields()[index].Type().String()
+	return r.schemaFields[index].Type().String()
 }
 
 func (r *parquetRows) ColumnTypeNullable(index int) (nullable, ok bool) {
-	return r.reader.Schema().Fields()[index].Optional(), true
+	return r.schemaFields[index].Optional(), true
 }
 
 func (r *parquetRows) ColumnTypePrecisionScale(index int) (precision, scale int64, ok bool) {
 	return 0, 0, false
 }
 
 func (r *parquetRows) ColumnTypeScanType(index int) reflect.Type {
-	switch r.reader.Schema().Fields()[index].Type().Kind() {
+	switch r.schemaFields[index].Type().Kind() {
 	case parquet.Boolean:
 		return reflect.TypeOf(false)
 	case parquet.Int32:
diff --git a/chdb/driver/parquet_streaming.go b/chdb/driver/parquet_streaming.go
@@ -18,17 +18,17 @@ type parquetStreamingRows struct {
 	curChunk              chdbpurego.ChdbResult       // current chunk
 	reader                *parquet.GenericReader[any] // parquet reader
 	curRecord             parquet.Row
-	buffer                []parquet.Row // record buffer
-	bufferSize            int           // amount of records to preload into buffer
-	bufferIndex           int64         // index in the current buffer
-	curRow                int64         // row counter
+	buffer                []parquet.Row   // record buffer
+	schemaFields          []parquet.Field // schema fields
+	bufferSize            int             // amount of records to preload into buffer
+	bufferIndex           int64           // index in the current buffer
+	curRow                int64           // row counter
 	needNewBuffer         bool
 	useUnsafeStringReader bool
 }
 
 func (r *parquetStreamingRows) Columns() (out []string) {
-	sch := r.reader.Schema()
-	for _, f := range sch.Fields() {
+	for _, f := range r.schemaFields {
 		out = append(out, f.Name())
 	}
 
@@ -45,6 +45,7 @@ func (r *parquetStreamingRows) Close() error {
 	r.stream.Free()
 	r.curChunk = nil
 	r.stream = nil
+	r.schemaFields = nil
 
 	r.buffer = nil
 	return nil
@@ -85,6 +86,7 @@ func (r *parquetStreamingRows) readNextChunkFromStream() error {
 		return io.EOF
 	}
 	r.reader = parquet.NewGenericReader[any](bytes.NewReader(r.curChunk.Buf()))
+	r.schemaFields = r.reader.Schema().Fields()
 	return nil
 }
 
@@ -182,19 +184,19 @@ func (r *parquetStreamingRows) Next(dest []driver.Value) error {
 }
 
 func (r *parquetStreamingRows) ColumnTypeDatabaseTypeName(index int) string {
-	return r.reader.Schema().Fields()[index].Type().String()
+	return r.schemaFields[index].Type().String()
 }
 
 func (r *parquetStreamingRows) ColumnTypeNullable(index int) (nullable, ok bool) {
-	return r.reader.Schema().Fields()[index].Optional(), true
+	return r.schemaFields[index].Optional(), true
 }
 
 func (r *parquetStreamingRows) ColumnTypePrecisionScale(index int) (precision, scale int64, ok bool) {
 	return 0, 0, false
 }
 
 func (r *parquetStreamingRows) ColumnTypeScanType(index int) reflect.Type {
-	switch r.reader.Schema().Fields()[index].Type().Kind() {
+	switch r.schemaFields[index].Type().Kind() {
 	case parquet.Boolean:
 		return reflect.TypeOf(false)
 	case parquet.Int32:

Original file line number	Diff line number	Diff line change
`@@ -54,6 +54,7 @@ func (d DriverType) PrepareRows(result chdbpurego.ChdbResult, buf []byte, bufSiz`
`54`	`54`	`localResult: result, reader: reader,`
`55`	`55`	`bufferSize: bufSize, needNewBuffer: true,`
`56`	`56`	`useUnsafeStringReader: useUnsafe,`
	`57`	`+ schemaFields: reader.Schema().Fields(),`
`57`	`58`	`}, nil`
`58`	`59`
`59`	`60`	`}`
`@@ -73,6 +74,7 @@ func (d DriverType) PrepareStreamingRows(result chdbpurego.ChdbStreamResult, buf`
`73`	`74`	`stream: result, curChunk: nextRes, reader: reader,`
`74`	`75`	`bufferSize: bufSize, needNewBuffer: true,`
`75`	`76`	`useUnsafeStringReader: useUnsafe,`
	`77`	`+ schemaFields: reader.Schema().Fields(),`
`76`	`78`	`}, nil`
`77`	`79`
`78`	`80`	`}`
Original file line number	Diff line number	Diff line change
`@@ -28,6 +28,7 @@ type parquetRows struct {`
`28`	`28`	`reader *parquet.GenericReader[any] // parquet reader`
`29`	`29`	`curRecord parquet.Row // TODO: delete this?`
`30`	`30`	`buffer []parquet.Row // record buffer`
	`31`	`+ schemaFields []parquet.Field // schema fields`
`31`	`32`	`bufferSize int // amount of records to preload into buffer`
`32`	`33`	`bufferIndex int64 // index in the current buffer`
`33`	`34`	`curRow int64 // row counter`
`@@ -36,8 +37,7 @@ type parquetRows struct {`
`36`	`37`	`}`
`37`	`38`
`38`	`39`	`func (r *parquetRows) Columns() (out []string) {`
`39`		`- sch := r.reader.Schema()`
`40`		`- for _, f := range sch.Fields() {`
	`40`	`+ for _, f := range r.schemaFields {`
`41`	`41`	`out = append(out, f.Name())`
`42`	`42`	`}`
`43`	`43`
`@@ -53,7 +53,7 @@ func (r *parquetRows) Close() error {`
`53`	`53`	`r.reader = nil`
`54`	`54`	`r.localResult.Free()`
`55`	`55`	`r.localResult = nil`
`56`		`-`
	`56`	`+ r.schemaFields = nil`
`57`	`57`	`r.buffer = nil`
`58`	`58`	`return nil`
`59`	`59`	`}`
`@@ -90,7 +90,7 @@ func (r *parquetRows) Next(dest []driver.Value) error {`
`90`	`90`
`91`	`91`	`}`
`92`	`92`	`r.curRecord = r.buffer[r.bufferIndex]`
`93`		`- if r.curRecord == nil \|\| len(r.curRecord) == 0 {`
	`93`	`+ if len(r.curRecord) == 0 {`
`94`	`94`	`return fmt.Errorf("empty row")`
`95`	`95`	`}`
`96`	`96`	`var scanError error`
`@@ -166,19 +166,19 @@ func (r *parquetRows) Next(dest []driver.Value) error {`
`166`	`166`	`}`
`167`	`167`
`168`	`168`	`func (r *parquetRows) ColumnTypeDatabaseTypeName(index int) string {`
`169`		`- return r.reader.Schema().Fields()[index].Type().String()`
	`169`	`+ return r.schemaFields[index].Type().String()`
`170`	`170`	`}`
`171`	`171`
`172`	`172`	`func (r *parquetRows) ColumnTypeNullable(index int) (nullable, ok bool) {`
`173`		`- return r.reader.Schema().Fields()[index].Optional(), true`
	`173`	`+ return r.schemaFields[index].Optional(), true`
`174`	`174`	`}`
`175`	`175`
`176`	`176`	`func (r *parquetRows) ColumnTypePrecisionScale(index int) (precision, scale int64, ok bool) {`
`177`	`177`	`return 0, 0, false`
`178`	`178`	`}`
`179`	`179`
`180`	`180`	`func (r *parquetRows) ColumnTypeScanType(index int) reflect.Type {`
`181`		`- switch r.reader.Schema().Fields()[index].Type().Kind() {`
	`181`	`+ switch r.schemaFields[index].Type().Kind() {`
`182`	`182`	`case parquet.Boolean:`
`183`	`183`	`return reflect.TypeOf(false)`
`184`	`184`	`case parquet.Int32:`