symflower
diff --git a/‎evaluate/evaluate_test.go‎
Lines changed: 25 additions & 6 deletions b/‎evaluate/evaluate_test.go‎
Lines changed: 25 additions & 6 deletions
diff --git a/‎evaluate/metrics/assessment.go‎
Lines changed: 13 additions & 8 deletions b/‎evaluate/metrics/assessment.go‎
Lines changed: 13 additions & 8 deletions
diff --git a/‎evaluate/metrics/assessment_test.go‎
Lines changed: 4 additions & 2 deletions b/‎evaluate/metrics/assessment_test.go‎
Lines changed: 4 additions & 2 deletions
diff --git a/‎evaluate/report/csv_test.go‎
Lines changed: 6 additions & 6 deletions b/‎evaluate/report/csv_test.go‎
Lines changed: 6 additions & 6 deletions
diff --git a/‎evaluate/report/testing/csv.go‎
Lines changed: 22 additions & 25 deletions b/‎evaluate/report/testing/csv.go‎
Lines changed: 22 additions & 25 deletions
@@ -10,6 +10,7 @@ import (
 	"testing"
 	"time"
 
+	"github.com/sashabaranov/go-openai"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/mock"
 	"github.com/stretchr/testify/require"
@@ -244,7 +245,7 @@ func TestEvaluate(t *testing.T) {
 
 				Before: func(t *testing.T, logger *log.Logger, resultPath string) {
 					// Set up mocks, when test is running.
-					mockedQuery.On("Query", mock.Anything, mock.Anything, mock.Anything).Return("", ErrEmptyResponseFromModel)
+					mockedQuery.On("Query", mock.Anything, mock.Anything, mock.Anything).Return(nil, ErrEmptyResponseFromModel)
 				},
 				After: func(t *testing.T, logger *log.Logger, resultPath string) {
 					mockedQuery.AssertNumberOfCalls(t, "Query", 2)
@@ -324,11 +325,14 @@ func TestEvaluate(t *testing.T) {
 				Name: "Success after retry",
 
 				Before: func(t *testing.T, logger *log.Logger, resultPath string) {
+					queryResult := &provider.QueryResult{
+						Message: "model-response",
+					}
 					// Set up mocks, when test is running.
-					mockedQuery.On("Query", mock.Anything, mock.Anything, mock.Anything).Return("", ErrEmptyResponseFromModel).Once()
-					mockedQuery.On("Query", mock.Anything, mock.Anything, mock.Anything).Return("model-response", nil).Once().After(10 * time.Millisecond) // Simulate a model response delay because our internal safety measures trigger when a query is done in 0 milliseconds.
-					mockedQuery.On("Query", mock.Anything, mock.Anything, mock.Anything).Return("", ErrEmptyResponseFromModel).Once()
-					mockedQuery.On("Query", mock.Anything, mock.Anything, mock.Anything).Return("model-response", nil).Once().After(10 * time.Millisecond) // Simulate a model response delay because our internal safety measures trigger when a query is done in 0 milliseconds.
+					mockedQuery.On("Query", mock.Anything, mock.Anything, mock.Anything).Return(nil, ErrEmptyResponseFromModel).Once()
+					mockedQuery.On("Query", mock.Anything, mock.Anything, mock.Anything).Return(queryResult, nil).Once().After(10 * time.Millisecond) // Simulate a model response delay because our internal safety measures trigger when a query is done in 0 milliseconds.
+					mockedQuery.On("Query", mock.Anything, mock.Anything, mock.Anything).Return(nil, ErrEmptyResponseFromModel).Once()
+					mockedQuery.On("Query", mock.Anything, mock.Anything, mock.Anything).Return(queryResult, nil).Once().After(10 * time.Millisecond) // Simulate a model response delay because our internal safety measures trigger when a query is done in 0 milliseconds.
 				},
 				After: func(t *testing.T, logger *log.Logger, resultPath string) {
 					mockedQuery.AssertNumberOfCalls(t, "Query", 4)
@@ -423,8 +427,15 @@ func TestEvaluate(t *testing.T) {
 				Name: "Immediate success",
 
 				Before: func(t *testing.T, logger *log.Logger, resultPath string) {
+					queryResult := &provider.QueryResult{
+						Message: "model-response",
+						Usage: openai.Usage{
+							PromptTokens:     123,
+							CompletionTokens: 456,
+						},
+					}
 					// Set up mocks, when test is running.
-					mockedQuery.On("Query", mock.Anything, mock.Anything, mock.Anything).Return("model-response", nil).After(10 * time.Millisecond) // Simulate a model response delay because our internal safety measures trigger when a query is done in 0 milliseconds.
+					mockedQuery.On("Query", mock.Anything, mock.Anything, mock.Anything).Return(queryResult, nil).After(10 * time.Millisecond) // Simulate a model response delay because our internal safety measures trigger when a query is done in 0 milliseconds.
 				},
 				After: func(t *testing.T, logger *log.Logger, resultPath string) {
 					mockedQuery.AssertNumberOfCalls(t, "Query", 2)
@@ -457,6 +468,8 @@ func TestEvaluate(t *testing.T) {
 							metrics.AssessmentKeyGenerateTestsForFileCharacterCount: 14,
 							metrics.AssessmentKeyResponseCharacterCount:             14,
 							metrics.AssessmentKeyResponseNoError:                    1,
+							metrics.AssessmentKeyTokenInput:                         123,
+							metrics.AssessmentKeyTokenOutput:                        456,
 						},
 					},
 					&metricstesting.AssessmentTuple{
@@ -470,6 +483,8 @@ func TestEvaluate(t *testing.T) {
 							metrics.AssessmentKeyGenerateTestsForFileCharacterCount: 14,
 							metrics.AssessmentKeyResponseCharacterCount:             14,
 							metrics.AssessmentKeyResponseNoError:                    1,
+							metrics.AssessmentKeyTokenInput:                         123,
+							metrics.AssessmentKeyTokenOutput:                        456,
 						},
 					},
 					&metricstesting.AssessmentTuple{
@@ -483,6 +498,8 @@ func TestEvaluate(t *testing.T) {
 							metrics.AssessmentKeyGenerateTestsForFileCharacterCount: 14,
 							metrics.AssessmentKeyResponseCharacterCount:             14,
 							metrics.AssessmentKeyResponseNoError:                    1,
+							metrics.AssessmentKeyTokenInput:                         123,
+							metrics.AssessmentKeyTokenOutput:                        456,
 						},
 					},
 					&metricstesting.AssessmentTuple{
@@ -496,6 +513,8 @@ func TestEvaluate(t *testing.T) {
 							metrics.AssessmentKeyGenerateTestsForFileCharacterCount: 14,
 							metrics.AssessmentKeyResponseCharacterCount:             14,
 							metrics.AssessmentKeyResponseNoError:                    1,
+							metrics.AssessmentKeyTokenInput:                         123,
+							metrics.AssessmentKeyTokenOutput:                        456,
 						},
 					},
 				},
 
@@ -11,8 +11,8 @@ import (
 type AssessmentKey string
 
 var (
-	// allAssessmentKeys holds all registered assessment keys.
-	allAssessmentKeys []AssessmentKey
+	// AllAssessmentKeys holds all registered assessment keys.
+	AllAssessmentKeys []AssessmentKey
 	// AllAssessmentKeysStrings returns all registered assessment keys as strings.
 	AllAssessmentKeysStrings []string
 )
@@ -22,7 +22,7 @@ func RegisterAssessmentKey(key string) AssessmentKey {
 	assessment := AssessmentKey(key)
 	i := sort.SearchStrings(AllAssessmentKeysStrings, key)
 
-	allAssessmentKeys = slices.Insert(allAssessmentKeys, i, assessment)
+	AllAssessmentKeys = slices.Insert(AllAssessmentKeys, i, assessment)
 	AllAssessmentKeysStrings = slices.Insert(AllAssessmentKeysStrings, i, key)
 
 	return assessment
@@ -54,6 +54,11 @@ var (
 	// AssessmentKeyResponseNoExcess indicates that a model did not produce more content as requested.
 	// TODO Infer if a model produced "too much" code. https://github.com/symflower/eval-dev-quality/issues/44
 	AssessmentKeyResponseNoExcess = RegisterAssessmentKey("response-no-excess")
+
+	// AssessmentKeyTokenInput collects the number of input token.
+	AssessmentKeyTokenInput = RegisterAssessmentKey("token-input")
+	// AssessmentKeyTokenOutput collects the number of output token.
+	AssessmentKeyTokenOutput = RegisterAssessmentKey("token-output")
 )
 
 // Assessments holds a collection of numerical assessment metrics.
@@ -77,7 +82,7 @@ func (a Assessments) Equal(x Assessments) bool {
 		return a == nil && x == nil
 	}
 
-	for _, key := range allAssessmentKeys {
+	for _, key := range AllAssessmentKeys {
 		if a[key] != x[key] {
 			return false
 		}
@@ -101,9 +106,9 @@ func (a Assessments) String() string {
 	if a == nil {
 		a = NewAssessments()
 	}
-	entries := make([]string, len(allAssessmentKeys))
+	entries := make([]string, len(AllAssessmentKeys))
 
-	for i, key := range allAssessmentKeys {
+	for i, key := range AllAssessmentKeys {
 		entries[i] = fmt.Sprintf("%s=%d", key, a[key])
 	}
 
@@ -116,8 +121,8 @@ func (a Assessments) StringCSV() (row []string) {
 		a = NewAssessments()
 	}
 
-	row = make([]string, len(allAssessmentKeys))
-	for i, key := range allAssessmentKeys {
+	row = make([]string, len(AllAssessmentKeys))
+	for i, key := range AllAssessmentKeys {
 		row[i] = fmt.Sprintf("%d", a[key])
 	}
 
 
@@ -84,7 +84,7 @@ func TestAssessmentString(t *testing.T) {
 
 		Assessment: NewAssessments(),
 
-		ExpectedString: "coverage=0, files-executed=0, files-executed-maximum-reachable=0, generate-tests-for-file-character-count=0, processing-time=0, response-character-count=0, response-no-error=0, response-no-excess=0, response-with-code=0, tests-passing=0",
+		ExpectedString: "coverage=0, files-executed=0, files-executed-maximum-reachable=0, generate-tests-for-file-character-count=0, processing-time=0, response-character-count=0, response-no-error=0, response-no-excess=0, response-with-code=0, tests-passing=0, token-input=0, token-output=0",
 	})
 
 	validate(t, &testCase{
@@ -101,9 +101,11 @@ func TestAssessmentString(t *testing.T) {
 			AssessmentKeyResponseWithCode:                   5,
 			AssessmentKeyProcessingTime:                     200,
 			AssessmentKeyTestsPassing:                       7,
+			AssessmentKeyTokenInput:                         123,
+			AssessmentKeyTokenOutput:                        456,
 		},
 
-		ExpectedString: "coverage=1, files-executed=2, files-executed-maximum-reachable=2, generate-tests-for-file-character-count=50, processing-time=200, response-character-count=100, response-no-error=3, response-no-excess=4, response-with-code=5, tests-passing=7",
+		ExpectedString: "coverage=1, files-executed=2, files-executed-maximum-reachable=2, generate-tests-for-file-character-count=50, processing-time=200, response-character-count=100, response-no-error=3, response-no-excess=4, response-with-code=5, tests-passing=7, token-input=123, token-output=456",
 	})
 }
 
 
@@ -24,7 +24,7 @@ func TestNewEvaluationFile(t *testing.T) {
 	require.NoError(t, err)
 
 	expectedEvaluationFileContent := bytesutil.StringTrimIndentations(`
-		model-id,language,repository,case,task,run,coverage,files-executed,files-executed-maximum-reachable,generate-tests-for-file-character-count,processing-time,response-character-count,response-no-error,response-no-excess,response-with-code,tests-passing
+		model-id,language,repository,case,task,run,coverage,files-executed,files-executed-maximum-reachable,generate-tests-for-file-character-count,processing-time,response-character-count,response-no-error,response-no-excess,response-with-code,tests-passing,token-input,token-output
 	`)
 
 	assert.Equal(t, expectedEvaluationFileContent, string(actualEvaluationFileContent))
@@ -65,8 +65,8 @@ func TestWriteEvaluationRecord(t *testing.T) {
 		},
 
 		ExpectedCSV: `
-			model-id,language,repository,case,task,run,coverage,files-executed,files-executed-maximum-reachable,generate-tests-for-file-character-count,processing-time,response-character-count,response-no-error,response-no-excess,response-with-code,tests-passing
-			mocked-model,golang,golang/plain,plain.go,write-tests,1,0,0,0,0,0,0,0,0,0,0
+			model-id,language,repository,case,task,run,coverage,files-executed,files-executed-maximum-reachable,generate-tests-for-file-character-count,processing-time,response-character-count,response-no-error,response-no-excess,response-with-code,tests-passing,token-input,token-output
+			mocked-model,golang,golang/plain,plain.go,write-tests,1,0,0,0,0,0,0,0,0,0,0,0,0
 		`,
 	})
 	validate(t, &testCase{
@@ -90,9 +90,9 @@ func TestWriteEvaluationRecord(t *testing.T) {
 		},
 
 		ExpectedCSV: `
-			model-id,language,repository,case,task,run,coverage,files-executed,files-executed-maximum-reachable,generate-tests-for-file-character-count,processing-time,response-character-count,response-no-error,response-no-excess,response-with-code,tests-passing
-			mocked-model,golang,golang/plain,plain.go,write-tests,1,0,1,1,0,0,0,1,0,0,0
-			mocked-model,golang,golang/plain,plain.go,write-tests-symflower-fix,1,10,1,1,0,0,0,1,0,0,0
+			model-id,language,repository,case,task,run,coverage,files-executed,files-executed-maximum-reachable,generate-tests-for-file-character-count,processing-time,response-character-count,response-no-error,response-no-excess,response-with-code,tests-passing,token-input,token-output
+			mocked-model,golang,golang/plain,plain.go,write-tests,1,0,1,1,0,0,0,1,0,0,0,0,0
+			mocked-model,golang,golang/plain,plain.go,write-tests-symflower-fix,1,10,1,1,0,0,0,1,0,0,0,0,0
 		`,
 	})
 }
@@ -1,8 +1,8 @@
 package testing
 
 import (
-	"regexp"
 	"strconv"
+	"strings"
 	"testing"
 
 	"github.com/stretchr/testify/assert"
@@ -18,32 +18,29 @@ func atoiUint64(t *testing.T, s string) uint64 {
 	return uint64(value)
 }
 
-// extractMetricsCSVMatch is a regular expression to extract metrics from CSV rows.
-var extractMetricsCSVMatch = regexp.MustCompile(`(\S+),(\S+),(\S+),(\S+),(\S+),\d+,(\d+),(\d+),(\d+),(\d+),(\d+),(\d+),(\d+),(\d+),(\d+),(\d+)`)
-
 // ParseMetrics extracts multiple assessment metrics from the given string.
 func ParseMetrics(t *testing.T, data string) (assessments metricstesting.AssessmentTuples) {
-	matches := extractMetricsCSVMatch.FindAllStringSubmatch(data, -1)
-
-	for _, match := range matches {
-		assessments = append(assessments, &metricstesting.AssessmentTuple{
-			Model:          match[1],
-			Language:       match[2],
-			RepositoryPath: match[3],
-			Case:           match[4],
-			Task:           task.Identifier(match[5]),
-			Assessment: metrics.Assessments{
-				metrics.AssessmentKeyCoverage:                           atoiUint64(t, match[6]),
-				metrics.AssessmentKeyFilesExecuted:                      atoiUint64(t, match[7]),
-				metrics.AssessmentKeyFilesExecutedMaximumReachable:      atoiUint64(t, match[8]),
-				metrics.AssessmentKeyGenerateTestsForFileCharacterCount: atoiUint64(t, match[9]),
-				metrics.AssessmentKeyProcessingTime:                     atoiUint64(t, match[10]),
-				metrics.AssessmentKeyResponseCharacterCount:             atoiUint64(t, match[11]),
-				metrics.AssessmentKeyResponseNoError:                    atoiUint64(t, match[12]),
-				metrics.AssessmentKeyResponseNoExcess:                   atoiUint64(t, match[13]),
-				metrics.AssessmentKeyResponseWithCode:                   atoiUint64(t, match[14]),
-			},
-		})
+	lines := strings.Split(strings.TrimSpace(data), "\n")
+	if len(lines) < 2 {
+		return assessments
+	}
+
+	for _, line := range lines[1:] {
+		cells := strings.Split(line, ",")
+
+		tuple := &metricstesting.AssessmentTuple{
+			Model:          cells[0],
+			Language:       cells[1],
+			RepositoryPath: cells[2],
+			Case:           cells[3],
+			Task:           task.Identifier(cells[4]),
+			Assessment:     metrics.Assessments{},
+		}
+		for i, key := range metrics.AllAssessmentKeys {
+			tuple.Assessment[key] = atoiUint64(t, cells[i+6])
+		}
+
+		assessments = append(assessments, tuple)
 	}
 
 	return assessments