symflower
diff --git a/‎evaluate/evaluate_test.go‎
Lines changed: 58 additions & 9 deletions b/‎evaluate/evaluate_test.go‎
Lines changed: 58 additions & 9 deletions
diff --git a/‎evaluate/task/write-test.go‎
Lines changed: 22 additions & 14 deletions b/‎evaluate/task/write-test.go‎
Lines changed: 22 additions & 14 deletions
diff --git a/‎evaluate/task/write-test_test.go‎
Lines changed: 47 additions & 0 deletions b/‎evaluate/task/write-test_test.go‎
Lines changed: 47 additions & 0 deletions
diff --git a/‎model/llm/llm.go‎
Lines changed: 7 additions & 3 deletions b/‎model/llm/llm.go‎
Lines changed: 7 additions & 3 deletions
@@ -161,15 +161,39 @@ func TestEvaluate(t *testing.T) {
 
 	{
 		languageGolang := &golang.Language{}
-		mockedModel := modeltesting.NewMockCapabilityWriteTestsNamed(t, "empty-response-model")
+		mockedModelID := "testing-provider/empty-response-model"
+		mockedQuery := providertesting.NewMockQuery(t)
+		mockedModel := llm.NewModel(mockedQuery, mockedModelID)
 		repositoryPath := filepath.Join("golang", "plain")
 
 		validate(t, &testCase{
-			Name: "Empty model responses are errors",
+			Name: "Empty model response",
 
 			Before: func(t *testing.T, logger *log.Logger, resultPath string) {
+				queryResult1 := &provider.QueryResult{
+					Message: "",
+					GenerationInfo: &provider.GenerationInfo{
+						TotalCost:              0.111111111,
+						NativeTokensPrompt:     111,
+						NativeTokensCompletion: 222,
+					},
+				}
+				// Set up mocks, when test is running.
+				mockedQuery.On("Query", mock.Anything, mock.Anything, mock.Anything).Return(queryResult1, nil).Once().After(10 * time.Millisecond) // Simulate a model response delay because our internal safety measures trigger when a query is done in 0 milliseconds.
+
+				queryResult2 := &provider.QueryResult{
+					Message: "",
+					GenerationInfo: &provider.GenerationInfo{
+						TotalCost:              0.222222222,
+						NativeTokensPrompt:     333,
+						NativeTokensCompletion: 444,
+					},
+				}
 				// Set up mocks, when test is running.
-				mockedModel.MockCapabilityWriteTests.On("WriteTests", mock.Anything).Return(nil, ErrEmptyResponseFromModel)
+				mockedQuery.On("Query", mock.Anything, mock.Anything, mock.Anything).Return(queryResult2, nil).Once().After(10 * time.Millisecond) // Simulate a model response delay because our internal safety measures trigger when a query is done in 0 milliseconds.
+			},
+			After: func(t *testing.T, logger *log.Logger, resultPath string) {
+				mockedQuery.AssertNumberOfCalls(t, "Query", 2)
 			},
 
 			Context: &Context{
@@ -180,6 +204,11 @@ func TestEvaluate(t *testing.T) {
 				Models: []evalmodel.Model{
 					mockedModel,
 				},
+				QueryAttempts: 3,
+
+				RepositoryPaths: []string{
+					repositoryPath,
+				},
 			},
 
 			ExpectedAssessments: []*metricstesting.AssessmentTuple{
@@ -189,8 +218,12 @@ func TestEvaluate(t *testing.T) {
 					RepositoryPath: repositoryPath,
 					Case:           "plain.go",
 					Task:           evaluatetask.IdentifierWriteTests,
-					Assessment: metrics.Assessments{
+					Assessment: map[metrics.AssessmentKey]float64{
 						metrics.AssessmentKeyFilesExecutedMaximumReachable: 1,
+						metrics.AssessmentKeyResponseNoError:               1,
+						metrics.AssessmentKeyCostsTokenActual:              0.111111111,
+						metrics.AssessmentKeyNativeTokenInput:              111,
+						metrics.AssessmentKeyNativeTokenOutput:             222,
 					},
 				},
 				&metricstesting.AssessmentTuple{
@@ -199,8 +232,12 @@ func TestEvaluate(t *testing.T) {
 					RepositoryPath: repositoryPath,
 					Case:           "plain.go",
 					Task:           evaluatetask.IdentifierWriteTestsSymflowerFix,
-					Assessment: metrics.Assessments{
+					Assessment: map[metrics.AssessmentKey]float64{
 						metrics.AssessmentKeyFilesExecutedMaximumReachable: 1,
+						metrics.AssessmentKeyResponseNoError:               1,
+						metrics.AssessmentKeyCostsTokenActual:              0.111111111,
+						metrics.AssessmentKeyNativeTokenInput:              111,
+						metrics.AssessmentKeyNativeTokenOutput:             222,
 					},
 				},
 				&metricstesting.AssessmentTuple{
@@ -209,8 +246,12 @@ func TestEvaluate(t *testing.T) {
 					RepositoryPath: repositoryPath,
 					Case:           "plain.go",
 					Task:           evaluatetask.IdentifierWriteTestsSymflowerTemplate,
-					Assessment: metrics.Assessments{
+					Assessment: map[metrics.AssessmentKey]float64{
 						metrics.AssessmentKeyFilesExecutedMaximumReachable: 1,
+						metrics.AssessmentKeyResponseNoError:               1,
+						metrics.AssessmentKeyCostsTokenActual:              0.222222222,
+						metrics.AssessmentKeyNativeTokenInput:              333,
+						metrics.AssessmentKeyNativeTokenOutput:             444,
 					},
 				},
 				&metricstesting.AssessmentTuple{
@@ -219,15 +260,23 @@ func TestEvaluate(t *testing.T) {
 					RepositoryPath: repositoryPath,
 					Case:           "plain.go",
 					Task:           evaluatetask.IdentifierWriteTestsSymflowerTemplateSymflowerFix,
-					Assessment: metrics.Assessments{
+					Assessment: map[metrics.AssessmentKey]float64{
 						metrics.AssessmentKeyFilesExecutedMaximumReachable: 1,
+						metrics.AssessmentKeyResponseNoError:               1,
+						metrics.AssessmentKeyCostsTokenActual:              0.222222222,
+						metrics.AssessmentKeyNativeTokenInput:              333,
+						metrics.AssessmentKeyNativeTokenOutput:             444,
 					},
 				},
 			},
 			ExpectedResultFiles: map[string]func(t *testing.T, filePath string, data string){
 				"evaluation.log": nil,
-				filepath.Join(string(evaluatetask.IdentifierWriteTests), mockedModel.ID(), "golang", "golang", "plain", "evaluation.log"): nil,
-				"evaluation.csv": nil,
+				filepath.Join(string(evaluatetask.IdentifierWriteTests), log.CleanModelNameForFileSystem(mockedModelID), "golang", "golang", "plain", "evaluation.log"): func(t *testing.T, filePath, data string) {
+					assert.Equal(t, 4, strings.Count(data, "no test files found"), "number of ocurrences of \"no test files found\" not matched")
+				},
+				"evaluation.csv": func(t *testing.T, filePath, data string) {
+					assert.Lenf(t, strings.Split(data, "\n"), 6, "expected 6 lines: header, 4x entries and final new line:\n%s", data)
+				},
 			},
 		})
 	}
 
@@ -120,28 +120,17 @@ func (t *WriteTests) Run(ctx evaltask.Context) (repositoryAssessment map[string]
 			ctx.Logger.Panicf("ERROR: unable to reset temporary repository path: %s", err)
 		}
 
-		_, err = symflowerTemplate(taskLogger.Logger, dataPath, ctx.Language, filePath) // TODO Incorporate template processing time. https://github.com/symflower/eval-dev-quality/issues/350
+		testTemplate, err := symflowerTemplateAsString(ctx, taskLogger, dataPath, filePath)
 		if err != nil {
-			problems = append(problems, pkgerrors.WithMessage(err, "generating Symflower template"))
+			problems = append(problems, err)
 
 			withSymflowerTemplateAssessment.Add(modelAssessmentFile)
 			withSymflowerTemplateAndFixAssessment.Add(withSymflowerFixAssessmentFile)
 
 			continue
 		}
 
-		testTemplateFilePath := filepath.Join(dataPath, ctx.Language.TestFilePath(dataPath, filePath))
-		testTemplate, err := os.ReadFile(testTemplateFilePath)
-		if err != nil {
-			problems = append(problems, pkgerrors.WithMessagef(err, "reading Symflower template from %q", testTemplateFilePath))
-
-			withSymflowerTemplateAssessment.Add(modelAssessmentFile)
-			withSymflowerTemplateAndFixAssessment.Add(withSymflowerFixAssessmentFile)
-
-			continue
-		}
-
-		arguments.Template = string(testTemplate)
+		arguments.Template = testTemplate
 		modelTemplateAssessmentFile, templateWithSymflowerFixAssessmentFile, ps, err := runModelAndSymflowerFix(ctx, modelContext, modelCapability.WriteTests)
 		problems = append(problems, ps...)
 		if err != nil {
@@ -155,6 +144,25 @@ func (t *WriteTests) Run(ctx evaltask.Context) (repositoryAssessment map[string]
 	return repositoryAssessment, problems, nil
 }
 
+// symflowerTemplateAsString generates a test template for the given file and makes sure that the repository is in the same state as before.
+func symflowerTemplateAsString(ctx evaltask.Context, taskLogger *taskLogger, dataPath string, filePath string) (testTemplate string, err error) {
+	_, err = symflowerTemplate(taskLogger.Logger, dataPath, ctx.Language, filePath) // TODO Incorporate template processing time. https://github.com/symflower/eval-dev-quality/issues/350
+	if err != nil {
+		return "", pkgerrors.WithMessage(err, "generating Symflower template")
+	}
+	testTemplateFilePath := filepath.Join(dataPath, ctx.Language.TestFilePath(dataPath, filePath))
+	testTemplateData, err := os.ReadFile(testTemplateFilePath)
+	if err != nil {
+		return "", pkgerrors.WithMessagef(err, "reading Symflower template from %q", testTemplateFilePath)
+	}
+
+	if err := ctx.Repository.Reset(ctx.Logger); err != nil {
+		ctx.Logger.Panicf("ERROR: unable to reset temporary repository path: %s", err)
+	}
+
+	return string(testTemplateData), nil
+}
+
 // validateWriteTestsRepository checks if the repository for the "write-tests" task is well-formed.
 func validateWriteTestsRepository(logger *log.Logger, repositoryPath string, language language.Language) (err error) {
 	logger.Info("validating repository", "path", repositoryPath)
 
@@ -8,6 +8,7 @@ import (
 	"testing"
 
 	"github.com/stretchr/testify/assert"
+	"github.com/stretchr/testify/mock"
 	"github.com/stretchr/testify/require"
 	"github.com/symflower/eval-dev-quality/evaluate/metrics"
 	metricstesting "github.com/symflower/eval-dev-quality/evaluate/metrics/testing"
@@ -123,6 +124,52 @@ func TestWriteTestsRun(t *testing.T) {
 		})
 	})
 
+	{
+		temporaryDirectoryPath := t.TempDir()
+		repositoryPath := filepath.Join(temporaryDirectoryPath, "golang", "plain")
+		require.NoError(t, osutil.CopyTree(filepath.Join("..", "..", "testdata", "golang", "plain"), repositoryPath))
+
+		modelMock := modeltesting.NewMockCapabilityWriteTestsNamed(t, "mocked-model")
+		// Simulate that a model does not generate anything.
+		modelMock.MockCapabilityWriteTests.On("WriteTests", mock.Anything).Return(metricstesting.AssessmentsWithProcessingTime, nil)
+
+		validate(t, &tasktesting.TestCaseTask{
+			Name: "Reset symflower template so it's not mistaken for model solution",
+
+			Model:          modelMock,
+			Language:       &golang.Language{},
+			TestDataPath:   temporaryDirectoryPath,
+			RepositoryPath: filepath.Join("golang", "plain"),
+
+			ExpectedRepositoryAssessment: map[string]map[evaltask.Identifier]metrics.Assessments{
+				"plain.go": map[evaltask.Identifier]metrics.Assessments{
+					IdentifierWriteTests: metrics.Assessments{
+						metrics.AssessmentKeyFilesExecutedMaximumReachable: 1,
+						metrics.AssessmentKeyResponseNoError:               1,
+					},
+					IdentifierWriteTestsSymflowerFix: metrics.Assessments{
+						metrics.AssessmentKeyFilesExecutedMaximumReachable: 1,
+						metrics.AssessmentKeyResponseNoError:               1,
+					},
+					IdentifierWriteTestsSymflowerTemplate: metrics.Assessments{
+						metrics.AssessmentKeyFilesExecutedMaximumReachable: 1,
+						metrics.AssessmentKeyResponseNoError:               1,
+					},
+					IdentifierWriteTestsSymflowerTemplateSymflowerFix: metrics.Assessments{
+						metrics.AssessmentKeyFilesExecutedMaximumReachable: 1,
+						metrics.AssessmentKeyResponseNoError:               1,
+					},
+				},
+			},
+			ExpectedProblemContains: []string{
+				"ERROR: no test files found",
+				"ERROR: no test files found",
+				"ERROR: no test files found",
+				"ERROR: no test files found",
+			},
+		})
+	}
+
 	t.Run("Symflower Fix", func(t *testing.T) {
 		t.Run("Go", func(t *testing.T) {
 			validateGo := func(t *testing.T, testName string, language language.Language, testFileContent string, expectedAssessments map[string]map[evaltask.Identifier]metrics.Assessments, expectedProblems []string, assertTestsPass bool) {
 
@@ -329,10 +329,10 @@ func (m *Model) WriteTests(ctx model.Context) (assessment metrics.Assessments, e
 
 func (m *Model) query(logger *log.Logger, request string) (queryResult *provider.QueryResult, err error) {
 	var duration time.Duration
+	id := uuid.NewString()
 	if err := retry.Do(
 		func() error {
-			id := uuid.NewString
-			logger.Info("querying model", "model", m.ID(), "id", id, "prompt", string(bytesutil.PrefixLines([]byte(request), []byte("\t"))))
+			logger.Info("querying model", "model", m.ID(), "query-id", id, "prompt", string(bytesutil.PrefixLines([]byte(request), []byte("\t"))))
 			start := time.Now()
 			queryResult, err = m.provider.Query(context.Background(), m, request)
 			if err != nil {
@@ -343,7 +343,7 @@ func (m *Model) query(logger *log.Logger, request string) (queryResult *provider
 			if queryResult.GenerationInfo != nil {
 				totalCosts = queryResult.GenerationInfo.TotalCost
 			}
-			logger.Info("model responded", "model", m.ID(), "id", id, "duration", duration.Milliseconds(), "response-id", queryResult.ResponseID, "costs-total", totalCosts, "token-input", queryResult.Usage.PromptTokens, "token-output", queryResult.Usage.CompletionTokens, "response", string(bytesutil.PrefixLines([]byte(queryResult.Message), []byte("\t"))))
+			logger.Info("model responded", "model", m.ID(), "query-id", id, "duration", duration.Milliseconds(), "response-id", queryResult.ResponseID, "costs-total", totalCosts, "token-input", queryResult.Usage.PromptTokens, "token-output", queryResult.Usage.CompletionTokens, "response", string(bytesutil.PrefixLines([]byte(queryResult.Message), []byte("\t"))))
 
 			return nil
 		},
@@ -506,6 +506,10 @@ func handleQueryResult(queryResult *provider.QueryResult, filePathAbsolute strin
 		assessment[metrics.AssessmentKeyCostsTokenActual] = queryResult.GenerationInfo.TotalCost
 	}
 
+	if sourceFileContent == "" {
+		return assessment, nil
+	}
+
 	if err := os.MkdirAll(filepath.Dir(filePathAbsolute), 0755); err != nil {
 		return nil, pkgerrors.WithStack(err)
 	}