Finishing touches?

triceo · triceo · commit 6e72173ed866 · 2024-10-03T07:42:24.000+02:00
diff --git a/.github/workflows/performance_score_director.yml b/.github/workflows/performance_score_director.yml
@@ -73,7 +73,7 @@ jobs:
         working-directory: ./timefold-solver-benchmarks
         shell: bash
         run: |
-          echo "forks=15" > scoredirector-benchmark.properties
+          echo "forks=20" > scoredirector-benchmark.properties
           echo "warmup_iterations=5" >> scoredirector-benchmark.properties
           echo "measurement_iterations=15" >> scoredirector-benchmark.properties
           echo "relative_score_error_threshold=0.025" >> scoredirector-benchmark.properties
@@ -97,6 +97,7 @@ jobs:
           ./run-scoredirector.sh
           echo "RANGE_START=$(jq '.[0].primaryMetric.scoreConfidence[0]|round' results/scoredirector/${{ github.event.inputs.baseline }}/results.json)" >> "$GITHUB_OUTPUT"
           echo "RANGE_END=$(jq '.[0].primaryMetric.scoreConfidence[1]|round' results/scoredirector/${{ github.event.inputs.baseline }}/results.json)" >> "$GITHUB_OUTPUT"
+          echo "RANGE_MID=$(jq '.[0].primaryMetric.score|round' results/scoredirector/${{ github.event.inputs.baseline }}/results.json)" >> "$GITHUB_OUTPUT"
 
       - name: Phase 2 - Checkout timefold-solver
         uses: actions/checkout@v4
@@ -149,6 +150,7 @@ jobs:
           ./run-scoredirector.sh
           echo "RANGE_START=$(jq '.[0].primaryMetric.scoreConfidence[0]|round' results/scoredirector/${{ github.event.inputs.branch }}/results.json)" >> "$GITHUB_OUTPUT"
           echo "RANGE_END=$(jq '.[0].primaryMetric.scoreConfidence[1]|round' results/scoredirector/${{ github.event.inputs.branch }}/results.json)" >> "$GITHUB_OUTPUT"
+          echo "RANGE_MID=$(jq '.[0].primaryMetric.score|round' results/scoredirector/${{ github.event.inputs.branch }}/results.json)" >> "$GITHUB_OUTPUT"
 
       - name: Phase 3 - Archive benchmark data
         uses: actions/upload-artifact@v4
@@ -161,21 +163,21 @@ jobs:
         working-directory: ./timefold-solver-benchmarks
         env:
           OLD_RANGE_START: ${{ steps.benchmark_baseline.outputs.RANGE_START }}
+          OLD_RANGE_MID:   ${{ steps.benchmark_baseline.outputs.RANGE_MID }}
           OLD_RANGE_END:   ${{ steps.benchmark_baseline.outputs.RANGE_END }}
           NEW_RANGE_START: ${{ steps.benchmark_new.outputs.RANGE_START }}
+          NEW_RANGE_MID:   ${{ steps.benchmark_new.outputs.RANGE_MID }}
           NEW_RANGE_END:   ${{ steps.benchmark_new.outputs.RANGE_END }}
         shell: bash
         run: |
           export FAIL=false
           if [ "$NEW_RANGE_START" -le "$OLD_RANGE_END" ] && [ "$NEW_RANGE_END" -ge "$OLD_RANGE_START" ]; then
-            export OLD_MEAN=$(((OLD_RANGE_END - OLD_RANGE_START)/2)+OLD_RANGE_START)
-            export NEW_MEAN=$(((NEW_RANGE_END - NEW_RANGE_START)/2)+NEW_RANGE_START)
-            if [ "$NEW_RANGE_START" -ge "$OLD_MEAN" ]; then
+            if [ "$NEW_RANGE_START" -ge "$OLD_RANGE_MID" ]; then
               echo "### 🍀Possible improvement 🍀" >> $GITHUB_STEP_SUMMARY
-            elif [ "$OLD_RANGE_END" -le "$NEW_MEAN" ]; then
+            elif [ "$OLD_RANGE_END" -le "$NEW_RANGE_MID" ]; then
               echo "### ⚠️Possible regression ⚠️" >> $GITHUB_STEP_SUMMARY
             else
-              echo "### Performance unchanged" >> $GITHUB_STEP_SUMMARY
+              echo "### Performance unchanged " >> $GITHUB_STEP_SUMMARY
             fi          
           elif [ "$NEW_RANGE_START" -gt "$OLD_RANGE_END" ]; then
             echo "### 🚀🚀🚀 Statistically significant improvement 🚀🚀🚀" >> $GITHUB_STEP_SUMMARY
@@ -185,14 +187,16 @@ jobs:
           fi
           
           export DIFF_START=$(echo "scale=2; ($OLD_RANGE_START / $NEW_RANGE_START) * 100" | bc)
+          export DIFF_MID=$(echo "scale=2; ($OLD_RANGE_MID / $NEW_RANGE_MID) * 100" | bc)
           export DIFF_END=$(echo "scale=2; ($OLD_RANGE_END / $NEW_RANGE_END) * 100" | bc)
           
-          echo "|        |   **Ref**   |      **Min**      |      **Max**      |" >> $GITHUB_STEP_SUMMARY
-          echo "|:------:|:-----------:|:-----------------:|:-----------------:|" >> $GITHUB_STEP_SUMMARY
-          echo "|  _Old_ | ${{ github.event.inputs.baseline }} | ${OLD_RANGE_START} | ${OLD_RANGE_END} |" >> $GITHUB_STEP_SUMMARY
-          echo "|  _New_ |  ${{ github.event.inputs.branch }}  | ${NEW_RANGE_START} | ${NEW_RANGE_END} |" >> $GITHUB_STEP_SUMMARY
-          echo "| _Diff_ |             |  ${DIFF_START} %  |   ${DIFF_END} %   |" >> $GITHUB_STEP_SUMMARY
+          echo "|        |   **Ref**   |      **Min**      |      **Mean**     |      **Max**      |" >> $GITHUB_STEP_SUMMARY
+          echo "|:------:|:-----------:|:-----------------:|:-----------------:|:-----------------:|" >> $GITHUB_STEP_SUMMARY
+          echo "|  _Old_ | ${{ github.event.inputs.baseline }} | ${OLD_RANGE_START} | ${OLD_RANGE_MID} | ${OLD_RANGE_END} |" >> $GITHUB_STEP_SUMMARY
+          echo "|  _New_ |  ${{ github.event.inputs.branch }}  | ${NEW_RANGE_START} | ${NEW_RANGE_MID} | ${NEW_RANGE_END} |" >> $GITHUB_STEP_SUMMARY
+          echo "| _Diff_ |             |  ${DIFF_START} %  |   ${DIFF_MID} %   |   ${DIFF_END} %   |" >> $GITHUB_STEP_SUMMARY
           
+          echo "" >> $GITHUB_STEP_SUMMARY
           echo "Min and max define a 99.9 % confidence interval." >> $GITHUB_STEP_SUMMARY
           echo "Min and max are in operations per second. Higher is better." >> $GITHUB_STEP_SUMMARY
           echo "Diff over 100 % represents an improvement, under 100 % a regression." >> $GITHUB_STEP_SUMMARY