Skip to content

v2.0.0 - Pipeline Optimization

Latest

Choose a tag to compare

@strawberry-code strawberry-code released this 12 Dec 15:25
· 1 commit to main since this release

Breaking Changes

  • Unica immagine Docker: rimossi Dockerfile.tika e Dockerfile.tika.local, ora esiste solo Dockerfile con Tika integrato
  • Tika sempre obbligatorio: rimosso flag --no-tika e logica opzionale, Tika server sempre attivo
  • Tag immagine semplificato: usare ghcr.io/strawberry-code/ragify:latest (rimosso suffisso -tika)

Added

  • Dynamic batching: nuovo sistema di batching basato su token budget invece di batch size fisso
  • EMBEDDING_TOKEN_BUDGET: nuova env var (default 1800) per controllare token massimi per batch
  • Index file_hash: creazione automatica index su Qdrant per query O(1) invece di scroll O(N)
  • FileHashCache: cache in-memory per evitare query ripetute durante indicizzazione
  • Tika server mode: Tika avviato come server all'avvio container (porta 9998), elimina cold start 5-10s per file

Performance

Metrica Prima Dopo
Chiamate embedding (1k chunk) ~334 ~50-100
Tika cold start 5-10s/file 0s
Hash check O(N) scroll O(1) index

Docker

docker pull ghcr.io/strawberry-code/ragify:2.0.0
docker pull ghcr.io/strawberry-code/ragify:latest