Skip to content

Latest commit

 

History

History
123 lines (95 loc) · 7.09 KB

File metadata and controls

123 lines (95 loc) · 7.09 KB

Funktioner

Transkribering

  • Filuppladdning - Dra och släpp eller bläddra efter ljud-/videofiler (MP3, MP4, WAV, WebM, M4A)
  • Inspelning i webbläsaren - Spela in direkt från webbläsaren med visualisering av ljudnivå i realtid
  • Val av ljudkälla - Välj mellan tillgängliga mikrofoner eller fånga systemljud/skrivbordsljud via skärmdelning
  • Livetranskribering - WebSocket-baserad realtidstranskribering som strömmar segment medan du talar
  • Svensk taligenkänning - whisper.cpp med KB-LAB:s svenska modeller, Metal GPU-accelererat på Apple Silicon
  • Vokabulärpriming - Ange domänspecifika termer för att förbättra transkriberingsnoggrannheten för namn, facktermer och förkortningar
  • Standardvokabulär - Ange globalt vokabulär i inställningar som automatiskt tillämpas på alla nya transkriberingar
  • Automatisk ljudextrahering - FFmpeg konverterar alla format till 16 kHz mono WAV

Talaridentifiering

  • Pyannote.audio 3.1-diarisering - Automatisk talarseparering med konfigurerbart min/max antal talare
  • Introduktionsbaserad identifiering - LLM analyserar iterativt mötesinledningar för att extrahera talarnamn
  • Röstavtrycksmatchning - SpeechBrain ECAPA-TDNN-inbäddningar med cosinuslikhet för att koppla namn till röster
  • Beständiga röstprofiler - Spara röstavtryck för automatisk igenkänning av talare mellan möten
  • Hantering av röstprofiler - Lista, radera och aktivera/avaktivera röstprofilmatchning i Inställningar > Preferenser
  • Löpande medelvärdeinbäddningar - Profilnoggrannheten förbättras med varje möte allteftersom inbäddningar medelvärdesberäknas
  • Reservetikettering - Talare märks som "Deltagare 1", "Deltagare 2" när inga introduktioner upptäcks
  • Livtilldelning av talare - Provisorisk centroidbaserad talardetektering under liveinspelning
  • Poleringspass - Efterbearbetning med sammanslagning av talare och LLM-driven namngivning

Redigering av transkript

  • Inline-textredigering - Klicka på ett segment för att redigera transkriptionstexten
  • Omtilldelning av talare - Flytta segment till en annan talare
  • Namnbyte av talare - Byt namn på vilken identifierad talare som helst
  • Anpassning av talarfärg - Tilldela egna färger för visuell åtskillnad
  • Sammanslagning av talare - Slå ihop två talare till en, alla segment konsolideras
  • Bevarande av originaltext - Håller reda på original kontra redigerad text

Ljuduppspelning

  • Synkroniserad uppspelning - Klicka på ett segment för att hoppa till den punkten i ljudet
  • Spela vid hovring - Håll muspekaren över tidsstämplar för att visa uppspelningsknapp för omedelbar uppspelning
  • Automatisk rullning - Transkriptet följer uppspelningspositionen automatiskt
  • Tidsstämplar - MM:SS-tidsstämplar visas på varje segment

Export

  • SRT - Undertextformat med tidskoder och talaretiketter
  • WebVTT - Webbvideoformat med rösttaggar
  • Ren text - Talargrupperat transkript med sektionsrubriker
  • Markdown - Formaterat med talarrubriker och tidsstämplar
  • JSON - Strukturerad data för programmatisk användning
  • DOCX - Microsoft Word-dokument med formaterade rubriker
  • PDF - Professionell PDF med stilren layout och metadata

Åtgärder (LLM-analys)

  • Anpassat åtgärdsbibliotek - Skapa återanvändbara LLM-promptar (sammanfatta, åtgärdslista m.m.)
  • Kör mot valfritt möte - Exekvera åtgärder på färdiga transkript
  • Resultathistorik - Bläddra bland tidigare åtgärdsresultat per möte
  • Resultatexport - Ladda ner åtgärdsresultat som TXT, MD, DOCX eller PDF
  • Realtidsstatus - WebSocket-uppdateringar för pågående/färdiga/misslyckade åtgärder

Kryptering

  • Lösenordsskydd - Kryptera transkriptsegment med PBKDF2-nyckelderivering + Fernet-kryptering
  • Valfri kryptering av åtgärdsresultat - Välj att även kryptera åtgärdsresultat
  • Upplåsningsflöde - Lösenordsverifiering före dekryptering
  • Visuella indikatorer - Låsikoner på krypterade möten

Modellkonfiguration

  • Förinställningssystem - JSON-baserade modellförinställningar i mappen model_presets/
  • Uppgiftsbaserad tilldelning - Olika modeller för transkribering, livetranskribering, analys och åtgärder
  • Flera LLM-leverantörer - OpenRouter (Claude Sonnet 4 m.fl.) och lokal Ollama (Qwen 3 8B, Gemma 3 m.fl.)
  • Flera Whisper-modeller - Medium (högre kvalitet) och small (snabbare, för live) varianter
  • Inställnings-UI - Konfigurera modelltilldelningar från webbgränssnittet
  • Beständiga inställningar - Tilldelningar sparas i storage/settings.json

Liveinspelning

  • WebSocket-strömning - Ljudsnuttar skickas till servern var 4:e sekund som kompletta WebM-filer
  • Realtidssegment - Transkriptionsresultat visas medan du talar
  • Inspelningsrad - Visar förfluten tid, ljudnivåer och stoppkontroll
  • Automatisk slutbehandling - Fullkvalitetsbearbetning startas automatiskt efter att inspelningen stoppats
  • Progressiv talarförfining - Talarnamn förbättras i bakgrunden genom poleringspass

Sökning

  • Fulltextsökning - Sök genom alla mötestranskript från startsidan
  • PostgreSQL GIN-index - Snabb textsökning med to_tsvector och ILIKE-fallback
  • Resultat grupperade per möte - Sökresultat organiserade per möte med matchande segment
  • Klicka för att navigera - Hoppa direkt till ett matchande segment i valfritt möte

Selektiv ombearbetning

  • Omdiarisering - Kör om talarseparering utan att transkribera om (behåller transkript, omtilldelar talare)
  • Omidentifiering av talare - Kör om talaridentifiering utan att transkribera eller diarisera om
  • Full ombearbetning - Hela pipelinen från början
  • Bevarande av redigeringar - Manuellt redigerade segment bevaras vid ombearbetning

Preferenser

  • Standardvokabulär - Globala vokabulärtermer som tillämpas på alla nya transkriberingar
  • Röstprofiler av/på - Aktivera eller avaktivera röstprofilmatchning per organisation
  • Hantering av röstprofiler - Lista och radera sparade röstprofiler med bekräftelse

Användargränssnitt

  • Mötesöversikt - Lista över alla möten med statusmärken, längd och antal talare
  • Fulltextsökning - Sök genom alla transkript direkt från startsidan
  • Tre inmatningslägen - Flikar för Ladda upp, Spela in och Live i dialogen för ny transkribering
  • Realtidsförlopp - Steg-för-steg-förloppsindikator under bearbetning
  • Ombearbetningsmeny - Dropdown med omdiarisering, omidentifiering och full ombearbetning
  • Mörkt tema - Genomgående mörkt UI i slate/violett
  • Responsiv layout - Sidopanel med talare/åtgärder, huvudområde för transkript

Teknik

  • FastAPI-backend med asynkront WebSocket-stöd
  • React + TypeScript + Vite-frontend med Zustand för tillståndshantering
  • PostgreSQL för beständig lagring
  • Redis + Celery för bakgrundsbearbetning
  • FFmpeg för ljud-/videokonvertering
  • whisper.cpp (nativ binär) för transkribering
  • pyannote.audio för diarisering
  • SpeechBrain för röstavtryck