Skip to content

Latest commit

 

History

History
65 lines (42 loc) · 2.24 KB

File metadata and controls

65 lines (42 loc) · 2.24 KB

Stud.IP-SpeechToTextPlugin

Beschreibung

Das SpeechToText-Plugin bietet im Arbeitsplatz eine Umgebung an, in der Audio- bzw. Video-Dateien hochgeladen werden, die dann über einen konfigurierbaren Backend-Server in Text umgewandelt wird.

Installation

PredictionService

Das Plugin bietet mit dem Interface SpeechToTextPlugin\Contracts\Services\PredictionServiceInterface die Möglichkeit, unterschiedlichste Transkriptions-Backends zu nutzen.

Aktuell stehen zwei Adapter zur Verfügung:

Ist die Umgebungsvariable `REPLICATE_TOKEN` gesetzt, wird über Replicate das Model https://replicate.com/vaibhavs10/incredibly-fast-whisper verwendet. Das Token erhält man unter https://replicate.com/account/api-tokens

Außerdem ist ein HuggingFace Token (https://huggingface.co/settings/tokens) nötig, um die “Speaker Diarisation” zu gewährleisten. Dazu muss zu diesen Bedingungen zugestimmt werden:

Beispiel für den Eintrag in Stud.IPs `.env`-Datei:

REPLICATE_TOKEN="r8_..."
HF_TOKEN="hf_..."

Ist die Umgebungsvariable `WHISPERX_API_URL` gesetzt, wird über eine Installation von whisperx-api verwendet.

Beispiel für den Eintrag in Stud.IPs `.env`-Datei:

WHISPERX_API_URL="http://172.17.0.1:11300"

Kontingent

Nutzende haben ein monatliches Upload-Kontingent. Dieses liegt standardmäßig bei 10GB kann aber über die Umgebungsvariable `SPEECH_TO_TEXT_QUOTA` in Bytes konfiguriert werden.

Beispiel für den Eintrag in Stud.IPs `.env`-Datei:

# Upload-Kontingent von 17 GB
SPEECH_TO_TEXT_QUOTA=18253611008

Systemanforderungen

  • Stud.IP ab Version 6.0
  • PHP v8.3+

Lizenz

./agplv3.png

Dieses Projekt unterliegt der GNU Affero General Public License v3.0 oder höher (AGPL-3.0-oder-höher).

Weitere Informationen finden Sie in der Datei LICENSE oder unter https://www.gnu.org/licenses/agpl-3.0.html.