Das SpeechToText-Plugin bietet im Arbeitsplatz eine Umgebung an, in der Audio- bzw. Video-Dateien hochgeladen werden, die dann über einen konfigurierbaren Backend-Server in Text umgewandelt wird.
Das Plugin bietet mit dem Interface SpeechToTextPlugin\Contracts\Services\PredictionServiceInterface die Möglichkeit, unterschiedlichste Transkriptions-Backends zu nutzen.
Aktuell stehen zwei Adapter zur Verfügung:
Ist die Umgebungsvariable `REPLICATE_TOKEN` gesetzt, wird über Replicate das Model https://replicate.com/vaibhavs10/incredibly-fast-whisper verwendet. Das Token erhält man unter https://replicate.com/account/api-tokens
Außerdem ist ein HuggingFace Token (https://huggingface.co/settings/tokens) nötig, um die “Speaker Diarisation” zu gewährleisten. Dazu muss zu diesen Bedingungen zugestimmt werden:
- https://huggingface.co/pyannote/speaker-diarization-3.1
- https://huggingface.co/pyannote/segmentation-3.0
Beispiel für den Eintrag in Stud.IPs `.env`-Datei:
REPLICATE_TOKEN="r8_..." HF_TOKEN="hf_..."
Ist die Umgebungsvariable `WHISPERX_API_URL` gesetzt, wird über eine Installation von whisperx-api verwendet.
Beispiel für den Eintrag in Stud.IPs `.env`-Datei:
WHISPERX_API_URL="http://172.17.0.1:11300"
Nutzende haben ein monatliches Upload-Kontingent. Dieses liegt standardmäßig bei 10GB kann aber über die Umgebungsvariable `SPEECH_TO_TEXT_QUOTA` in Bytes konfiguriert werden.
Beispiel für den Eintrag in Stud.IPs `.env`-Datei:
# Upload-Kontingent von 17 GB SPEECH_TO_TEXT_QUOTA=18253611008
- Stud.IP ab Version 6.0
- PHP v8.3+
Dieses Projekt unterliegt der GNU Affero General Public License v3.0 oder höher (AGPL-3.0-oder-höher).
Weitere Informationen finden Sie in der Datei LICENSE oder unter https://www.gnu.org/licenses/agpl-3.0.html.
