|
| 1 | +--- |
| 2 | +title: Speech-to-Text |
| 3 | +description: Konvertiere Sprache in Text mit KI |
| 4 | +--- |
| 5 | + |
| 6 | +import { BlockInfoCard } from "@/components/ui/block-info-card" |
| 7 | + |
| 8 | +<BlockInfoCard |
| 9 | + type="stt" |
| 10 | + color="#181C1E" |
| 11 | +/> |
| 12 | + |
| 13 | +{/* MANUAL-CONTENT-START:intro */} |
| 14 | +Transkribiere Sprache zu Text mit modernsten KI-Modellen führender Anbieter. Die Sim Speech-to-Text (STT)-Tools ermöglichen es dir, Audio- und Videodateien in präzise Transkripte umzuwandeln, mit Unterstützung für mehrere Sprachen, Zeitstempel und optionaler Übersetzung. |
| 15 | + |
| 16 | +Unterstützte Anbieter: |
| 17 | + |
| 18 | +- **[OpenAI Whisper](https://platform.openai.com/docs/guides/speech-to-text/overview)**: Fortschrittliches Open-Source-STT-Modell von OpenAI. Unterstützt Modelle wie `whisper-1` und verarbeitet eine Vielzahl von Sprachen und Audioformaten. |
| 19 | +- **[Deepgram](https://deepgram.com/)**: Echtzeit- und Batch-STT-API mit Deep-Learning-Modellen wie `nova-3`, `nova-2` und `whisper-large`. Bietet Funktionen wie Sprechererkennung, Intentionserkennung und branchenspezifische Anpassungen. |
| 20 | +- **[ElevenLabs](https://elevenlabs.io/)**: Bekannt für hochwertige Sprach-KI, bietet ElevenLabs STT-Modelle mit Fokus auf Genauigkeit und natürlichem Sprachverständnis für zahlreiche Sprachen und Dialekte. |
| 21 | + |
| 22 | +Wähle den Anbieter und das Modell, das am besten zu deiner Aufgabe passt – sei es schnelle, produktionsreife Transkription (Deepgram), hochpräzise Mehrsprachenfähigkeit (Whisper) oder fortschrittliches Verständnis und Sprachabdeckung (ElevenLabs). |
| 23 | +{/* MANUAL-CONTENT-END */} |
| 24 | + |
| 25 | +## Nutzungsanleitung |
| 26 | + |
| 27 | +Transkribiere Audio- und Videodateien zu Text mit führenden KI-Anbietern. Unterstützt mehrere Sprachen, Zeitstempel und Sprechererkennung. |
| 28 | + |
| 29 | +## Tools |
| 30 | + |
| 31 | +### `stt_whisper` |
| 32 | + |
| 33 | +Transkribiere Audio zu Text mit OpenAI Whisper |
| 34 | + |
| 35 | +#### Eingabe |
| 36 | + |
| 37 | +| Parameter | Typ | Erforderlich | Beschreibung | |
| 38 | +| --------- | ---- | -------- | ----------- | |
| 39 | +| `provider` | string | Ja | STT-Anbieter \(whisper\) | |
| 40 | +| `apiKey` | string | Ja | OpenAI API-Schlüssel | |
| 41 | +| `model` | string | Nein | Zu verwendendes Whisper-Modell \(Standard: whisper-1\) | |
| 42 | +| `audioFile` | file | Nein | Zu transkribierende Audio- oder Videodatei | |
| 43 | +| `audioFileReference` | file | Nein | Verweis auf Audio-/Videodatei aus vorherigen Blöcken | |
| 44 | +| `audioUrl` | string | Nein | URL zu Audio- oder Videodatei | |
| 45 | +| `language` | string | Nein | Sprachcode \(z.B. "en", "es", "fr"\) oder "auto" für automatische Erkennung | |
| 46 | +| `timestamps` | string | Nein | Zeitstempel-Granularität: none, sentence oder word | |
| 47 | +| `translateToEnglish` | boolean | Nein | Audio ins Englische übersetzen | |
| 48 | + |
| 49 | +#### Ausgabe |
| 50 | + |
| 51 | +| Parameter | Typ | Beschreibung | |
| 52 | +| --------- | ---- | ----------- | |
| 53 | +| `transcript` | string | Vollständig transkribierter Text | |
| 54 | +| `segments` | array | Segmente mit Zeitstempeln | |
| 55 | +| `language` | string | Erkannte oder angegebene Sprache | |
| 56 | +| `duration` | number | Audiodauer in Sekunden | |
| 57 | +| `confidence` | number | Gesamter Konfidenzwert | |
| 58 | + |
| 59 | +### `stt_deepgram` |
| 60 | + |
| 61 | +Audio mit Deepgram in Text transkribieren |
| 62 | + |
| 63 | +#### Eingabe |
| 64 | + |
| 65 | +| Parameter | Typ | Erforderlich | Beschreibung | |
| 66 | +| --------- | ---- | -------- | ----------- | |
| 67 | +| `provider` | string | Ja | STT-Anbieter (deepgram) | |
| 68 | +| `apiKey` | string | Ja | Deepgram API-Schlüssel | |
| 69 | +| `model` | string | Nein | Zu verwendendes Deepgram-Modell (nova-3, nova-2, whisper-large, etc.) | |
| 70 | +| `audioFile` | file | Nein | Zu transkribierendes Audio- oder Videodatei | |
| 71 | +| `audioFileReference` | file | Nein | Referenz auf Audio-/Videodatei aus vorherigen Blöcken | |
| 72 | +| `audioUrl` | string | Nein | URL zu Audio- oder Videodatei | |
| 73 | +| `language` | string | Nein | Sprachcode (z.B. "en", "es", "fr") oder "auto" für automatische Erkennung | |
| 74 | +| `timestamps` | string | Nein | Zeitstempel-Granularität: none, sentence oder word | |
| 75 | +| `diarization` | boolean | Nein | Sprechererkennung aktivieren | |
| 76 | + |
| 77 | +#### Ausgabe |
| 78 | + |
| 79 | +| Parameter | Typ | Beschreibung | |
| 80 | +| --------- | ---- | ----------- | |
| 81 | +| `transcript` | string | Vollständig transkribierter Text | |
| 82 | +| `segments` | array | Segmente mit Zeitstempeln und Sprecherkennungen | |
| 83 | +| `language` | string | Erkannte oder angegebene Sprache | |
| 84 | +| `duration` | number | Audiodauer in Sekunden | |
| 85 | +| `confidence` | number | Gesamter Konfidenzwert | |
| 86 | + |
| 87 | +### `stt_elevenlabs` |
| 88 | + |
| 89 | +Audio in Text transkribieren mit ElevenLabs |
| 90 | + |
| 91 | +#### Eingabe |
| 92 | + |
| 93 | +| Parameter | Typ | Erforderlich | Beschreibung | |
| 94 | +| --------- | ---- | -------- | ----------- | |
| 95 | +| `provider` | string | Ja | STT-Anbieter \(elevenlabs\) | |
| 96 | +| `apiKey` | string | Ja | ElevenLabs API-Schlüssel | |
| 97 | +| `model` | string | Nein | Zu verwendenes ElevenLabs-Modell \(scribe_v1, scribe_v1_experimental\) | |
| 98 | +| `audioFile` | file | Nein | Audio- oder Videodatei zur Transkription | |
| 99 | +| `audioFileReference` | file | Nein | Referenz zu Audio-/Videodatei aus vorherigen Blöcken | |
| 100 | +| `audioUrl` | string | Nein | URL zu Audio- oder Videodatei | |
| 101 | +| `language` | string | Nein | Sprachcode \(z.B. "en", "es", "fr"\) oder "auto" für automatische Erkennung | |
| 102 | +| `timestamps` | string | Nein | Zeitstempel-Granularität: none, sentence oder word | |
| 103 | + |
| 104 | +#### Ausgabe |
| 105 | + |
| 106 | +| Parameter | Typ | Beschreibung | |
| 107 | +| --------- | ---- | ----------- | |
| 108 | +| `transcript` | string | Vollständig transkribierter Text | |
| 109 | +| `segments` | array | Segmente mit Zeitstempeln | |
| 110 | +| `language` | string | Erkannte oder angegebene Sprache | |
| 111 | +| `duration` | number | Audiodauer in Sekunden | |
| 112 | +| `confidence` | number | Gesamter Konfidenzwert | |
| 113 | + |
| 114 | +## Hinweise |
| 115 | + |
| 116 | +- Kategorie: `tools` |
| 117 | +- Typ: `stt` |
0 commit comments