Skip to content

Commit 9fad586

Browse files
authored
feat(i18n): update translations (#2097)
Co-authored-by: waleedlatif1 <[email protected]>
1 parent 0a4244b commit 9fad586

File tree

16 files changed

+2873
-104
lines changed

16 files changed

+2873
-104
lines changed

apps/docs/content/docs/de/tools/stt.mdx

Lines changed: 97 additions & 17 deletions
Original file line numberDiff line numberDiff line change
@@ -11,26 +11,43 @@ import { BlockInfoCard } from "@/components/ui/block-info-card"
1111
/>
1212

1313
{/* MANUAL-CONTENT-START:intro */}
14-
Transkribiere Sprache zu Text mit modernsten KI-Modellen führender Anbieter. Die Sim Speech-to-Text (STT)-Tools ermöglichen es dir, Audio- und Videodateien in präzise Transkripte umzuwandeln, mit Unterstützung für mehrere Sprachen, Zeitstempel und optionaler Übersetzung.
14+
Transkribieren Sie Sprache zu Text mit den neuesten KI-Modellen von erstklassigen Anbietern. Die Speech-to-Text (STT)-Tools von Sim ermöglichen es Ihnen, Audio und Video in genaue, mit Zeitstempeln versehene und optional übersetzte Transkripte umzuwandelnmit Unterstützung für verschiedene Sprachen und erweitert durch fortschrittliche Funktionen wie Sprechertrennung und Sprecheridentifikation.
1515

16-
Unterstützte Anbieter:
16+
**Unterstützte Anbieter & Modelle:**
1717

18-
- **[OpenAI Whisper](https://platform.openai.com/docs/guides/speech-to-text/overview)**: Fortschrittliches Open-Source-STT-Modell von OpenAI. Unterstützt Modelle wie `whisper-1` und verarbeitet eine Vielzahl von Sprachen und Audioformaten.
19-
- **[Deepgram](https://deepgram.com/)**: Echtzeit- und Batch-STT-API mit Deep-Learning-Modellen wie `nova-3`, `nova-2` und `whisper-large`. Bietet Funktionen wie Sprechererkennung, Intentionserkennung und branchenspezifische Anpassungen.
20-
- **[ElevenLabs](https://elevenlabs.io/)**: Bekannt für hochwertige Sprach-KI, bietet ElevenLabs STT-Modelle mit Fokus auf Genauigkeit und natürlichem Sprachverständnis für zahlreiche Sprachen und Dialekte.
18+
- **[OpenAI Whisper](https://platform.openai.com/docs/guides/speech-to-text/overview)** (OpenAI):
19+
OpenAIs Whisper ist ein Open-Source-Deep-Learning-Modell, das für seine Robustheit in verschiedenen Sprachen und Audiobedingungen bekannt ist. Es unterstützt fortschrittliche Modelle wie `whisper-1` und zeichnet sich bei Transkription, Übersetzung und Aufgaben aus, die eine hohe Modellgeneralisierung erfordern. Unterstützt von OpenAI – dem Unternehmen hinter ChatGPT und führender KI-Forschung – wird Whisper häufig in der Forschung und als Basis für vergleichende Bewertungen eingesetzt.
2120

22-
Wähle den Anbieter und das Modell, das am besten zu deiner Aufgabe passt – sei es schnelle, produktionsreife Transkription (Deepgram), hochpräzise Mehrsprachenfähigkeit (Whisper) oder fortschrittliches Verständnis und Sprachabdeckung (ElevenLabs).
21+
- **[Deepgram](https://deepgram.com/)** (Deepgram Inc.):
22+
Das in San Francisco ansässige Unternehmen Deepgram bietet skalierbare, produktionsreife Spracherkennungs-APIs für Entwickler und Unternehmen. Zu den Modellen von Deepgram gehören `nova-3`, `nova-2` und `whisper-large`. Sie bieten Echtzeit- und Batch-Transkription mit branchenführender Genauigkeit, Unterstützung mehrerer Sprachen, automatische Zeichensetzung, intelligente Sprechertrennung, Anrufanalysen und Funktionen für Anwendungsfälle von der Telefonie bis zur Medienproduktion.
23+
24+
- **[ElevenLabs](https://elevenlabs.io/)** (ElevenLabs):
25+
Als führendes Unternehmen im Bereich Sprach-KI ist ElevenLabs besonders für hochwertige Sprachsynthese und -erkennung bekannt. Sein STT-Produkt bietet hochpräzises, natürliches Verständnis zahlreicher Sprachen, Dialekte und Akzente. Die neuesten STT-Modelle von ElevenLabs sind für Klarheit und Sprecherunterscheidung optimiert und eignen sich sowohl für kreative als auch für Barrierefreiheitsszenarien. ElevenLabs ist bekannt für bahnbrechende Fortschritte bei KI-gestützten Sprachtechnologien.
26+
27+
- **[AssemblyAI](https://www.assemblyai.com/)** (AssemblyAI Inc.):
28+
AssemblyAI bietet API-gesteuerte, hochpräzise Spracherkennung mit Funktionen wie automatischer Kapitelbildung, Themenerkennung, Zusammenfassung, Stimmungsanalyse und Inhaltsmoderation neben der Transkription. Sein proprietäres Modell, einschließlich des gefeierten `Conformer-2`, unterstützt einige der größten Medien-, Call-Center- und Compliance-Anwendungen der Branche. AssemblyAI wird weltweit von Fortune-500-Unternehmen und führenden KI-Startups vertraut.
29+
30+
- **[Google Cloud Speech-to-Text](https://cloud.google.com/speech-to-text)** (Google Cloud):
31+
Googles Speech-to-Text API für Unternehmen unterstützt über 125 Sprachen und Varianten und bietet hohe Genauigkeit sowie Funktionen wie Echtzeit-Streaming, Wort-für-Wort-Konfidenz, Sprechererkennung, automatische Zeichensetzung, benutzerdefiniertes Vokabular und domänenspezifische Anpassungen. Modelle wie `latest_long`, `video` und domänenoptimierte Modelle stehen zur Verfügung, basierend auf Googles jahrelanger Forschung und für globale Skalierbarkeit entwickelt.
32+
33+
- **[AWS Transcribe](https://aws.amazon.com/transcribe/)** (Amazon Web Services):
34+
AWS Transcribe nutzt Amazons Cloud-Infrastruktur, um robuste Spracherkennung als API bereitzustellen. Es unterstützt mehrere Sprachen und Funktionen wie Sprecheridentifikation, benutzerdefiniertes Vokabular, Kanalidentifikation (für Call-Center-Audio) und medizinspezifische Transkription. Zu den beliebten Modellen gehören `standard` und domänenspezifische Varianten. AWS Transcribe ist ideal für Organisationen, die bereits Amazons Cloud nutzen.
35+
36+
**Wie man wählt:**
37+
Wählen Sie den Anbieter und das Modell, das zu Ihrer Anwendung passt – ob Sie schnelle, unternehmenstaugliche Transkription mit zusätzlicher Analytik benötigen (Deepgram, AssemblyAI, Google, AWS), hohe Vielseitigkeit und Open-Source-Zugang (OpenAI Whisper) oder fortschrittliches Sprecher-/Kontextverständnis (ElevenLabs). Berücksichtigen Sie die Preisgestaltung, Sprachabdeckung, Genauigkeit und alle speziellen Funktionen (wie Zusammenfassung, Kapitelunterteilung oder Stimmungsanalyse), die Sie möglicherweise benötigen.
38+
39+
Weitere Details zu Funktionen, Preisen, Funktionshighlights und Feinabstimmungsoptionen finden Sie in der offiziellen Dokumentation jedes Anbieters über die oben genannten Links.
2340
{/* MANUAL-CONTENT-END */}
2441

2542
## Nutzungsanleitung
2643

27-
Transkribiere Audio- und Videodateien zu Text mit führenden KI-Anbietern. Unterstützt mehrere Sprachen, Zeitstempel und Sprechererkennung.
44+
Transkribieren Sie Audio- und Videodateien mit führenden KI-Anbietern in Text. Unterstützt mehrere Sprachen, Zeitstempel und Sprechererkennung.
2845

2946
## Tools
3047

3148
### `stt_whisper`
3249

33-
Transkribiere Audio zu Text mit OpenAI Whisper
50+
Transkribieren Sie Audio in Text mit OpenAI Whisper
3451

3552
#### Eingabe
3653

@@ -39,22 +56,23 @@ Transkribiere Audio zu Text mit OpenAI Whisper
3956
| `provider` | string | Ja | STT-Anbieter \(whisper\) |
4057
| `apiKey` | string | Ja | OpenAI API-Schlüssel |
4158
| `model` | string | Nein | Zu verwendendes Whisper-Modell \(Standard: whisper-1\) |
42-
| `audioFile` | file | Nein | Zu transkribierende Audio- oder Videodatei |
43-
| `audioFileReference` | file | Nein | Verweis auf Audio-/Videodatei aus vorherigen Blöcken |
59+
| `audioFile` | file | Nein | Audio- oder Videodatei zur Transkription |
60+
| `audioFileReference` | file | Nein | Referenz zu Audio-/Videodatei aus vorherigen Blöcken |
4461
| `audioUrl` | string | Nein | URL zu Audio- oder Videodatei |
4562
| `language` | string | Nein | Sprachcode \(z.B. "en", "es", "fr"\) oder "auto" für automatische Erkennung |
4663
| `timestamps` | string | Nein | Zeitstempel-Granularität: none, sentence oder word |
4764
| `translateToEnglish` | boolean | Nein | Audio ins Englische übersetzen |
65+
| `prompt` | string | Nein | Optionaler Text, um den Stil des Modells zu leiten oder ein vorheriges Audiosegment fortzusetzen. Hilft bei Eigennamen und Kontext. |
66+
| `temperature` | number | Nein | Sampling-Temperatur zwischen 0 und 1. Höhere Werte machen die Ausgabe zufälliger, niedrigere Werte fokussierter und deterministischer. |
4867

4968
#### Ausgabe
5069

5170
| Parameter | Typ | Beschreibung |
5271
| --------- | ---- | ----------- |
53-
| `transcript` | string | Vollständig transkribierter Text |
72+
| `transcript` | string | Vollständiger transkribierter Text |
5473
| `segments` | array | Segmente mit Zeitstempeln |
5574
| `language` | string | Erkannte oder angegebene Sprache |
5675
| `duration` | number | Audiodauer in Sekunden |
57-
| `confidence` | number | Gesamter Konfidenzwert |
5876

5977
### `stt_deepgram`
6078

@@ -78,25 +96,87 @@ Audio mit Deepgram in Text transkribieren
7896

7997
| Parameter | Typ | Beschreibung |
8098
| --------- | ---- | ----------- |
81-
| `transcript` | string | Vollständig transkribierter Text |
99+
| `transcript` | string | Vollständiger transkribierter Text |
82100
| `segments` | array | Segmente mit Zeitstempeln und Sprecherkennungen |
83101
| `language` | string | Erkannte oder angegebene Sprache |
84102
| `duration` | number | Audiodauer in Sekunden |
85103
| `confidence` | number | Gesamter Konfidenzwert |
86104

87105
### `stt_elevenlabs`
88106

89-
Audio in Text transkribieren mit ElevenLabs
107+
Audio mit ElevenLabs in Text transkribieren
90108

91109
#### Eingabe
92110

93111
| Parameter | Typ | Erforderlich | Beschreibung |
94112
| --------- | ---- | -------- | ----------- |
95113
| `provider` | string | Ja | STT-Anbieter \(elevenlabs\) |
96114
| `apiKey` | string | Ja | ElevenLabs API-Schlüssel |
97-
| `model` | string | Nein | Zu verwendenes ElevenLabs-Modell \(scribe_v1, scribe_v1_experimental\) |
98-
| `audioFile` | file | Nein | Audio- oder Videodatei zur Transkription |
99-
| `audioFileReference` | file | Nein | Referenz zu Audio-/Videodatei aus vorherigen Blöcken |
115+
| `model` | string | Nein | Zu verwendendes ElevenLabs-Modell \(scribe_v1, scribe_v1_experimental\) |
116+
| `audioFile` | file | Nein | Zu transkribierendes Audio- oder Videodatei |
117+
| `audioFileReference` | file | Nein | Referenz auf Audio-/Videodatei aus vorherigen Blöcken |
118+
| `audioUrl` | string | Nein | URL zu Audio- oder Videodatei |
119+
| `language` | string | Nein | Sprachcode \(z.B. "en", "es", "fr"\) oder "auto" für automatische Erkennung |
120+
| `timestamps` | string | Nein | Zeitstempel-Granularität: none, sentence oder word |
121+
122+
#### Ausgabe
123+
124+
| Parameter | Typ | Beschreibung |
125+
| --------- | ---- | ----------- |
126+
| `transcript` | string | Vollständig transkribierter Text |
127+
| `segments` | array | Segmente mit Zeitstempeln |
128+
| `language` | string | Erkannte oder angegebene Sprache |
129+
| `duration` | number | Audiodauer in Sekunden |
130+
| `confidence` | number | Gesamter Konfidenzwert |
131+
132+
### `stt_assemblyai`
133+
134+
Audio mit AssemblyAI und erweiterten NLP-Funktionen in Text transkribieren
135+
136+
#### Eingabe
137+
138+
| Parameter | Typ | Erforderlich | Beschreibung |
139+
| --------- | ---- | -------- | ----------- |
140+
| `provider` | string | Ja | STT-Anbieter \(assemblyai\) |
141+
| `apiKey` | string | Ja | AssemblyAI API-Schlüssel |
142+
| `model` | string | Nein | Zu verwendendes AssemblyAI-Modell \(Standard: best\) |
143+
| `audioFile` | file | Nein | Zu transkribierendes Audio- oder Videodatei |
144+
| `audioFileReference` | file | Nein | Referenz auf Audio-/Videodatei aus vorherigen Blöcken |
145+
| `audioUrl` | string | Nein | URL zu Audio- oder Videodatei |
146+
| `language` | string | Nein | Sprachcode \(z.B. "en", "es", "fr"\) oder "auto" für automatische Erkennung |
147+
| `timestamps` | string | Nein | Zeitstempel-Granularität: none, sentence oder word |
148+
| `diarization` | boolean | Nein | Sprechererkennung aktivieren |
149+
| `sentiment` | boolean | Nein | Stimmungsanalyse aktivieren |
150+
| `entityDetection` | boolean | Nein | Entitätserkennung aktivieren |
151+
| `piiRedaction` | boolean | Nein | PII-Schwärzung aktivieren |
152+
| `summarization` | boolean | Nein | Automatische Zusammenfassung aktivieren |
153+
154+
#### Ausgabe
155+
156+
| Parameter | Typ | Beschreibung |
157+
| --------- | ---- | ----------- |
158+
| `transcript` | string | Vollständig transkribierter Text |
159+
| `segments` | array | Segmente mit Zeitstempeln und Sprecherkennungen |
160+
| `language` | string | Erkannte oder angegebene Sprache |
161+
| `duration` | number | Audiodauer in Sekunden |
162+
| `confidence` | number | Gesamter Konfidenzwert |
163+
| `sentiment` | array | Ergebnisse der Stimmungsanalyse |
164+
| `entities` | array | Erkannte Entitäten |
165+
| `summary` | string | Automatisch generierte Zusammenfassung |
166+
167+
### `stt_gemini`
168+
169+
Audio mit Google Gemini und multimodalen Fähigkeiten in Text transkribieren
170+
171+
#### Eingabe
172+
173+
| Parameter | Typ | Erforderlich | Beschreibung |
174+
| --------- | ---- | -------- | ----------- |
175+
| `provider` | string | Ja | STT-Anbieter \(gemini\) |
176+
| `apiKey` | string | Ja | Google API-Schlüssel |
177+
| `model` | string | Nein | Zu verwendendes Gemini-Modell \(Standard: gemini-2.5-flash\) |
178+
| `audioFile` | file | Nein | Zu transkribierendes Audio- oder Videodatei |
179+
| `audioFileReference` | file | Nein | Referenz auf Audio-/Videodatei aus vorherigen Blöcken |
100180
| `audioUrl` | string | Nein | URL zu Audio- oder Videodatei |
101181
| `language` | string | Nein | Sprachcode \(z.B. "en", "es", "fr"\) oder "auto" für automatische Erkennung |
102182
| `timestamps` | string | Nein | Zeitstempel-Granularität: none, sentence oder word |

0 commit comments

Comments
 (0)