You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Copy file name to clipboardExpand all lines: apps/docs/content/docs/de/tools/stt.mdx
+97-17Lines changed: 97 additions & 17 deletions
Display the source diff
Display the rich diff
Original file line number
Diff line number
Diff line change
@@ -11,26 +11,43 @@ import { BlockInfoCard } from "@/components/ui/block-info-card"
11
11
/>
12
12
13
13
{/* MANUAL-CONTENT-START:intro */}
14
-
Transkribiere Sprache zu Text mit modernsten KI-Modellen führender Anbieter. Die Sim Speech-to-Text (STT)-Tools ermöglichen es dir, Audio- und Videodateien in präzise Transkripte umzuwandeln, mit Unterstützung für mehrere Sprachen, Zeitstempel und optionaler Übersetzung.
14
+
Transkribieren Sie Sprache zu Text mit den neuesten KI-Modellen von erstklassigen Anbietern. Die Speech-to-Text (STT)-Tools von Sim ermöglichen es Ihnen, Audio und Video in genaue, mit Zeitstempeln versehene und optional übersetzte Transkripte umzuwandeln – mit Unterstützung für verschiedene Sprachenund erweitert durch fortschrittliche Funktionen wie Sprechertrennung und Sprecheridentifikation.
15
15
16
-
Unterstützte Anbieter:
16
+
**Unterstützte Anbieter & Modelle:**
17
17
18
-
-**[OpenAI Whisper](https://platform.openai.com/docs/guides/speech-to-text/overview)**: Fortschrittliches Open-Source-STT-Modell von OpenAI. Unterstützt Modelle wie `whisper-1` und verarbeitet eine Vielzahl von Sprachen und Audioformaten.
19
-
-**[Deepgram](https://deepgram.com/)**: Echtzeit- und Batch-STT-API mit Deep-Learning-Modellen wie `nova-3`, `nova-2` und `whisper-large`. Bietet Funktionen wie Sprechererkennung, Intentionserkennung und branchenspezifische Anpassungen.
20
-
-**[ElevenLabs](https://elevenlabs.io/)**: Bekannt für hochwertige Sprach-KI, bietet ElevenLabs STT-Modelle mit Fokus auf Genauigkeit und natürlichem Sprachverständnis für zahlreiche Sprachen und Dialekte.
OpenAIs Whisper ist ein Open-Source-Deep-Learning-Modell, das für seine Robustheit in verschiedenen Sprachen und Audiobedingungen bekannt ist. Es unterstützt fortschrittliche Modelle wie `whisper-1` und zeichnet sich bei Transkription, Übersetzung und Aufgaben aus, die eine hohe Modellgeneralisierung erfordern. Unterstützt von OpenAI – dem Unternehmen hinter ChatGPT und führender KI-Forschung – wird Whisper häufig in der Forschung und als Basis für vergleichende Bewertungen eingesetzt.
21
20
22
-
Wähle den Anbieter und das Modell, das am besten zu deiner Aufgabe passt – sei es schnelle, produktionsreife Transkription (Deepgram), hochpräzise Mehrsprachenfähigkeit (Whisper) oder fortschrittliches Verständnis und Sprachabdeckung (ElevenLabs).
Das in San Francisco ansässige Unternehmen Deepgram bietet skalierbare, produktionsreife Spracherkennungs-APIs für Entwickler und Unternehmen. Zu den Modellen von Deepgram gehören `nova-3`, `nova-2` und `whisper-large`. Sie bieten Echtzeit- und Batch-Transkription mit branchenführender Genauigkeit, Unterstützung mehrerer Sprachen, automatische Zeichensetzung, intelligente Sprechertrennung, Anrufanalysen und Funktionen für Anwendungsfälle von der Telefonie bis zur Medienproduktion.
Als führendes Unternehmen im Bereich Sprach-KI ist ElevenLabs besonders für hochwertige Sprachsynthese und -erkennung bekannt. Sein STT-Produkt bietet hochpräzises, natürliches Verständnis zahlreicher Sprachen, Dialekte und Akzente. Die neuesten STT-Modelle von ElevenLabs sind für Klarheit und Sprecherunterscheidung optimiert und eignen sich sowohl für kreative als auch für Barrierefreiheitsszenarien. ElevenLabs ist bekannt für bahnbrechende Fortschritte bei KI-gestützten Sprachtechnologien.
AssemblyAI bietet API-gesteuerte, hochpräzise Spracherkennung mit Funktionen wie automatischer Kapitelbildung, Themenerkennung, Zusammenfassung, Stimmungsanalyse und Inhaltsmoderation neben der Transkription. Sein proprietäres Modell, einschließlich des gefeierten `Conformer-2`, unterstützt einige der größten Medien-, Call-Center- und Compliance-Anwendungen der Branche. AssemblyAI wird weltweit von Fortune-500-Unternehmen und führenden KI-Startups vertraut.
Googles Speech-to-Text API für Unternehmen unterstützt über 125 Sprachen und Varianten und bietet hohe Genauigkeit sowie Funktionen wie Echtzeit-Streaming, Wort-für-Wort-Konfidenz, Sprechererkennung, automatische Zeichensetzung, benutzerdefiniertes Vokabular und domänenspezifische Anpassungen. Modelle wie `latest_long`, `video` und domänenoptimierte Modelle stehen zur Verfügung, basierend auf Googles jahrelanger Forschung und für globale Skalierbarkeit entwickelt.
32
+
33
+
-**[AWS Transcribe](https://aws.amazon.com/transcribe/)** (Amazon Web Services):
34
+
AWS Transcribe nutzt Amazons Cloud-Infrastruktur, um robuste Spracherkennung als API bereitzustellen. Es unterstützt mehrere Sprachen und Funktionen wie Sprecheridentifikation, benutzerdefiniertes Vokabular, Kanalidentifikation (für Call-Center-Audio) und medizinspezifische Transkription. Zu den beliebten Modellen gehören `standard` und domänenspezifische Varianten. AWS Transcribe ist ideal für Organisationen, die bereits Amazons Cloud nutzen.
35
+
36
+
**Wie man wählt:**
37
+
Wählen Sie den Anbieter und das Modell, das zu Ihrer Anwendung passt – ob Sie schnelle, unternehmenstaugliche Transkription mit zusätzlicher Analytik benötigen (Deepgram, AssemblyAI, Google, AWS), hohe Vielseitigkeit und Open-Source-Zugang (OpenAI Whisper) oder fortschrittliches Sprecher-/Kontextverständnis (ElevenLabs). Berücksichtigen Sie die Preisgestaltung, Sprachabdeckung, Genauigkeit und alle speziellen Funktionen (wie Zusammenfassung, Kapitelunterteilung oder Stimmungsanalyse), die Sie möglicherweise benötigen.
38
+
39
+
Weitere Details zu Funktionen, Preisen, Funktionshighlights und Feinabstimmungsoptionen finden Sie in der offiziellen Dokumentation jedes Anbieters über die oben genannten Links.
23
40
{/* MANUAL-CONTENT-END */}
24
41
25
42
## Nutzungsanleitung
26
43
27
-
Transkribiere Audio- und Videodateien zu Text mit führenden KI-Anbietern. Unterstützt mehrere Sprachen, Zeitstempel und Sprechererkennung.
44
+
Transkribieren Sie Audio- und Videodateien mit führenden KI-Anbietern in Text. Unterstützt mehrere Sprachen, Zeitstempel und Sprechererkennung.
28
45
29
46
## Tools
30
47
31
48
### `stt_whisper`
32
49
33
-
Transkribiere Audio zu Text mit OpenAI Whisper
50
+
Transkribieren Sie Audio in Text mit OpenAI Whisper
34
51
35
52
#### Eingabe
36
53
@@ -39,22 +56,23 @@ Transkribiere Audio zu Text mit OpenAI Whisper
39
56
|`provider`| string | Ja | STT-Anbieter \(whisper\)|
40
57
|`apiKey`| string | Ja | OpenAI API-Schlüssel |
41
58
|`model`| string | Nein | Zu verwendendes Whisper-Modell \(Standard: whisper-1\)|
42
-
|`audioFile`| file | Nein |Zu transkribierende Audio- oder Videodatei |
43
-
|`audioFileReference`| file | Nein |Verweis auf Audio-/Videodatei aus vorherigen Blöcken |
59
+
|`audioFile`| file | Nein | Audio- oder Videodatei zur Transkription|
60
+
|`audioFileReference`| file | Nein |Referenz zu Audio-/Videodatei aus vorherigen Blöcken |
44
61
|`audioUrl`| string | Nein | URL zu Audio- oder Videodatei |
45
62
|`language`| string | Nein | Sprachcode \(z.B. "en", "es", "fr"\) oder "auto" für automatische Erkennung |
46
63
|`timestamps`| string | Nein | Zeitstempel-Granularität: none, sentence oder word |
47
64
|`translateToEnglish`| boolean | Nein | Audio ins Englische übersetzen |
65
+
|`prompt`| string | Nein | Optionaler Text, um den Stil des Modells zu leiten oder ein vorheriges Audiosegment fortzusetzen. Hilft bei Eigennamen und Kontext. |
66
+
|`temperature`| number | Nein | Sampling-Temperatur zwischen 0 und 1. Höhere Werte machen die Ausgabe zufälliger, niedrigere Werte fokussierter und deterministischer. |
48
67
49
68
#### Ausgabe
50
69
51
70
| Parameter | Typ | Beschreibung |
52
71
| --------- | ---- | ----------- |
53
-
|`transcript`| string |Vollständig transkribierter Text |
72
+
|`transcript`| string |Vollständiger transkribierter Text |
54
73
|`segments`| array | Segmente mit Zeitstempeln |
55
74
|`language`| string | Erkannte oder angegebene Sprache |
56
75
|`duration`| number | Audiodauer in Sekunden |
57
-
|`confidence`| number | Gesamter Konfidenzwert |
58
76
59
77
### `stt_deepgram`
60
78
@@ -78,25 +96,87 @@ Audio mit Deepgram in Text transkribieren
78
96
79
97
| Parameter | Typ | Beschreibung |
80
98
| --------- | ---- | ----------- |
81
-
|`transcript`| string |Vollständig transkribierter Text |
99
+
|`transcript`| string |Vollständiger transkribierter Text |
82
100
|`segments`| array | Segmente mit Zeitstempeln und Sprecherkennungen |
83
101
|`language`| string | Erkannte oder angegebene Sprache |
84
102
|`duration`| number | Audiodauer in Sekunden |
85
103
|`confidence`| number | Gesamter Konfidenzwert |
86
104
87
105
### `stt_elevenlabs`
88
106
89
-
Audio in Text transkribieren mit ElevenLabs
107
+
Audio mit ElevenLabs in Text transkribieren
90
108
91
109
#### Eingabe
92
110
93
111
| Parameter | Typ | Erforderlich | Beschreibung |
94
112
| --------- | ---- | -------- | ----------- |
95
113
|`provider`| string | Ja | STT-Anbieter \(elevenlabs\)|
96
114
|`apiKey`| string | Ja | ElevenLabs API-Schlüssel |
97
-
|`model`| string | Nein | Zu verwendenes ElevenLabs-Modell \(scribe_v1, scribe_v1_experimental\)|
98
-
|`audioFile`| file | Nein | Audio- oder Videodatei zur Transkription |
99
-
|`audioFileReference`| file | Nein | Referenz zu Audio-/Videodatei aus vorherigen Blöcken |
115
+
|`model`| string | Nein | Zu verwendendes ElevenLabs-Modell \(scribe_v1, scribe_v1_experimental\)|
116
+
|`audioFile`| file | Nein | Zu transkribierendes Audio- oder Videodatei |
117
+
|`audioFileReference`| file | Nein | Referenz auf Audio-/Videodatei aus vorherigen Blöcken |
118
+
|`audioUrl`| string | Nein | URL zu Audio- oder Videodatei |
119
+
|`language`| string | Nein | Sprachcode \(z.B. "en", "es", "fr"\) oder "auto" für automatische Erkennung |
120
+
|`timestamps`| string | Nein | Zeitstempel-Granularität: none, sentence oder word |
121
+
122
+
#### Ausgabe
123
+
124
+
| Parameter | Typ | Beschreibung |
125
+
| --------- | ---- | ----------- |
126
+
|`transcript`| string | Vollständig transkribierter Text |
127
+
|`segments`| array | Segmente mit Zeitstempeln |
128
+
|`language`| string | Erkannte oder angegebene Sprache |
129
+
|`duration`| number | Audiodauer in Sekunden |
130
+
|`confidence`| number | Gesamter Konfidenzwert |
131
+
132
+
### `stt_assemblyai`
133
+
134
+
Audio mit AssemblyAI und erweiterten NLP-Funktionen in Text transkribieren
135
+
136
+
#### Eingabe
137
+
138
+
| Parameter | Typ | Erforderlich | Beschreibung |
139
+
| --------- | ---- | -------- | ----------- |
140
+
|`provider`| string | Ja | STT-Anbieter \(assemblyai\)|
141
+
|`apiKey`| string | Ja | AssemblyAI API-Schlüssel |
142
+
|`model`| string | Nein | Zu verwendendes AssemblyAI-Modell \(Standard: best\)|
143
+
|`audioFile`| file | Nein | Zu transkribierendes Audio- oder Videodatei |
144
+
|`audioFileReference`| file | Nein | Referenz auf Audio-/Videodatei aus vorherigen Blöcken |
145
+
|`audioUrl`| string | Nein | URL zu Audio- oder Videodatei |
146
+
|`language`| string | Nein | Sprachcode \(z.B. "en", "es", "fr"\) oder "auto" für automatische Erkennung |
147
+
|`timestamps`| string | Nein | Zeitstempel-Granularität: none, sentence oder word |
0 commit comments