feat: [google-cloud-texttospeech] StreamingSynthesize now supports opus (#13370)

gcf-owl-bot[bot] · vchudnov-g · web-flow · commit 4999fd82ae07 · 2024-12-18T18:26:47.000Z
- [ ] Regenerate this pull request now. PiperOrigin-RevId: 707168599 Source-Link: googleapis/googleapis@d985436 Source-Link: googleapis/googleapis-gen@3fcc3af Copy-Tag: eyJwIjoicGFja2FnZXMvZ29vZ2xlLWNsb3VkLXRleHR0b3NwZWVjaC8uT3dsQm90LnlhbWwiLCJoIjoiM2ZjYzNhZmJmOGM5MjA4NGNjNGEzMDIzMmE3NmNhMjQ3NDg5YzNkMCJ9 --------- Co-authored-by: Owl Bot <gcf-owl-bot[bot]@users.noreply.github.com> Co-authored-by: Victor Chudnovsky <vchudnov@google.com>
diff --git a/packages/google-cloud-texttospeech/google/cloud/texttospeech/gapic_version.py b/packages/google-cloud-texttospeech/google/cloud/texttospeech/gapic_version.py
@@ -13,4 +13,4 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 #
-__version__ = "2.22.0"  # {x-release-please-version}
+__version__ = "0.0.0"  # {x-release-please-version}
diff --git a/packages/google-cloud-texttospeech/google/cloud/texttospeech_v1/gapic_version.py b/packages/google-cloud-texttospeech/google/cloud/texttospeech_v1/gapic_version.py
@@ -13,4 +13,4 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 #
-__version__ = "2.22.0"  # {x-release-please-version}
+__version__ = "0.0.0"  # {x-release-please-version}
diff --git a/packages/google-cloud-texttospeech/google/cloud/texttospeech_v1beta1/__init__.py b/packages/google-cloud-texttospeech/google/cloud/texttospeech_v1beta1/__init__.py
@@ -34,6 +34,7 @@
     ListVoicesResponse,
     MultiSpeakerMarkup,
     SsmlVoiceGender,
+    StreamingAudioConfig,
     StreamingSynthesisInput,
     StreamingSynthesizeConfig,
     StreamingSynthesizeRequest,
@@ -65,6 +66,7 @@
     "ListVoicesResponse",
     "MultiSpeakerMarkup",
     "SsmlVoiceGender",
+    "StreamingAudioConfig",
     "StreamingSynthesisInput",
     "StreamingSynthesizeConfig",
     "StreamingSynthesizeRequest",
diff --git a/packages/google-cloud-texttospeech/google/cloud/texttospeech_v1beta1/gapic_version.py b/packages/google-cloud-texttospeech/google/cloud/texttospeech_v1beta1/gapic_version.py
@@ -13,4 +13,4 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 #
-__version__ = "2.22.0"  # {x-release-please-version}
+__version__ = "0.0.0"  # {x-release-please-version}
diff --git a/packages/google-cloud-texttospeech/google/cloud/texttospeech_v1beta1/services/text_to_speech/async_client.py b/packages/google-cloud-texttospeech/google/cloud/texttospeech_v1beta1/services/text_to_speech/async_client.py
@@ -434,7 +434,7 @@ async def sample_synthesize_speech():
                 voice.language_code = "language_code_value"
 
                 audio_config = texttospeech_v1beta1.AudioConfig()
-                audio_config.audio_encoding = "ALAW"
+                audio_config.audio_encoding = "PCM"
 
                 request = texttospeech_v1beta1.SynthesizeSpeechRequest(
                     input=input,
diff --git a/packages/google-cloud-texttospeech/google/cloud/texttospeech_v1beta1/services/text_to_speech/client.py b/packages/google-cloud-texttospeech/google/cloud/texttospeech_v1beta1/services/text_to_speech/client.py
@@ -823,7 +823,7 @@ def sample_synthesize_speech():
                 voice.language_code = "language_code_value"
 
                 audio_config = texttospeech_v1beta1.AudioConfig()
-                audio_config.audio_encoding = "ALAW"
+                audio_config.audio_encoding = "PCM"
 
                 request = texttospeech_v1beta1.SynthesizeSpeechRequest(
                     input=input,
diff --git a/packages/google-cloud-texttospeech/google/cloud/texttospeech_v1beta1/services/text_to_speech_long_audio_synthesize/async_client.py b/packages/google-cloud-texttospeech/google/cloud/texttospeech_v1beta1/services/text_to_speech_long_audio_synthesize/async_client.py
@@ -339,7 +339,7 @@ async def sample_synthesize_long_audio():
                 input.text = "text_value"
 
                 audio_config = texttospeech_v1beta1.AudioConfig()
-                audio_config.audio_encoding = "ALAW"
+                audio_config.audio_encoding = "PCM"
 
                 voice = texttospeech_v1beta1.VoiceSelectionParams()
                 voice.language_code = "language_code_value"
diff --git a/packages/google-cloud-texttospeech/google/cloud/texttospeech_v1beta1/services/text_to_speech_long_audio_synthesize/client.py b/packages/google-cloud-texttospeech/google/cloud/texttospeech_v1beta1/services/text_to_speech_long_audio_synthesize/client.py
@@ -738,7 +738,7 @@ def sample_synthesize_long_audio():
                 input.text = "text_value"
 
                 audio_config = texttospeech_v1beta1.AudioConfig()
-                audio_config.audio_encoding = "ALAW"
+                audio_config.audio_encoding = "PCM"
 
                 voice = texttospeech_v1beta1.VoiceSelectionParams()
                 voice.language_code = "language_code_value"
diff --git a/packages/google-cloud-texttospeech/google/cloud/texttospeech_v1beta1/types/__init__.py b/packages/google-cloud-texttospeech/google/cloud/texttospeech_v1beta1/types/__init__.py
@@ -24,6 +24,7 @@
     ListVoicesResponse,
     MultiSpeakerMarkup,
     SsmlVoiceGender,
+    StreamingAudioConfig,
     StreamingSynthesisInput,
     StreamingSynthesizeConfig,
     StreamingSynthesizeRequest,
@@ -51,6 +52,7 @@
     "ListVoicesRequest",
     "ListVoicesResponse",
     "MultiSpeakerMarkup",
+    "StreamingAudioConfig",
     "StreamingSynthesisInput",
     "StreamingSynthesizeConfig",
     "StreamingSynthesizeRequest",
diff --git a/packages/google-cloud-texttospeech/google/cloud/texttospeech_v1beta1/types/cloud_tts.py b/packages/google-cloud-texttospeech/google/cloud/texttospeech_v1beta1/types/cloud_tts.py
@@ -39,6 +39,7 @@
         "VoiceCloneParams",
         "SynthesizeSpeechResponse",
         "Timepoint",
+        "StreamingAudioConfig",
         "StreamingSynthesizeConfig",
         "StreamingSynthesisInput",
         "StreamingSynthesizeRequest",
@@ -106,6 +107,11 @@ class AudioEncoding(proto.Enum):
             8-bit samples that compand 14-bit audio
             samples using G.711 PCMU/A-law. Audio content
             returned as ALAW also contains a WAV header.
+        PCM (7):
+            Uncompressed 16-bit signed little-endian
+            samples (Linear PCM). Note that as opposed to
+            LINEAR16, audio will not be wrapped in a WAV (or
+            any other) header.
     """
     AUDIO_ENCODING_UNSPECIFIED = 0
     LINEAR16 = 1
@@ -114,6 +120,7 @@ class AudioEncoding(proto.Enum):
     OGG_OPUS = 3
     MULAW = 5
     ALAW = 6
+    PCM = 7
 
 
 class ListVoicesRequest(proto.Message):
@@ -723,6 +730,30 @@ class Timepoint(proto.Message):
     )
 
 
+class StreamingAudioConfig(proto.Message):
+    r"""Description of the desired output audio data.
+
+    Attributes:
+        audio_encoding (google.cloud.texttospeech_v1beta1.types.AudioEncoding):
+            Required. The format of the audio byte stream. For now,
+            streaming only supports PCM and OGG_OPUS. All other
+            encodings will return an error.
+        sample_rate_hertz (int):
+            Optional. The synthesis sample rate (in
+            hertz) for this audio.
+    """
+
+    audio_encoding: "AudioEncoding" = proto.Field(
+        proto.ENUM,
+        number=1,
+        enum="AudioEncoding",
+    )
+    sample_rate_hertz: int = proto.Field(
+        proto.INT32,
+        number=2,
+    )
+
+
 class StreamingSynthesizeConfig(proto.Message):
     r"""Provides configuration information for the
     StreamingSynthesize request.
@@ -731,13 +762,21 @@ class StreamingSynthesizeConfig(proto.Message):
         voice (google.cloud.texttospeech_v1beta1.types.VoiceSelectionParams):
             Required. The desired voice of the
             synthesized audio.
+        streaming_audio_config (google.cloud.texttospeech_v1beta1.types.StreamingAudioConfig):
+            Optional. The configuration of the
+            synthesized audio.
     """
 
     voice: "VoiceSelectionParams" = proto.Field(
         proto.MESSAGE,
         number=1,
         message="VoiceSelectionParams",
     )
+    streaming_audio_config: "StreamingAudioConfig" = proto.Field(
+        proto.MESSAGE,
+        number=4,
+        message="StreamingAudioConfig",
+    )
 
 
 class StreamingSynthesisInput(proto.Message):
diff --git a/packages/google-cloud-texttospeech/samples/generated_samples/snippet_metadata_google.cloud.texttospeech.v1.json b/packages/google-cloud-texttospeech/samples/generated_samples/snippet_metadata_google.cloud.texttospeech.v1.json
@@ -8,7 +8,7 @@
     ],
     "language": "PYTHON",
     "name": "google-cloud-texttospeech",
-    "version": "2.22.0"
+    "version": "0.1.0"
   },
   "snippets": [
     {
diff --git a/packages/google-cloud-texttospeech/samples/generated_samples/snippet_metadata_google.cloud.texttospeech.v1beta1.json b/packages/google-cloud-texttospeech/samples/generated_samples/snippet_metadata_google.cloud.texttospeech.v1beta1.json
@@ -8,7 +8,7 @@
     ],
     "language": "PYTHON",
     "name": "google-cloud-texttospeech",
-    "version": "2.22.0"
+    "version": "0.1.0"
   },
   "snippets": [
     {
diff --git a/packages/google-cloud-texttospeech/samples/generated_samples/texttospeech_v1beta1_generated_text_to_speech_long_audio_synthesize_synthesize_long_audio_async.py b/packages/google-cloud-texttospeech/samples/generated_samples/texttospeech_v1beta1_generated_text_to_speech_long_audio_synthesize_synthesize_long_audio_async.py
@@ -43,7 +43,7 @@ async def sample_synthesize_long_audio():
     input.text = "text_value"
 
     audio_config = texttospeech_v1beta1.AudioConfig()
-    audio_config.audio_encoding = "ALAW"
+    audio_config.audio_encoding = "PCM"
 
     voice = texttospeech_v1beta1.VoiceSelectionParams()
     voice.language_code = "language_code_value"
diff --git a/packages/google-cloud-texttospeech/samples/generated_samples/texttospeech_v1beta1_generated_text_to_speech_long_audio_synthesize_synthesize_long_audio_sync.py b/packages/google-cloud-texttospeech/samples/generated_samples/texttospeech_v1beta1_generated_text_to_speech_long_audio_synthesize_synthesize_long_audio_sync.py
@@ -43,7 +43,7 @@ def sample_synthesize_long_audio():
     input.text = "text_value"
 
     audio_config = texttospeech_v1beta1.AudioConfig()
-    audio_config.audio_encoding = "ALAW"
+    audio_config.audio_encoding = "PCM"
 
     voice = texttospeech_v1beta1.VoiceSelectionParams()
     voice.language_code = "language_code_value"
diff --git a/packages/google-cloud-texttospeech/samples/generated_samples/texttospeech_v1beta1_generated_text_to_speech_synthesize_speech_async.py b/packages/google-cloud-texttospeech/samples/generated_samples/texttospeech_v1beta1_generated_text_to_speech_synthesize_speech_async.py
@@ -46,7 +46,7 @@ async def sample_synthesize_speech():
     voice.language_code = "language_code_value"
 
     audio_config = texttospeech_v1beta1.AudioConfig()
-    audio_config.audio_encoding = "ALAW"
+    audio_config.audio_encoding = "PCM"
 
     request = texttospeech_v1beta1.SynthesizeSpeechRequest(
         input=input,
diff --git a/packages/google-cloud-texttospeech/samples/generated_samples/texttospeech_v1beta1_generated_text_to_speech_synthesize_speech_sync.py b/packages/google-cloud-texttospeech/samples/generated_samples/texttospeech_v1beta1_generated_text_to_speech_synthesize_speech_sync.py
@@ -46,7 +46,7 @@ def sample_synthesize_speech():
     voice.language_code = "language_code_value"
 
     audio_config = texttospeech_v1beta1.AudioConfig()
-    audio_config.audio_encoding = "ALAW"
+    audio_config.audio_encoding = "PCM"
 
     request = texttospeech_v1beta1.SynthesizeSpeechRequest(
         input=input,

Original file line number	Diff line number	Diff line change
`@@ -13,4 +13,4 @@`
`13`	`13`	`# See the License for the specific language governing permissions and`
`14`	`14`	`# limitations under the License.`
`15`	`15`	`#`
`16`		`-__version__ = "2.22.0" # {x-release-please-version}`
	`16`	`+__version__ = "0.0.0" # {x-release-please-version}`