volcengine
diff --git a/‎volcenginesdkarkruntime/_client.py‎
Lines changed: 4 additions & 0 deletions b/‎volcenginesdkarkruntime/_client.py‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎volcenginesdkarkruntime/resources/__init__.py‎
Lines changed: 4 additions & 1 deletion b/‎volcenginesdkarkruntime/resources/__init__.py‎
Lines changed: 4 additions & 1 deletion
diff --git a/‎volcenginesdkarkruntime/resources/context/__init__.py‎
Lines changed: 3 additions & 0 deletions b/‎volcenginesdkarkruntime/resources/context/__init__.py‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎volcenginesdkarkruntime/resources/context/completions.py‎
Lines changed: 221 additions & 0 deletions b/‎volcenginesdkarkruntime/resources/context/completions.py‎
Lines changed: 221 additions & 0 deletions
diff --git a/‎volcenginesdkarkruntime/resources/context/context.py‎
Lines changed: 97 additions & 0 deletions b/‎volcenginesdkarkruntime/resources/context/context.py‎
Lines changed: 97 additions & 0 deletions
diff --git a/‎volcenginesdkarkruntime/types/completion_usage.py‎
Lines changed: 10 additions & 1 deletion b/‎volcenginesdkarkruntime/types/completion_usage.py‎
Lines changed: 10 additions & 1 deletion
@@ -37,6 +37,7 @@ class Ark(SyncAPIClient):
     bot_chat: resources.BotChat
     embeddings: resources.Embeddings
     tokenization: resources.Tokenization
+    context: resources.Context
 
     def __init__(
         self,
@@ -93,6 +94,7 @@ def __init__(
         self.bot_chat = resources.BotChat(self)
         self.embeddings = resources.Embeddings(self)
         self.tokenization = resources.Tokenization(self)
+        self.context = resources.Context(self)
         # self.classification = resources.Classification(self)
 
     def _get_endpoint_sts_token(self, endpoint_id: str):
@@ -129,6 +131,7 @@ class AsyncArk(AsyncAPIClient):
     bot_chat: resources.AsyncBotChat
     embeddings: resources.AsyncEmbeddings
     tokenization: resources.AsyncTokenization
+    context: resources.AsyncContext
 
     def __init__(
         self,
@@ -184,6 +187,7 @@ def __init__(
         self.bot_chat = resources.AsyncBotChat(self)
         self.embeddings = resources.AsyncEmbeddings(self)
         self.tokenization = resources.AsyncTokenization(self)
+        self.context = resources.AsyncContext(self)
         # self.classification = resources.AsyncClassification(self)
 
     def _get_endpoint_sts_token(self, endpoint_id: str):
 
@@ -3,6 +3,7 @@
 from .tokenization import Tokenization, AsyncTokenization
 from .classification import Classification, AsyncClassification
 from .bot import BotChat, AsyncBotChat
+from .context import Context, AsyncContext
 
 __all__ = [
     "Chat",
@@ -12,5 +13,7 @@
     "Embeddings",
     "AsyncEmbeddings",
     "Tokenization",
-    "AsyncTokenization"
+    "AsyncTokenization",
+    "Context",
+    "AsyncContext"
 ]
@@ -0,0 +1,3 @@
+from .context import Context, AsyncContext
+
+__all__ = ["Context", "AsyncContext"]
@@ -0,0 +1,221 @@
+from __future__ import annotations
+
+from typing import Dict, List, Union, Iterable, Optional
+
+import httpx
+from typing_extensions import Literal
+
+from ..._types import Body, Query, Headers
+from ..._utils._utils import with_sts_token, async_with_sts_token
+from ..._base_client import make_request_options
+from ..._resource import SyncAPIResource, AsyncAPIResource
+from ..._compat import cached_property
+
+from ..._response import (
+    to_raw_response_wrapper,
+    async_to_raw_response_wrapper,
+    to_streamed_response_wrapper,
+    async_to_streamed_response_wrapper,
+)
+from ..._streaming import Stream, AsyncStream
+from ...types.context import (
+    ContextChatCompletion,
+    ContextChatCompletionChunk
+)
+from ...types.chat import (
+    ChatCompletionMessageParam,
+    completion_create_params,
+    ChatCompletionStreamOptionsParam,
+    ChatCompletionToolParam,
+    ChatCompletionToolChoiceOptionParam
+)
+
+__all__ = ["Completions", "AsyncCompletions"]
+
+
+class Completions(SyncAPIResource):
+    @cached_property
+    def with_raw_response(self) -> CompletionsWithRawResponse:
+        return CompletionsWithRawResponse(self)
+
+    @cached_property
+    def with_streaming_response(self) -> CompletionsWithStreamingResponse:
+        return CompletionsWithStreamingResponse(self)
+
+    @with_sts_token
+    def create(
+        self,
+        *,
+        context_id: str,
+        messages: Iterable[ChatCompletionMessageParam],
+        model: str,
+        frequency_penalty: Optional[float] | None = None,
+        function_call: completion_create_params.FunctionCall | None = None,
+        logit_bias: Optional[Dict[str, int]] | None = None,
+        logprobs: Optional[bool] | None = None,
+        max_tokens: Optional[int] | None = None,
+        presence_penalty: Optional[float] | None = None,
+        stop: Union[Optional[str], List[str]] | None = None,
+        stream: Optional[Literal[False]] | Literal[True] | None = None,
+        stream_options: Optional[ChatCompletionStreamOptionsParam] | None = None,
+        temperature: Optional[float] | None = None,
+        tools: Iterable[ChatCompletionToolParam] | None = None,
+        top_logprobs: Optional[int] | None = None,
+        top_p: Optional[float] | None = None,
+        repetition_penalty: Optional[float] | None = None,
+        n: Optional[int] | None = None,
+        tool_choice: ChatCompletionToolChoiceOptionParam | None = None,
+        response_format: completion_create_params.ResponseFormat | None = None,
+        user: str | None = None,
+        extra_headers: Headers | None = None,
+        extra_query: Query | None = None,
+        extra_body: Body | None = None,
+        timeout: float | httpx.Timeout | None = None,
+    ) -> ContextChatCompletion | Stream[ContextChatCompletionChunk]:
+        return self._post(
+            "/context/chat/completions",
+            body={
+                "context_id": context_id,
+                "messages": messages,
+                "model": model,
+                "frequency_penalty": frequency_penalty,
+                "function_call": function_call,
+                "logit_bias": logit_bias,
+                "logprobs": logprobs,
+                "max_tokens": max_tokens,
+                "presence_penalty": presence_penalty,
+                "stop": stop,
+                "stream": stream,
+                "stream_options": stream_options,
+                "temperature": temperature,
+                "tools": tools,
+                "top_logprobs": top_logprobs,
+                "top_p": top_p,
+                "user": user,
+                "repetition_penalty": repetition_penalty,
+                "n": n,
+                "tool_choice": tool_choice,
+                "response_format": response_format,
+            },
+            options=make_request_options(
+                extra_headers=extra_headers,
+                extra_query=extra_query,
+                extra_body=extra_body,
+                timeout=timeout,
+            ),
+            cast_to=ContextChatCompletion,
+            stream=stream or False,
+            stream_cls=Stream[ContextChatCompletionChunk],
+        )
+
+
+class AsyncCompletions(AsyncAPIResource):
+    @cached_property
+    def with_raw_response(self) -> AsyncCompletionsWithRawResponse:
+        return AsyncCompletionsWithRawResponse(self)
+
+    @cached_property
+    def with_streaming_response(self) -> AsyncCompletionsWithStreamingResponse:
+        return AsyncCompletionsWithStreamingResponse(self)
+
+    @async_with_sts_token
+    async def create(
+        self,
+        *,
+        context_id: str,
+        messages: Iterable[ChatCompletionMessageParam],
+        model: str,
+        frequency_penalty: Optional[float] | None = None,
+        function_call: completion_create_params.FunctionCall | None = None,
+        logit_bias: Optional[Dict[str, int]] | None = None,
+        logprobs: Optional[bool] | None = None,
+        max_tokens: Optional[int] | None = None,
+        presence_penalty: Optional[float] | None = None,
+        stop: Union[Optional[str], List[str]] | None = None,
+        stream: Optional[Literal[False]] | Literal[True] | None = None,
+        stream_options: Optional[ChatCompletionStreamOptionsParam] | None = None,
+        temperature: Optional[float] | None = None,
+        tools: Iterable[ChatCompletionToolParam] | None = None,
+        top_logprobs: Optional[int] | None = None,
+        top_p: Optional[float] | None = None,
+        user: str | None = None,
+        repetition_penalty: Optional[float] | None = None,
+        n: Optional[int] | None = None,
+        tool_choice: ChatCompletionToolChoiceOptionParam | None = None,
+        response_format: completion_create_params.ResponseFormat | None = None,
+        extra_headers: Headers | None = None,
+        extra_query: Query | None = None,
+        extra_body: Body | None = None,
+        timeout: float | httpx.Timeout | None = None,
+    ) -> ContextChatCompletion | AsyncStream[ContextChatCompletionChunk]:
+        return await self._post(
+            "/context/chat/completions",
+            body={
+                "context_id": context_id,
+                "messages": messages,
+                "model": model,
+                "frequency_penalty": frequency_penalty,
+                "function_call": function_call,
+                "logit_bias": logit_bias,
+                "logprobs": logprobs,
+                "max_tokens": max_tokens,
+                "presence_penalty": presence_penalty,
+                "stop": stop,
+                "stream": stream,
+                "stream_options": stream_options,
+                "temperature": temperature,
+                "tools": tools,
+                "top_logprobs": top_logprobs,
+                "top_p": top_p,
+                "user": user,
+                "repetition_penalty": repetition_penalty,
+                "n": n,
+                "tool_choice": tool_choice,
+                "response_format": response_format,
+            },
+            options=make_request_options(
+                extra_headers=extra_headers,
+                extra_query=extra_query,
+                extra_body=extra_body,
+                timeout=timeout,
+            ),
+            cast_to=ContextChatCompletion,
+            stream=stream or False,
+            stream_cls=AsyncStream[ContextChatCompletionChunk],
+        )
+
+
+class CompletionsWithRawResponse:
+    def __init__(self, completions: Completions) -> None:
+        self._completions = completions
+
+        self.create = to_raw_response_wrapper(
+            completions.create,
+        )
+
+
+class AsyncCompletionsWithRawResponse:
+    def __init__(self, completions: AsyncCompletions) -> None:
+        self._completions = completions
+
+        self.create = async_to_raw_response_wrapper(
+            completions.create,
+        )
+
+
+class CompletionsWithStreamingResponse:
+    def __init__(self, completions: Completions) -> None:
+        self._completions = completions
+
+        self.create = to_streamed_response_wrapper(
+            completions.create,
+        )
+
+
+class AsyncCompletionsWithStreamingResponse:
+    def __init__(self, completions: AsyncCompletions) -> None:
+        self._completions = completions
+
+        self.create = async_to_streamed_response_wrapper(
+            completions.create,
+        )
@@ -0,0 +1,97 @@
+# File generated from our OpenAPI spec by Stainless. See CONTRIBUTING.md for details.
+
+from __future__ import annotations
+import httpx
+
+from typing import Iterable, Optional, Literal
+
+from ..._types import Body, Query, Headers
+from .completions import Completions, AsyncCompletions
+from ..._compat import cached_property
+from ..._resource import SyncAPIResource, AsyncAPIResource
+from ..._utils._utils import with_sts_token, async_with_sts_token
+from ..._base_client import (
+    make_request_options,
+)
+from ...types.context import CreateContextResponse
+from ...types.context.context_create_params import TTLTypes, TruncationStrategy, to_optional_ttl
+from ...types.chat import ChatCompletionMessageParam
+
+__all__ = ["Context", "AsyncContext"]
+
+
+class Context(SyncAPIResource):
+    @cached_property
+    def completions(self) -> Completions:
+        return Completions(self._client)
+
+    @with_sts_token
+    def create(
+            self,
+            *,
+            model: str,
+            messages: Iterable[ChatCompletionMessageParam],
+            ttl: Optional[TTLTypes] | None = None,
+            mode: Literal["session", "common_prefix"] = "session",
+            truncation_strategy: Optional[TruncationStrategy] | None = None,
+            extra_headers: Headers | None = None,
+            extra_query: Query | None = None,
+            extra_body: Body | None = None,
+            timeout: float | httpx.Timeout | None = None,
+    ) -> CreateContextResponse:
+        ttl = to_optional_ttl(ttl)
+        return self._post(
+            "/context/create",
+            body={
+                "model": model,
+                "mode": mode,
+                "messages": messages,
+                "ttl": ttl,
+                "truncation_strategy": truncation_strategy,
+            },
+            options=make_request_options(
+                extra_headers=extra_headers,
+                extra_query=extra_query,
+                extra_body=extra_body,
+                timeout=timeout,
+            ),
+            cast_to=CreateContextResponse,
+        )
+
+class AsyncContext(AsyncAPIResource):
+    @cached_property
+    def completions(self) -> AsyncCompletions:
+        return AsyncCompletions(self._client)
+
+    @async_with_sts_token
+    async def create(
+            self,
+            *,
+            model: str,
+            mode: Literal["session", "common_prefix"] = "session",
+            messages: Iterable[ChatCompletionMessageParam],
+            ttl: Optional[TTLTypes] | None = None,
+            truncation_strategy: Optional[TruncationStrategy] | None = None,
+            extra_headers: Headers | None = None,
+            extra_query: Query | None = None,
+            extra_body: Body | None = None,
+            timeout: float | httpx.Timeout | None = None,
+    ) -> CreateContextResponse:
+        ttl = to_optional_ttl(ttl)
+        return await self._post(
+            "/context/create",
+            body={
+                "model": model,
+                "mode": mode,
+                "messages": messages,
+                "ttl": ttl,
+                "truncation_strategy": truncation_strategy,
+            },
+            options=make_request_options(
+                extra_headers=extra_headers,
+                extra_query=extra_query,
+                extra_body=extra_body,
+                timeout=timeout,
+            ),
+            cast_to=CreateContextResponse,
+        )
@@ -1,8 +1,14 @@
 # File generated from our OpenAPI spec by Stainless. See CONTRIBUTING.md for details.
 
 from pydantic import BaseModel
+from typing import Optional
 
-__all__ = ["CompletionUsage"]
+__all__ = ["CompletionUsage", "PromptTokensDetails"]
+
+
+class PromptTokensDetails(BaseModel):
+    cached_tokens: int
+    """Number of tokens hit cache."""
 
 
 class CompletionUsage(BaseModel):
@@ -14,3 +20,6 @@ class CompletionUsage(BaseModel):
 
     total_tokens: int
     """Total number of tokens used in the request (prompt + completion)."""
+
+    prompt_tokens_details: Optional[PromptTokensDetails] = None
+    """Prompt tokens details."""
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+from .context import Context, AsyncContext`
	`2`	`+`
	`3`	`+__all__ = ["Context", "AsyncContext"]`