feat(ark-runtime): add context api for ga

luminghao-bytedance · luminghao-bytedance · commit 8ada35f01fcb · 2024-12-17T19:45:52.000+08:00
diff --git a/volcenginesdkarkruntime/types/completion_usage.py b/volcenginesdkarkruntime/types/completion_usage.py
@@ -1,8 +1,14 @@
 # File generated from our OpenAPI spec by Stainless. See CONTRIBUTING.md for details.
 
 from pydantic import BaseModel
+from typing import Optional
 
-__all__ = ["CompletionUsage"]
+__all__ = ["CompletionUsage", "PromptTokensDetails"]
+
+
+class PromptTokensDetails(BaseModel):
+    cached_tokens: int
+    """Number of tokens hit cache."""
 
 
 class CompletionUsage(BaseModel):
@@ -14,3 +20,6 @@ class CompletionUsage(BaseModel):
 
     total_tokens: int
     """Total number of tokens used in the request (prompt + completion)."""
+
+    prompt_tokens_details: Optional[PromptTokensDetails] = None
+    """Prompt tokens details."""
diff --git a/volcenginesdkarkruntime/types/context/context_chat_completion.py b/volcenginesdkarkruntime/types/context/context_chat_completion.py
@@ -3,7 +3,7 @@
 
 from ..._models import BaseModel
 from ..chat.chat_completion import Choice
-from ..context.context_usage import ContextCompletionUsage
+from ..completion_usage import CompletionUsage
 
 __all__ = [
     "ContextChatCompletion",
@@ -29,5 +29,5 @@ class ContextChatCompletion(BaseModel):
     object: Literal["chat.completion"]
     """The object type, which is always `chat.completion`."""
 
-    usage: Optional[ContextCompletionUsage] = None
+    usage: Optional[CompletionUsage] = None
     """Usage statistics for the completion request."""
diff --git a/volcenginesdkarkruntime/types/context/context_chat_completion_chunk.py b/volcenginesdkarkruntime/types/context/context_chat_completion_chunk.py
@@ -3,7 +3,7 @@
 
 from ..._models import BaseModel
 from ..chat.chat_completion_chunk import Choice
-from ..context.context_usage import ContextCompletionUsage
+from ..completion_usage import CompletionUsage
 
 __all__ = [
     "ContextChatCompletionChunk",
@@ -32,7 +32,7 @@ class ContextChatCompletionChunk(BaseModel):
     object: Literal["chat.completion.chunk"]
     """The object type, which is always `chat.completion.chunk`."""
 
-    usage: Optional[ContextCompletionUsage] = None
+    usage: Optional[CompletionUsage] = None
     """
     An optional field that will only be present when you set
     `stream_options: {"include_usage": true}` in your request. When present, it
diff --git a/volcenginesdkarkruntime/types/context/context_usage.py b/volcenginesdkarkruntime/types/context/context_usage.py
diff --git a/volcenginesdkexamples/volcenginesdkarkruntime/context.py b/volcenginesdkexamples/volcenginesdkarkruntime/context.py
@@ -15,47 +15,38 @@
 client = Ark(api_key="${YOUR_API_KEY}")
 
 if __name__ == "__main__":
-    # Create context with 30 minutes cache:
+    # Create context with 60 minutes cache:
     print("----- create context -----")
     response = client.context.create(
         model="${YOUR_ENDPOINT_ID}",
         messages=[
             {"role": "system", "content": "你是豆包，是由字节跳动开发的 AI 人工智能助手"},
         ],
-        ttl=datetime.timedelta(minutes=30),
+        ttl=datetime.timedelta(minutes=60),
+        truncation_strategy={
+            'type': 'last_history_tokens',
+            'last_history_tokens': 4096
+        }
     )
     print(response)
 
-    # Streaming:
-    print("----- streaming request -----")
-    stream = client.context.completions.create(
+    print("----- chat round 1 (non-stream) -----")
+    chat_response = client.context.completions.create(
         context_id=response.id,
         model="${YOUR_ENDPOINT_ID}",
         messages=[
-            {"role": "user", "content": "你是谁？"},
+            {"role": "user", "content": "我是方方"},
         ],
-        stream=True
-    )
-    for chunk in stream:
-        if chunk.usage:
-            print(chunk.usage)
-        if not chunk.choices:
-            continue
-        print(chunk.choices[0].delta.content, end="")
-
-    # Clone:
-    print("----- clone context -----")
-    clone_response = client.context.clone(
-        context_id=response.id,
+        stream=False
     )
-    print(clone_response)
+    print(chat_response.choices[0].message.content)
 
-    print("----- streaming request -----")
+    print("----- chat round 2 (streaming) -----")
     stream = client.context.completions.create(
-        context_id=clone_response.id,
+        context_id=response.id,
         model="${YOUR_ENDPOINT_ID}",
         messages=[
-            {"role": "user", "content": "刚才你说了什么？"},
+            {"role": "user", "content": "我是谁？"},
         ],
         stream=True
     )