Use 4.1 and text-embedding-3-large as defaults

natoverse · natoverse · commit de767cc881e2 · 2025-09-24T14:49:55.000-07:00
diff --git a/docs/config/yaml.md b/docs/config/yaml.md
@@ -29,12 +29,12 @@ models:
   default_chat_model:
     api_key: ${GRAPHRAG_API_KEY}
     type: openai_chat
-    model: gpt-4o
+    model: gpt-4.1
     model_supports_json: true
   default_embedding_model:
     api_key: ${GRAPHRAG_API_KEY}
     type: openai_embedding
-    model: text-embedding-ada-002
+    model: text-embedding-3-large
 ```
 
 #### Fields
diff --git a/graphrag/config/defaults.py b/graphrag/config/defaults.py
@@ -47,11 +47,11 @@
 DEFAULT_OUTPUT_BASE_DIR = "output"
 DEFAULT_CHAT_MODEL_ID = "default_chat_model"
 DEFAULT_CHAT_MODEL_TYPE = ModelType.OpenAIChat
-DEFAULT_CHAT_MODEL = "gpt-4o"
+DEFAULT_CHAT_MODEL = "gpt-4.1"
 DEFAULT_CHAT_MODEL_AUTH_TYPE = AuthType.APIKey
 DEFAULT_EMBEDDING_MODEL_ID = "default_embedding_model"
 DEFAULT_EMBEDDING_MODEL_TYPE = ModelType.OpenAIEmbedding
-DEFAULT_EMBEDDING_MODEL = "text-embedding-ada-002"
+DEFAULT_EMBEDDING_MODEL = "text-embedding-3-large"
 DEFAULT_EMBEDDING_MODEL_AUTH_TYPE = AuthType.APIKey
 DEFAULT_VECTOR_STORE_ID = "default_vector_store"
 
@@ -309,8 +309,6 @@ class LanguageModelDefaults:
     proxy: None = None
     audience: None = None
     model_supports_json: None = None
-    tokens_per_minute: Literal["auto"] = "auto"
-    requests_per_minute: Literal["auto"] = "auto"
     rate_limit_strategy: str | None = "static"
     retry_strategy: str = "native"
     max_retries: int = 10
diff --git a/graphrag/config/init_content.py b/graphrag/config/init_content.py
@@ -32,10 +32,10 @@
     model_supports_json: true # recommended if this is available for your model.
     concurrent_requests: {language_model_defaults.concurrent_requests} # max number of simultaneous LLM requests allowed
     async_mode: {language_model_defaults.async_mode.value} # or asyncio
-    retry_strategy: native
+    retry_strategy: exponential_backoff
     max_retries: {language_model_defaults.max_retries}
-    tokens_per_minute: {language_model_defaults.tokens_per_minute}              # set to null to disable rate limiting
-    requests_per_minute: {language_model_defaults.requests_per_minute}            # set to null to disable rate limiting
+    tokens_per_minute: null              # set to null to disable rate limiting
+    requests_per_minute: null            # set to null to disable rate limiting
   {defs.DEFAULT_EMBEDDING_MODEL_ID}:
     type: {defs.DEFAULT_EMBEDDING_MODEL_TYPE.value} # or azure_openai_embedding
     # api_base: https://<instance>.openai.azure.com
@@ -50,7 +50,7 @@
     model_supports_json: true # recommended if this is available for your model.
     concurrent_requests: {language_model_defaults.concurrent_requests} # max number of simultaneous LLM requests allowed
     async_mode: {language_model_defaults.async_mode.value} # or asyncio
-    retry_strategy: native
+    retry_strategy: exponential_backoff
     max_retries: {language_model_defaults.max_retries}
     tokens_per_minute: null              # set to null to disable rate limiting or auto for dynamic
     requests_per_minute: null            # set to null to disable rate limiting or auto for dynamic
diff --git a/graphrag/config/models/vector_store_schema_config.py b/graphrag/config/models/vector_store_schema_config.py
@@ -7,7 +7,7 @@
 
 from pydantic import BaseModel, Field, model_validator
 
-DEFAULT_VECTOR_SIZE: int = 1536
+DEFAULT_VECTOR_SIZE: int = 3072
 
 VALID_IDENTIFIER_REGEX = re.compile(r"^[A-Za-z_][A-Za-z0-9_]*$")
 
diff --git a/tests/mock_provider.py b/tests/mock_provider.py
@@ -30,7 +30,7 @@ def __init__(
         self.responses = config.responses if config and config.responses else responses
         self.response_index = 0
         self.config = config or LanguageModelConfig(
-            type=ModelType.MockChat, model="gpt-4o", api_key="mock"
+            type=ModelType.MockChat, model="gpt-4.1", api_key="mock"
         )
 
     async def achat(
@@ -99,7 +99,7 @@ class MockEmbeddingLLM:
 
     def __init__(self, **kwargs: Any):
         self.config = LanguageModelConfig(
-            type=ModelType.MockEmbedding, model="text-embedding-ada-002", api_key="mock"
+            type=ModelType.MockEmbedding, model="text-embedding-3-large", api_key="mock"
         )
 
     def embed_batch(self, text_list: list[str], **kwargs: Any) -> list[list[float]]:

Original file line number	Diff line number	Diff line change
`@@ -30,7 +30,7 @@ def __init__(`
`30`	`30`	`self.responses = config.responses if config and config.responses else responses`
`31`	`31`	`self.response_index = 0`
`32`	`32`	`self.config = config or LanguageModelConfig(`
`33`		`- type=ModelType.MockChat, model="gpt-4o", api_key="mock"`
	`33`	`+ type=ModelType.MockChat, model="gpt-4.1", api_key="mock"`
`34`	`34`	`)`
`35`	`35`
`36`	`36`	`async def achat(`
`@@ -99,7 +99,7 @@ class MockEmbeddingLLM:`
`99`	`99`
`100`	`100`	`def __init__(self, **kwargs: Any):`
`101`	`101`	`self.config = LanguageModelConfig(`
`102`		`- type=ModelType.MockEmbedding, model="text-embedding-ada-002", api_key="mock"`
	`102`	`+ type=ModelType.MockEmbedding, model="text-embedding-3-large", api_key="mock"`
`103`	`103`	`)`
`104`	`104`
`105`	`105`	`def embed_batch(self, text_list: list[str], **kwargs: Any) -> list[list[float]]:`