Update to latest fnllm (#1930)

AlonsoGuevara · web-flow · commit ee1b2db4a0b9 · 2025-05-15T14:57:01.000-06:00
* Update to latest fnllm

* Semver + smoke tests

* Add --method to smoke tests indexing

* format...

* Adjust embeddings limiter
diff --git a/.semversioner/next-release/minor-20250514234228008828.json b/.semversioner/next-release/minor-20250514234228008828.json
@@ -0,0 +1,4 @@
+{
+  "type": "minor",
+  "description": "Update fnllm to latest. Update default graphrag configuration"
+}
diff --git a/graphrag/config/defaults.py b/graphrag/config/defaults.py
@@ -5,6 +5,7 @@
 
 from dataclasses import dataclass, field
 from pathlib import Path
+from typing import Literal
 
 from graphrag.config.enums import (
     AsyncType,
@@ -275,8 +276,8 @@ class LanguageModelDefaults:
     proxy: None = None
     audience: None = None
     model_supports_json: None = None
-    tokens_per_minute: int = 50_000
-    requests_per_minute: int = 1_000
+    tokens_per_minute: Literal["auto"] = "auto"
+    requests_per_minute: Literal["auto"] = "auto"
     retry_strategy: str = "native"
     max_retries: int = 10
     max_retry_wait: float = 10.0
diff --git a/graphrag/config/init_content.py b/graphrag/config/init_content.py
@@ -34,8 +34,8 @@
     async_mode: {language_model_defaults.async_mode.value} # or asyncio
     retry_strategy: native
     max_retries: -1                   # set to -1 for dynamic retry logic (most optimal setting based on server response)
-    tokens_per_minute: 0              # set to 0 to disable rate limiting
-    requests_per_minute: 0            # set to 0 to disable rate limiting
+    tokens_per_minute: {language_model_defaults.tokens_per_minute}              # set to null to disable rate limiting
+    requests_per_minute: {language_model_defaults.requests_per_minute}            # set to null to disable rate limiting
   {defs.DEFAULT_EMBEDDING_MODEL_ID}:
     type: {defs.DEFAULT_EMBEDDING_MODEL_TYPE.value} # or azure_openai_embedding
     # api_base: https://<instance>.openai.azure.com
@@ -52,8 +52,8 @@
     async_mode: {language_model_defaults.async_mode.value} # or asyncio
     retry_strategy: native
     max_retries: -1                   # set to -1 for dynamic retry logic (most optimal setting based on server response)
-    tokens_per_minute: 0              # set to 0 to disable rate limiting
-    requests_per_minute: 0            # set to 0 to disable rate limiting
+    tokens_per_minute: {language_model_defaults.tokens_per_minute}              # set to null to disable rate limiting
+    requests_per_minute: {language_model_defaults.requests_per_minute}            # set to null to disable rate limiting
 
 ### Input settings ###
 
diff --git a/graphrag/config/models/language_model_config.py b/graphrag/config/models/language_model_config.py
@@ -3,6 +3,8 @@
 
 """Language model configuration."""
 
+from typing import Literal
+
 import tiktoken
 from pydantic import BaseModel, Field, model_validator
 
@@ -192,11 +194,11 @@ def _validate_deployment_name(self) -> None:
         description="The request timeout to use.",
         default=language_model_defaults.request_timeout,
     )
-    tokens_per_minute: int = Field(
+    tokens_per_minute: int | Literal["auto"] | None = Field(
         description="The number of tokens per minute to use for the LLM service.",
         default=language_model_defaults.tokens_per_minute,
     )
-    requests_per_minute: int = Field(
+    requests_per_minute: int | Literal["auto"] | None = Field(
         description="The number of requests per minute to use for the LLM service.",
         default=language_model_defaults.requests_per_minute,
     )
diff --git a/graphrag/language_model/providers/fnllm/utils.py b/graphrag/language_model/providers/fnllm/utils.py
@@ -81,7 +81,6 @@ def _create_openai_config(config: LanguageModelConfig, azure: bool) -> OpenAICon
             encoding=encoding_model,
             deployment=config.deployment_name,
             chat_parameters=chat_parameters,
-            sleep_on_rate_limit_recommendation=True,
         )
     return PublicOpenAIConfig(
         api_key=config.api_key,
@@ -98,7 +97,6 @@ def _create_openai_config(config: LanguageModelConfig, azure: bool) -> OpenAICon
         model=config.model,
         encoding=encoding_model,
         chat_parameters=chat_parameters,
-        sleep_on_rate_limit_recommendation=True,
     )
 
 
diff --git a/poetry.lock b/poetry.lock
diff --git a/pyproject.toml b/pyproject.toml
@@ -56,7 +56,7 @@ lancedb = "^0.17.0"
 aiofiles = "^24.1.0"
 
 # LLM
-fnllm = {extras = ["azure", "openai"], version = "0.2.3"}
+fnllm = {extras = ["azure", "openai"], version = "^0.3.0"}
 json-repair = "^0.30.3"
 openai = "^1.68.0"
 nltk = "3.9.1"
diff --git a/tests/fixtures/min-csv/settings.yml b/tests/fixtures/min-csv/settings.yml
@@ -20,8 +20,8 @@ models:
     api_version: ${GRAPHRAG_API_VERSION}
     deployment_name: ${GRAPHRAG_EMBEDDING_DEPLOYMENT_NAME}
     model: ${GRAPHRAG_EMBEDDING_MODEL}
-    tokens_per_minute: ${GRAPHRAG_EMBEDDING_TPM}
-    requests_per_minute: ${GRAPHRAG_EMBEDDING_RPM}
+    tokens_per_minute: null
+    requests_per_minute: null
     concurrent_requests: 50
     async_mode: threaded
 
diff --git a/tests/fixtures/text/settings.yml b/tests/fixtures/text/settings.yml
@@ -20,8 +20,8 @@ models:
     api_version: ${GRAPHRAG_API_VERSION}
     deployment_name: ${GRAPHRAG_EMBEDDING_DEPLOYMENT_NAME}
     model: ${GRAPHRAG_EMBEDDING_MODEL}
-    tokens_per_minute: ${GRAPHRAG_EMBEDDING_TPM}
-    requests_per_minute: ${GRAPHRAG_EMBEDDING_RPM}
+    tokens_per_minute: null
+    requests_per_minute: null
     concurrent_requests: 50
     async_mode: threaded
 
diff --git a/tests/smoke/test_fixtures.py b/tests/smoke/test_fixtures.py
@@ -139,6 +139,8 @@ def __run_indexer(
             root.resolve().as_posix(),
             "--logger",
             "print",
+            "--method",
+            "standard",
         ]
         command = [arg for arg in command if arg]
         log.info("running command ", " ".join(command))

-Original file line number
+Diff line change
@@ @@ -0,0 +1,4 @@ @@
 +{
 +  "type": "minor",
 +  "description": "Update fnllm to latest. Update default graphrag configuration"
 +}
Original file line number	Diff line number	Diff line change
`@@ -3,6 +3,8 @@`
`3`	`3`
`4`	`4`	`"""Language model configuration."""`
`5`	`5`
	`6`	`+from typing import Literal`
	`7`	`+`
`6`	`8`	`import tiktoken`
`7`	`9`	`from pydantic import BaseModel, Field, model_validator`
`8`	`10`
`@@ -192,11 +194,11 @@ def _validate_deployment_name(self) -> None:`
`192`	`194`	`description="The request timeout to use.",`
`193`	`195`	`default=language_model_defaults.request_timeout,`
`194`	`196`	`)`
`195`		`- tokens_per_minute: int = Field(`
	`197`	`+ tokens_per_minute: int \| Literal["auto"] \| None = Field(`
`196`	`198`	`description="The number of tokens per minute to use for the LLM service.",`
`197`	`199`	`default=language_model_defaults.tokens_per_minute,`
`198`	`200`	`)`
`199`		`- requests_per_minute: int = Field(`
	`201`	`+ requests_per_minute: int \| Literal["auto"] \| None = Field(`
`200`	`202`	`description="The number of requests per minute to use for the LLM service.",`
`201`	`203`	`default=language_model_defaults.requests_per_minute,`
`202`	`204`	`)`
Original file line number	Diff line number	Diff line change
`@@ -81,7 +81,6 @@ def _create_openai_config(config: LanguageModelConfig, azure: bool) -> OpenAICon`
`81`	`81`	`encoding=encoding_model,`
`82`	`82`	`deployment=config.deployment_name,`
`83`	`83`	`chat_parameters=chat_parameters,`
`84`		`- sleep_on_rate_limit_recommendation=True,`
`85`	`84`	`)`
`86`	`85`	`return PublicOpenAIConfig(`
`87`	`86`	`api_key=config.api_key,`
`@@ -98,7 +97,6 @@ def _create_openai_config(config: LanguageModelConfig, azure: bool) -> OpenAICon`
`98`	`97`	`model=config.model,`
`99`	`98`	`encoding=encoding_model,`
`100`	`99`	`chat_parameters=chat_parameters,`
`101`		`- sleep_on_rate_limit_recommendation=True,`
`102`	`100`	`)`
`103`	`101`
`104`	`102`
Original file line number	Diff line number	Diff line change
`@@ -139,6 +139,8 @@ def __run_indexer(`
`139`	`139`	`root.resolve().as_posix(),`
`140`	`140`	`"--logger",`
`141`	`141`	`"print",`
	`142`	`+ "--method",`
	`143`	`+ "standard",`
`142`	`144`	`]`
`143`	`145`	`command = [arg for arg in command if arg]`
`144`	`146`	`log.info("running command ", " ".join(command))`