stronger typing

waleedlatif1 · waleedlatif1 · commit 307d7ab5200b · 2026-01-05T13:31:05.000-08:00
diff --git a/apps/sim/lib/chunkers/docs-chunker.ts b/apps/sim/lib/chunkers/docs-chunker.ts
@@ -16,7 +16,7 @@ interface HeaderInfo {
 interface Frontmatter {
   title?: string
   description?: string
-  [key: string]: any
+  [key: string]: unknown
 }
 
 const logger = createLogger('DocsChunker')
diff --git a/apps/sim/lib/chunkers/json-yaml-chunker.ts b/apps/sim/lib/chunkers/json-yaml-chunker.ts
@@ -6,6 +6,11 @@ import { estimateTokenCount } from '@/lib/tokenization/estimators'
 
 const logger = createLogger('JsonYamlChunker')
 
+type JsonPrimitive = string | number | boolean | null
+type JsonValue = JsonPrimitive | JsonObject | JsonArray
+type JsonObject = { [key: string]: JsonValue }
+type JsonArray = JsonValue[]
+
 function getTokenCount(text: string): number {
   try {
     return getAccurateTokenCount(text, 'text-embedding-3-small')
@@ -59,11 +64,11 @@ export class JsonYamlChunker {
    */
   async chunk(content: string): Promise<Chunk[]> {
     try {
-      let data: any
+      let data: JsonValue
       try {
-        data = JSON.parse(content)
+        data = JSON.parse(content) as JsonValue
       } catch {
-        data = yaml.load(content)
+        data = yaml.load(content) as JsonValue
       }
       const chunks = this.chunkStructuredData(data)
 
@@ -86,15 +91,15 @@ export class JsonYamlChunker {
   /**
    * Chunk structured data based on its structure
    */
-  private chunkStructuredData(data: any, path: string[] = []): Chunk[] {
+  private chunkStructuredData(data: JsonValue, path: string[] = []): Chunk[] {
     const chunks: Chunk[] = []
 
     if (Array.isArray(data)) {
       return this.chunkArray(data, path)
     }
 
     if (typeof data === 'object' && data !== null) {
-      return this.chunkObject(data, path)
+      return this.chunkObject(data as JsonObject, path)
     }
 
     const content = JSON.stringify(data, null, 2)
@@ -118,9 +123,9 @@ export class JsonYamlChunker {
   /**
    * Chunk an array intelligently
    */
-  private chunkArray(arr: any[], path: string[]): Chunk[] {
+  private chunkArray(arr: JsonArray, path: string[]): Chunk[] {
     const chunks: Chunk[] = []
-    let currentBatch: any[] = []
+    let currentBatch: JsonValue[] = []
     let currentTokens = 0
 
     const contextHeader = path.length > 0 ? `// ${path.join('.')}\n` : ''
@@ -194,7 +199,7 @@ export class JsonYamlChunker {
   /**
    * Chunk an object intelligently
    */
-  private chunkObject(obj: Record<string, any>, path: string[]): Chunk[] {
+  private chunkObject(obj: JsonObject, path: string[]): Chunk[] {
     const chunks: Chunk[] = []
     const entries = Object.entries(obj)
 
@@ -213,7 +218,7 @@ export class JsonYamlChunker {
       return chunks
     }
 
-    let currentObj: Record<string, any> = {}
+    let currentObj: JsonObject = {}
     let currentTokens = 0
     let currentKeys: string[] = []
 
diff --git a/apps/sim/lib/file-parsers/docx-parser.ts b/apps/sim/lib/file-parsers/docx-parser.ts
@@ -6,9 +6,14 @@ import { sanitizeTextForUTF8 } from '@/lib/file-parsers/utils'
 
 const logger = createLogger('DocxParser')
 
+interface MammothMessage {
+  type: 'warning' | 'error'
+  message: string
+}
+
 interface MammothResult {
   value: string
-  messages: any[]
+  messages: MammothMessage[]
 }
 
 export class DocxParser implements FileParser {
diff --git a/apps/sim/lib/file-parsers/types.ts b/apps/sim/lib/file-parsers/types.ts
@@ -1,6 +1,22 @@
+export interface FileParseMetadata {
+  characterCount?: number
+  pageCount?: number
+  extractionMethod?: string
+  warning?: string
+  messages?: unknown[]
+  html?: string
+  type?: string
+  headers?: string[]
+  totalRows?: number
+  rowCount?: number
+  sheetNames?: string[]
+  source?: string
+  [key: string]: unknown
+}
+
 export interface FileParseResult {
   content: string
-  metadata?: Record<string, any>
+  metadata?: FileParseMetadata
 }
 
 export interface FileParser {
diff --git a/apps/sim/lib/knowledge/documents/document-processor.ts b/apps/sim/lib/knowledge/documents/document-processor.ts
@@ -4,6 +4,7 @@ import { getBYOKKey } from '@/lib/api-key/byok'
 import { type Chunk, JsonYamlChunker, StructuredDataChunker, TextChunker } from '@/lib/chunkers'
 import { env } from '@/lib/core/config/env'
 import { parseBuffer, parseFile } from '@/lib/file-parsers'
+import type { FileParseMetadata } from '@/lib/file-parsers/types'
 import { retryWithExponentialBackoff } from '@/lib/knowledge/documents/utils'
 import { StorageService } from '@/lib/uploads'
 import { downloadFileFromUrl } from '@/lib/uploads/utils/file-utils.server'
@@ -35,7 +36,6 @@ type OCRRequestBody = {
     document_url: string
   }
   include_image_base64: boolean
-  pages?: number[]
 }
 
 const MISTRAL_MAX_PAGES = 1000
@@ -138,7 +138,7 @@ export async function processDocument(
     const cloudUrl = 'cloudUrl' in parseResult ? parseResult.cloudUrl : undefined
 
     let chunks: Chunk[]
-    const metadata = 'metadata' in parseResult ? parseResult.metadata : {}
+    const metadata: FileParseMetadata = parseResult.metadata ?? {}
 
     const isJsonYaml =
       metadata.type === 'json' ||
@@ -154,10 +154,11 @@ export async function processDocument(
       })
     } else if (StructuredDataChunker.isStructuredData(content, mimeType)) {
       logger.info('Using structured data chunker for spreadsheet/CSV content')
+      const rowCount = metadata.totalRows ?? metadata.rowCount
       chunks = await StructuredDataChunker.chunkStructuredData(content, {
         chunkSize,
         headers: metadata.headers,
-        totalRows: metadata.totalRows || metadata.rowCount,
+        totalRows: typeof rowCount === 'number' ? rowCount : undefined,
         sheetName: metadata.sheetNames?.[0],
       })
     } else {
@@ -210,7 +211,7 @@ async function parseDocument(
   content: string
   processingMethod: 'file-parser' | 'mistral-ocr'
   cloudUrl?: string
-  metadata?: any
+  metadata?: FileParseMetadata
 }> {
   const isPDF = mimeType === 'application/pdf'
   const hasAzureMistralOCR =
@@ -663,7 +664,7 @@ async function processChunk(
 }
 
 // Maximum concurrent chunk processing to avoid overwhelming APIs
-const MAX_CONCURRENT_CHUNKS = env.KB_CONFIG_CHUNK_CONCURRENCY || 5
+const MAX_CONCURRENT_CHUNKS = env.KB_CONFIG_CHUNK_CONCURRENCY
 
 async function processMistralOCRInBatches(
   filename: string,
@@ -736,7 +737,7 @@ async function processMistralOCRInBatches(
 async function parseWithFileParser(fileUrl: string, filename: string, mimeType: string) {
   try {
     let content: string
-    let metadata: any = {}
+    let metadata: FileParseMetadata = {}
 
     if (fileUrl.startsWith('data:')) {
       content = await parseDataURI(fileUrl, filename, mimeType)
@@ -782,7 +783,7 @@ async function parseDataURI(fileUrl: string, filename: string, mimeType: string)
 async function parseHttpFile(
   fileUrl: string,
   filename: string
-): Promise<{ content: string; metadata?: any }> {
+): Promise<{ content: string; metadata?: FileParseMetadata }> {
   const buffer = await downloadFileWithTimeout(fileUrl)
 
   const extension = filename.split('.').pop()?.toLowerCase()
diff --git a/apps/sim/lib/knowledge/documents/service.ts b/apps/sim/lib/knowledge/documents/service.ts
@@ -693,7 +693,7 @@ export async function createDocumentRecords(
     for (const docData of documents) {
       const documentId = randomUUID()
 
-      let processedTags: Record<string, any> = {}
+      let processedTags: Partial<ProcessedDocumentTags> = {}
 
       if (docData.documentTagsData) {
         try {
@@ -1057,7 +1057,7 @@ export async function createSingleDocument(
   const now = new Date()
 
   // Process structured tag data if provided
-  let processedTags: Record<string, any> = {
+  let processedTags: ProcessedDocumentTags = {
     // Text tags (7 slots)
     tag1: documentData.tag1 ?? null,
     tag2: documentData.tag2 ?? null,
@@ -1533,23 +1533,30 @@ export async function updateDocument(
     return value || null
   }
 
+  // Type-safe access to tag slots in updateData
+  type UpdateDataWithTags = typeof updateData & Record<TagSlot, string | undefined>
+  const typedUpdateData = updateData as UpdateDataWithTags
+
   ALL_TAG_SLOTS.forEach((slot: TagSlot) => {
-    const updateValue = (updateData as any)[slot]
+    const updateValue = typedUpdateData[slot]
     if (updateValue !== undefined) {
-      ;(dbUpdateData as any)[slot] = convertTagValue(slot, updateValue)
+      ;(dbUpdateData as Record<TagSlot, string | number | Date | boolean | null>)[slot] =
+        convertTagValue(slot, updateValue)
     }
   })
 
   await db.transaction(async (tx) => {
     await tx.update(document).set(dbUpdateData).where(eq(document.id, documentId))
 
-    const hasTagUpdates = ALL_TAG_SLOTS.some((field) => (updateData as any)[field] !== undefined)
+    const hasTagUpdates = ALL_TAG_SLOTS.some((field) => typedUpdateData[field] !== undefined)
 
     if (hasTagUpdates) {
-      const embeddingUpdateData: Record<string, any> = {}
+      const embeddingUpdateData: Partial<ProcessedDocumentTags> = {}
       ALL_TAG_SLOTS.forEach((field) => {
-        if ((updateData as any)[field] !== undefined) {
-          embeddingUpdateData[field] = convertTagValue(field, (updateData as any)[field])
+        if (typedUpdateData[field] !== undefined) {
+          ;(embeddingUpdateData as Record<TagSlot, string | number | Date | boolean | null>)[
+            field
+          ] = convertTagValue(field, typedUpdateData[field])
         }
       })
 
diff --git a/apps/sim/lib/knowledge/documents/utils.ts b/apps/sim/lib/knowledge/documents/utils.ts
@@ -14,7 +14,7 @@ export interface RetryOptions {
   initialDelayMs?: number
   maxDelayMs?: number
   backoffMultiplier?: number
-  retryCondition?: (error: RetryableError) => boolean
+  retryCondition?: (error: unknown) => boolean
 }
 
 export interface RetryResult<T> {
@@ -30,11 +30,18 @@ function hasStatus(
   return typeof error === 'object' && error !== null && 'status' in error
 }
 
+function isRetryableErrorType(error: unknown): error is RetryableError {
+  if (!error) return false
+  if (error instanceof Error) return true
+  if (typeof error === 'object' && ('status' in error || 'message' in error)) return true
+  return false
+}
+
 /**
  * Default retry condition for rate limiting errors
  */
-export function isRetryableError(error: RetryableError): boolean {
-  if (!error) return false
+export function isRetryableError(error: unknown): boolean {
+  if (!isRetryableErrorType(error)) return false
 
   // Check for rate limiting status codes
   if (
@@ -45,7 +52,7 @@ export function isRetryableError(error: RetryableError): boolean {
   }
 
   // Check for rate limiting in error messages
-  const errorMessage = error.message || error.toString()
+  const errorMessage = error instanceof Error ? error.message : String(error)
   const rateLimitKeywords = [
     'rate limit',
     'rate_limit',
diff --git a/apps/sim/lib/knowledge/embeddings.ts b/apps/sim/lib/knowledge/embeddings.ts
@@ -26,6 +26,20 @@ interface EmbeddingConfig {
   modelName: string
 }
 
+interface EmbeddingResponseItem {
+  embedding: number[]
+  index: number
+}
+
+interface EmbeddingAPIResponse {
+  data: EmbeddingResponseItem[]
+  model: string
+  usage: {
+    prompt_tokens: number
+    total_tokens: number
+  }
+}
+
 async function getEmbeddingConfig(
   embeddingModel = 'text-embedding-3-small',
   workspaceId?: string | null
@@ -104,14 +118,14 @@ async function callEmbeddingAPI(inputs: string[], config: EmbeddingConfig): Prom
         )
       }
 
-      const data = await response.json()
-      return data.data.map((item: any) => item.embedding)
+      const data: EmbeddingAPIResponse = await response.json()
+      return data.data.map((item) => item.embedding)
     },
     {
       maxRetries: 3,
       initialDelayMs: 1000,
       maxDelayMs: 10000,
-      retryCondition: (error: any) => {
+      retryCondition: (error: unknown) => {
         if (error instanceof EmbeddingAPIError) {
           return error.status === 429 || error.status >= 500
         }

Original file line number	Diff line number	Diff line change
`@@ -16,7 +16,7 @@ interface HeaderInfo {`
`16`	`16`	`interface Frontmatter {`
`17`	`17`	`title?: string`
`18`	`18`	`description?: string`
`19`		`- [key: string]: any`
	`19`	`+ [key: string]: unknown`
`20`	`20`	`}`
`21`	`21`
`22`	`22`	`const logger = createLogger('DocsChunker')`