Add website source routes

Tanvir S · tsbhangu · commit 19b72aaad1ff · 2025-10-31T16:06:15.000-07:00
diff --git a/.vscode/settings.json b/.vscode/settings.json
@@ -37,5 +37,6 @@
   },
   "[typescriptreact]": {
     "editor.defaultFormatter": "biomejs.biome"
-  }
+  },
+  "typescript.tsserver.maxTsServerMemory": 4096
 }
diff --git a/servers/fai/alembic/versions/create_websites_table.py b/servers/fai/alembic/versions/create_websites_table.py
@@ -0,0 +1,59 @@
+"""create websites table
+
+Revision ID: create_websites
+Revises: 461b2caaffc7
+Create Date: 2025-10-27 00:00:00.000000
+
+"""
+
+from typing import (
+    Sequence,
+    Union,
+)
+
+import sqlalchemy as sa
+from alembic import op
+
+# revision identifiers, used by Alembic.
+revision: str = "create_websites"
+down_revision: Union[str, Sequence[str], None] = "461b2caaffc7"
+branch_labels: Union[str, Sequence[str], None] = None
+depends_on: Union[str, Sequence[str], None] = None
+
+
+def upgrade() -> None:
+    """Upgrade schema."""
+    # ### commands auto generated by Alembic - please adjust! ###
+    op.create_table(
+        "websites",
+        sa.Column("id", sa.String(), nullable=False),
+        sa.Column("domain", sa.String(), nullable=False),
+        sa.Column("base_url", sa.String(), nullable=False),
+        sa.Column("page_url", sa.String(), nullable=False),
+        sa.Column("chunk", sa.String(), nullable=False),
+        sa.Column("document", sa.String(), nullable=False),
+        sa.Column("title", sa.String(), nullable=True),
+        sa.Column("version", sa.String(), nullable=True),
+        sa.Column("product", sa.String(), nullable=True),
+        sa.Column("keywords", sa.ARRAY(sa.String()), nullable=True),
+        sa.Column("authed", sa.Boolean(), nullable=True),
+        sa.Column("created_at", sa.DateTime(timezone=True), nullable=False),
+        sa.Column("updated_at", sa.DateTime(timezone=True), nullable=False),
+        sa.PrimaryKeyConstraint("id"),
+    )
+    op.create_index("idx_websites_domain", "websites", ["domain"], unique=False)
+    op.create_index("idx_websites_base_url", "websites", ["base_url"], unique=False)
+    op.create_index(
+        "idx_websites_domain_base_url", "websites", ["domain", "base_url"], unique=False
+    )
+    # ### end Alembic commands ###
+
+
+def downgrade() -> None:
+    """Downgrade schema."""
+    # ### commands auto generated by Alembic - please adjust! ###
+    op.drop_index("idx_websites_domain_base_url", table_name="websites")
+    op.drop_index("idx_websites_base_url", table_name="websites")
+    op.drop_index("idx_websites_domain", table_name="websites")
+    op.drop_table("websites")
+    # ### end Alembic commands ###
diff --git a/servers/fai/src/fai/models/api/website_api.py b/servers/fai/src/fai/models/api/website_api.py
@@ -0,0 +1,69 @@
+from pydantic import (
+    BaseModel,
+    Field,
+)
+
+from fai.models.api.commons.pagination import PaginationResponse
+from fai.models.types.website_types import Website
+
+
+class IndexWebsiteRequest(BaseModel):
+    base_url: str = Field(description="The base URL to start crawling from (e.g., 'https://docs.example.com')")
+    max_depth: int | None = Field(
+        default=1, description="Maximum depth to crawl from base URL (1 = only pages linked from base URL)"
+    )
+    include_patterns: list[str] | None = Field(
+        default=None, description="URL patterns to include (e.g., ['/docs/*', '/api/*']). If empty, includes all."
+    )
+    exclude_patterns: list[str] | None = Field(
+        default=None, description="URL patterns to exclude (e.g., ['/blog/*', '*.pdf'])"
+    )
+    version: str | None = Field(default=None, description="Version to tag all crawled pages with")
+    product: str | None = Field(default=None, description="Product to tag all crawled pages with")
+    authed: bool | None = Field(default=None, description="Whether crawled pages should be auth-gated")
+
+
+class IndexWebsiteResponse(BaseModel):
+    job_id: str = Field(description="ID to track the crawling job status")
+    base_url: str = Field(description="The base URL being crawled")
+
+
+class GetWebsiteStatusResponse(BaseModel):
+    job_id: str
+    status: str = Field(description="Job status: PENDING, PROCESSING, COMPLETED, or FAILED")
+    base_url: str
+    pages_indexed: int = Field(description="Number of pages successfully indexed")
+    pages_failed: int = Field(description="Number of pages that failed to index")
+    error: str | None = Field(default=None, description="Error message if the job failed")
+
+
+class GetWebsiteResponse(BaseModel):
+    website: Website = Field(description="The requested website")
+
+
+class GetWebsitesResponse(BaseModel):
+    websites: list[Website] = Field(description="List of indexed website pages for the domain")
+    pagination: PaginationResponse = Field(description="Pagination information for the website list")
+
+
+class ReindexWebsiteRequest(BaseModel):
+    base_url: str = Field(description="The base URL to re-crawl (will delete old pages and re-index)")
+
+
+class ReindexWebsiteResponse(BaseModel):
+    job_id: str = Field(description="ID to track the re-crawling job status")
+    base_url: str = Field(description="The base URL being re-crawled")
+
+
+class DeleteWebsiteRequest(BaseModel):
+    base_url: str = Field(description="The base URL of the website to delete (deletes all pages from this source)")
+
+
+class DeleteWebsiteResponse(BaseModel):
+    success: bool = Field(description="Whether the website was successfully deleted")
+    pages_deleted: int = Field(description="Number of pages deleted")
+
+
+class DeleteAllWebsitesResponse(BaseModel):
+    success: bool = Field(description="Whether all websites were successfully deleted")
+    pages_deleted: int = Field(description="Total number of pages deleted")
diff --git a/servers/fai/src/fai/models/db/website_db.py b/servers/fai/src/fai/models/db/website_db.py
@@ -0,0 +1,69 @@
+from openai import AsyncOpenAI
+from sqlalchemy import (
+    Boolean,
+    Column,
+    DateTime,
+    Integer,
+    String,
+)
+
+from fai.db import Base
+from fai.models.db.utils.array_column import ArrayColumn
+from fai.models.types.website_types import Website
+from fai.models.utils.record import TurbopufferRecord
+from fai.settings import CONFIG
+
+
+class WebsiteDb(Base):
+    __tablename__ = "websites"
+    __table_args__ = {"extend_existing": True}
+
+    id = Column(String, primary_key=True)
+    domain = Column(String, nullable=False)
+    base_url = Column(String, nullable=False)
+    page_url = Column(String, nullable=False)
+    chunk = Column(String, nullable=False)
+    document = Column(String, nullable=False)
+    title = Column(String, nullable=True)
+    version = Column(String, nullable=True)
+    product = Column(String, nullable=True)
+    keywords = Column(ArrayColumn(String), nullable=True)
+    authed = Column(Boolean, nullable=True)
+    created_at = Column(DateTime(timezone=True), nullable=False)
+    updated_at = Column(DateTime(timezone=True), nullable=False)
+
+    def to_api(self) -> Website:
+        return Website(
+            website_id=self.id,
+            domain=self.domain,
+            base_url=self.base_url,
+            page_url=self.page_url,
+            chunk=self.chunk,
+            document=self.document,
+            title=self.title,
+            version=self.version,
+            product=self.product,
+            keywords=self.keywords,
+            authed=self.authed,
+            created_at=self.created_at,
+            updated_at=self.updated_at,
+        )
+
+    async def to_tpuf_record(self, openai_client: AsyncOpenAI) -> TurbopufferRecord:
+        embedding = await openai_client.embeddings.create(
+            input=self.chunk,
+            model=CONFIG.DEFAULT_EMBEDDING_MODEL.model_name,
+        )
+        chunk_vector = embedding.data[0].embedding
+        return TurbopufferRecord(
+            id=self.id,
+            vector=chunk_vector,
+            chunk=self.chunk,
+            document=self.document,
+            title=self.title or "",
+            url=self.page_url or "",
+            version=self.version,
+            product=self.product,
+            keywords=self.keywords,
+            authed=self.authed,
+        )
diff --git a/servers/fai/src/fai/models/enums/index_names.py b/servers/fai/src/fai/models/enums/index_names.py
@@ -8,3 +8,4 @@ class DataIndexNames(Enum):
     DOCUMENT = "document"
     GUIDANCE = "guidance"
     SLACK_CONTEXT = "slack_context"
+    WEBSITE = "website"
diff --git a/servers/fai/src/fai/models/types/website_types.py b/servers/fai/src/fai/models/types/website_types.py
@@ -0,0 +1,19 @@
+from datetime import datetime
+
+from pydantic import BaseModel
+
+
+class Website(BaseModel):
+    website_id: str
+    domain: str
+    base_url: str
+    page_url: str
+    chunk: str
+    document: str
+    title: str | None = None
+    version: str | None = None
+    product: str | None = None
+    keywords: list[str] | None = None
+    authed: bool | None = None
+    created_at: datetime
+    updated_at: datetime
diff --git a/servers/fai/src/fai/routes/website.py b/servers/fai/src/fai/routes/website.py
diff --git a/servers/fai/src/fai/utils/turbopuffer/namespace.py b/servers/fai/src/fai/utils/turbopuffer/namespace.py
diff --git a/servers/fai/src/fai/utils/turbopuffer/sync.py b/servers/fai/src/fai/utils/turbopuffer/sync.py

Original file line number	Diff line number	Diff line change
`@@ -37,5 +37,6 @@`
`37`	`37`	`},`
`38`	`38`	`"[typescriptreact]": {`
`39`	`39`	`"editor.defaultFormatter": "biomejs.biome"`
`40`		`- }`
	`40`	`+ },`
	`41`	`+ "typescript.tsserver.maxTsServerMemory": 4096`
`41`	`42`	`}`