TechAtNYU
diff --git a/‎apps/scraper/.gitignore‎
Lines changed: 1 addition & 0 deletions b/‎apps/scraper/.gitignore‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎apps/scraper/drizzle-dev.config.ts‎
Lines changed: 1 addition & 1 deletion b/‎apps/scraper/drizzle-dev.config.ts‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎apps/scraper/drizzle-prod.config.ts‎
Lines changed: 1 addition & 1 deletion b/‎apps/scraper/drizzle-prod.config.ts‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎apps/scraper/package.json‎
Lines changed: 7 additions & 2 deletions b/‎apps/scraper/package.json‎
Lines changed: 7 additions & 2 deletions
diff --git a/‎apps/scraper/src/drizzle/index.ts‎
Lines changed: 2 additions & 2 deletions b/‎apps/scraper/src/drizzle/index.ts‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎apps/scraper/src/drizzle/schema.ts‎
Lines changed: 13 additions & 7 deletions b/‎apps/scraper/src/drizzle/schema.ts‎
Lines changed: 13 additions & 7 deletions
diff --git a/‎apps/scraper/src/index.ts‎
Lines changed: 189 additions & 16 deletions b/‎apps/scraper/src/index.ts‎
Lines changed: 189 additions & 16 deletions
@@ -19,6 +19,7 @@ node_modules/
 .env
 .env.production
 .dev.vars
+.db.env
 
 # logs
 logs/
 
@@ -1,7 +1,7 @@
 import { config } from "dotenv";
 import { defineConfig } from "drizzle-kit";
 
-config({ path: "./.env" });
+config({ path: "./.db.env" });
 
 export default defineConfig({
   out: "./src/drizzle/migrations",
 
@@ -2,7 +2,7 @@
 import { config } from "dotenv";
 import { defineConfig } from "drizzle-kit";
 
-config({ path: "./.env" });
+config({ path: "./.db.env" });
 
 const accountId = process.env.CLOUDFLARE_ACCOUNT_ID!;
 const databaseId = process.env.CLOUDFLARE_DATABASE_ID!;
 
@@ -9,19 +9,24 @@
     "check:types": "tsc --noEmit",
     "db:studio:local": "drizzle-kit studio --config=drizzle-dev.config.ts",
     "db:studio:remote": "drizzle-kit studio --config=drizzle-prod.config.ts",
+    "db:generate": "drizzle-kit generate --config=drizzle-dev.config.ts",
+    "db:migrate:local": "wrangler d1 migrations apply scraper-ops --local",
+    "db:migrate:remote": "wrangler d1 migrations apply scraper-ops --remote",
     "db:push:local": "drizzle-kit push --config=drizzle-dev.config.ts",
     "db:push:remote": "drizzle-kit push --config=drizzle-prod.config.ts",
     "cf-typegen": "wrangler types --env-interface CloudflareBindings"
   },
   "dependencies": {
+    "@dev-team-fall-25/server": "workspace:*",
     "dotenv": "^17.2.3",
     "drizzle-orm": "^0.44.6",
     "hono": "^4.9.10",
-    "zod": "^4.1.12",
-    "@dev-team-fall-25/server": "workspace:*"
+    "nanoid": "^5.1.6",
+    "zod": "^4.1.12"
   },
   "devDependencies": {
     "@biomejs/biome": "2.2.5",
+    "@libsql/client": "^0.15.15",
     "drizzle-kit": "^0.31.5",
     "wrangler": "^4.42.1"
   }
 
@@ -1,7 +1,7 @@
 import { drizzle } from "drizzle-orm/d1";
 
-const createDB = async (env: CloudflareBindings) => {
+const getDB = (env: CloudflareBindings) => {
   return drizzle(env.DB);
 };
 
-export default createDB;
+export default getDB;
@@ -1,13 +1,18 @@
 import { integer, sqliteTable, text } from "drizzle-orm/sqlite-core";
+import { nanoid } from "nanoid";
 
 export const jobs = sqliteTable("jobs", {
-  id: integer("id").primaryKey({ autoIncrement: true }),
+  id: text("id")
+    .primaryKey()
+    .$defaultFn(() => nanoid()),
   url: text("url").notNull(),
   status: text("status", {
     enum: ["pending", "processing", "completed", "failed"],
-  }).notNull(),
+  })
+    .notNull()
+    .default("pending"),
   jobType: text("job_type", {
-    enum: ["discovery", "program", "course"],
+    enum: ["discover-programs", "discover-courses", "program", "course"],
   }).notNull(),
   createdAt: integer("created_at", { mode: "timestamp" })
     .notNull()
@@ -17,13 +22,14 @@ export const jobs = sqliteTable("jobs", {
 });
 
 export const errorLogs = sqliteTable("error_logs", {
-  id: integer("id").primaryKey({ autoIncrement: true }),
-  jobId: integer("job_id").references(() => jobs.id),
+  id: text("id")
+    .primaryKey()
+    .$defaultFn(() => nanoid()),
+  jobId: text("job_id").references(() => jobs.id),
   errorType: text("error_type", {
-    enum: ["network", "parsing", "validation", "timeout"],
+    enum: ["network", "parsing", "validation", "timeout", "unknown"],
   }).notNull(),
   errorMessage: text("error_message").notNull(),
   stackTrace: text("stack_trace"),
-  retryCount: integer("retry_count").notNull(),
   timestamp: integer("timestamp", { mode: "timestamp" }).notNull(),
 });
@@ -1,31 +1,204 @@
-/** biome-ignore-all lint/correctness/noUnusedFunctionParameters: disable for now as they haven't been implemented yet */
+import type {
+  ZUpsertPrerequisites,
+  ZUpsertRequirements,
+} from "@dev-team-fall-25/server/convex/http";
+import { eq } from "drizzle-orm";
 import { Hono } from "hono";
+import type z from "zod";
+import getDB from "./drizzle";
+import { errorLogs, jobs } from "./drizzle/schema";
+import { ConvexApi } from "./lib/convex";
+import { JobError, type JobMessage } from "./lib/queue";
+import { discoverCourses, scrapeCourse } from "./modules/courses";
+import { discoverPrograms, scrapeProgram } from "./modules/programs";
 
 const app = new Hono<{ Bindings: CloudflareBindings }>();
 
 app.get("/", async (c) => {
-  // const db = await createDB(c.env);
+  // const db = await getDB(c.env);
   // TODO: use hono to render a dashboard to monitor the scraping status
+  return c.json({ status: "ok" });
 });
 
 export default {
   fetch: app.fetch,
 
-  async scheduled(event: ScheduledEvent, env: CloudflareBindings) {
-    // const db = await createDB(env);
-    // const api = new ConvexApi({
-    //   baseUrl: env.CONVEX_SITE_URL,
-    //   apiKey: env.CONVEX_API_KEY,
-    // });
-    // TODO: set up jobs for scraping a list of urls need to be scraped and add them to queue as "discovery"
+  async scheduled(_event: ScheduledEvent, env: CloudflareBindings) {
+    // NOTE: the worker will not execute anything for now until the flag for toggle scrapers are set up
+    return;
+    // biome-ignore lint/correctness/noUnreachable: WIP
+    const db = getDB(env);
+
+    // FIXME: need to handle when programsUr or coursesUrl is empty array
+    const programsUrl = new URL("/programs", env.SCRAPING_BASE_URL).toString();
+    const coursesUrl = new URL("/courses", env.SCRAPING_BASE_URL).toString();
+
+    const [[programsJob], [coursesJob]] = await Promise.all([
+      db
+        .insert(jobs)
+        .values({
+          url: programsUrl,
+          jobType: "discover-programs",
+        })
+        .returning(),
+      db
+        .insert(jobs)
+        .values({
+          url: coursesUrl,
+          jobType: "discover-courses",
+        })
+        .returning(),
+    ]);
+
+    await Promise.all([
+      env.SCRAPING_QUEUE.send({ jobId: programsJob.id }),
+      env.SCRAPING_QUEUE.send({ jobId: coursesJob.id }),
+    ]);
   },
 
-  async queue(batch: MessageBatch<Error>, env: CloudflareBindings) {
-    // const db = await createDB(env);
-    // const api = new ConvexApi({
-    //   baseUrl: env.CONVEX_SITE_URL,
-    //   apiKey: env.CONVEX_API_KEY,
-    // });
-    // TODO: set up jobs for scrping given url and save structured data to convex database
+  async queue(
+    batch: MessageBatch<JobMessage>,
+    env: CloudflareBindings,
+    ctx: ExecutionContext,
+  ) {
+    const db = getDB(env);
+    const convex = new ConvexApi({
+      baseUrl: env.CONVEX_SITE_URL,
+      apiKey: env.CONVEX_API_KEY,
+    });
+
+    for (const message of batch.messages) {
+      const { jobId } = message.body;
+
+      const job = await db.select().from(jobs).where(eq(jobs.id, jobId)).get();
+
+      if (!job) {
+        message.ack();
+        continue;
+      }
+
+      ctx.waitUntil(
+        (async () => {
+          try {
+            await db
+              .update(jobs)
+              .set({ status: "processing", startedAt: new Date() })
+              .where(eq(jobs.id, jobId));
+
+            switch (job.jobType) {
+              case "discover-programs": {
+                const programUrls = await discoverPrograms(job.url);
+                const newJobs = await db
+                  .insert(jobs)
+                  .values(
+                    programUrls.map((url) => ({
+                      url,
+                      jobType: "program" as const,
+                    })),
+                  )
+                  .returning();
+
+                await env.SCRAPING_QUEUE.sendBatch(
+                  newJobs.map((j) => ({ body: { jobId: j.id } })),
+                );
+                break;
+              }
+              case "discover-courses": {
+                const courseUrls = await discoverCourses(job.url);
+                const newJobs = await db
+                  .insert(jobs)
+                  .values(
+                    courseUrls.map((url) => ({
+                      url,
+                      jobType: "course" as const,
+                    })),
+                  )
+                  .returning();
+
+                await env.SCRAPING_QUEUE.sendBatch(
+                  newJobs.map((j) => ({ body: { jobId: j.id } })),
+                );
+                break;
+              }
+              case "program": {
+                const res = await scrapeProgram(job.url, db, env);
+
+                const programId = await convex.upsertProgram(res.program);
+
+                if (!programId) {
+                  throw new JobError(
+                    "Failed to upsert program: no ID returned",
+                    "validation",
+                  );
+                }
+
+                // it is safe to assert the type here because the data will be validated before sending the request
+                const newRequirements = res.requirements.map((req) => ({
+                  ...req,
+                  programId: programId,
+                })) as z.infer<typeof ZUpsertRequirements>;
+
+                if (res.requirements.length > 0) {
+                  await convex.upsertRequirements(newRequirements);
+                }
+                break;
+              }
+              case "course": {
+                const res = await scrapeCourse(job.url, db, env);
+
+                const courseId = await convex.upsertCourse(res.course);
+
+                if (!courseId) {
+                  throw new JobError(
+                    "Failed to upsert course: no ID returned",
+                    "validation",
+                  );
+                }
+
+                // it is safe to assert the type here because the data will be validated before sending the request
+                const newPrerequisites = res.prerequisites.map((prereq) => ({
+                  ...prereq,
+                  courseId: courseId,
+                })) as z.infer<typeof ZUpsertPrerequisites>;
+
+                if (res.prerequisites.length > 0) {
+                  await convex.upsertPrerequisites(newPrerequisites);
+                }
+                break;
+              }
+            }
+
+            await db
+              .update(jobs)
+              .set({ status: "completed", completedAt: new Date() })
+              .where(eq(jobs.id, jobId));
+
+            message.ack();
+          } catch (error) {
+            const jobError =
+              error instanceof JobError
+                ? error
+                : new JobError(
+                    error instanceof Error ? error.message : "Unknown error",
+                  );
+
+            await db.insert(errorLogs).values({
+              jobId: jobId,
+              errorType: jobError.type,
+              errorMessage: jobError.message,
+              stackTrace: jobError.stack || null,
+              timestamp: new Date(),
+            });
+
+            await db
+              .update(jobs)
+              .set({ status: "failed" })
+              .where(eq(jobs.id, jobId));
+
+            message.retry();
+          }
+        })(),
+      );
+    }
   },
 };