reduxjs
diff --git a/‎packages/toolkit/scripts/issue-triage/src/index.ts‎
Lines changed: 82 additions & 2 deletions b/‎packages/toolkit/scripts/issue-triage/src/index.ts‎
Lines changed: 82 additions & 2 deletions
diff --git a/‎packages/toolkit/scripts/issue-triage/src/similarity/clusters.ts‎
Lines changed: 124 additions & 0 deletions b/‎packages/toolkit/scripts/issue-triage/src/similarity/clusters.ts‎
Lines changed: 124 additions & 0 deletions
diff --git a/‎packages/toolkit/scripts/issue-triage/src/similarity/duplicates.ts‎
Lines changed: 57 additions & 0 deletions b/‎packages/toolkit/scripts/issue-triage/src/similarity/duplicates.ts‎
Lines changed: 57 additions & 0 deletions
diff --git a/‎packages/toolkit/scripts/issue-triage/src/similarity/index.ts‎
Lines changed: 5 additions & 0 deletions b/‎packages/toolkit/scripts/issue-triage/src/similarity/index.ts‎
Lines changed: 5 additions & 0 deletions
@@ -8,6 +8,7 @@ import { writeFile } from 'fs/promises'
 import { GitHubClient, checkGhCli } from './github/gh-client.js'
 import { GhCliError, GhApiError, GhParseError } from './utils/errors.js'
 import { categorizeIssues, CATEGORIES } from './categorize/index.js'
+import { findAllDuplicates, createWorkClusters } from './similarity/index.js'
 
 async function main() {
   console.log('GitHub Issues Triage Tool v1.0.0')
@@ -89,7 +90,20 @@ async function main() {
     console.log(`  ✅ Easy Fix: ${easyFixCount}`)
     console.log(`  🏷️  Needs Triage: ${needsTriageCount}`)
 
-    // Step 7: Display sample categorized issues
+    // Step 7: Run similarity detection
+    console.log('\n🔍 Running Similarity Detection')
+    console.log('================================')
+
+    const startTime = Date.now()
+    const duplicateGroups = findAllDuplicates(issues)
+    const workClusters = createWorkClusters(issues)
+    const endTime = Date.now()
+
+    console.log(`✓ Similarity detection completed in ${endTime - startTime}ms`)
+    console.log(`  Found ${duplicateGroups.length} potential duplicate groups`)
+    console.log(`  Created ${workClusters.length} work clusters`)
+
+    // Step 8: Display sample categorized issues
     if (issues.length > 0) {
       console.log('\n📝 Sample Categorized Issues')
       console.log('============================\n')
@@ -127,7 +141,50 @@ async function main() {
       }
     }
 
-    // Step 8: Export categorization results to JSON
+    // Step 9: Display sample similarity results
+    if (duplicateGroups.length > 0) {
+      console.log('\n🔄 Sample Duplicate Groups')
+      console.log('==========================\n')
+
+      const samplesToShow = Math.min(3, duplicateGroups.length)
+      for (let i = 0; i < samplesToShow; i++) {
+        const group = duplicateGroups[i]
+        console.log(
+          `Primary Issue #${group.primary.number}: ${group.primary.title}`,
+        )
+        console.log(`  Potential duplicates: ${group.duplicates.length}`)
+        for (const dup of group.duplicates.slice(0, 2)) {
+          console.log(`    - #${dup.issue.number}: ${dup.issue.title}`)
+          console.log(`      Confidence: ${(dup.confidence * 100).toFixed(0)}%`)
+        }
+        console.log('')
+      }
+    }
+
+    if (workClusters.length > 0) {
+      console.log('\n📦 Sample Work Clusters')
+      console.log('=======================\n')
+
+      const samplesToShow = Math.min(3, workClusters.length)
+      for (let i = 0; i < samplesToShow; i++) {
+        const cluster = workClusters[i]
+        console.log(
+          `Cluster ${cluster.id}: ${cluster.category}${cluster.subcategory ? `/${cluster.subcategory}` : ''}`,
+        )
+        console.log(`  Issues: ${cluster.issues.length}`)
+        console.log(`  Priority: ${cluster.priority.toFixed(1)}`)
+        console.log(
+          `  Avg Complexity: ${cluster.metrics.avgComplexity.toFixed(0)}`,
+        )
+        console.log(
+          `  Estimated Effort: ${cluster.metrics.estimatedEffort} days`,
+        )
+        console.log(`  Reasoning: ${cluster.reasoning}`)
+        console.log('')
+      }
+    }
+
+    // Step 10: Export categorization results to JSON
     console.log('\n💾 Exporting categorization results...')
     const outputPath = 'cache/categorization-results.json'
 
@@ -147,6 +204,29 @@ async function main() {
           needsTriage: needsTriageCount,
         },
       },
+      similarity: {
+        duplicateGroups: duplicateGroups.map((group) => ({
+          primary: {
+            number: group.primary.number,
+            title: group.primary.title,
+          },
+          duplicates: group.duplicates.map((dup) => ({
+            number: dup.issue.number,
+            title: dup.issue.title,
+            confidence: dup.confidence,
+            signals: dup.signals,
+          })),
+        })),
+        workClusters: workClusters.map((cluster) => ({
+          id: cluster.id,
+          category: cluster.category,
+          subcategory: cluster.subcategory,
+          issueNumbers: cluster.issues.map((i) => i.number),
+          metrics: cluster.metrics,
+          reasoning: cluster.reasoning,
+          priority: cluster.priority,
+        })),
+      },
       items: categorizedItems.map((item) => ({
         number: item.number,
         title: item.title,
 
@@ -0,0 +1,124 @@
+import type { CategorizedIssue } from '../categorize/types.js'
+import type { WorkCluster } from './types.js'
+import { groupBy } from './utils.js'
+
+/**
+ * Create work clusters from categorized issues
+ * Groups related issues that could be worked on together
+ */
+export function createWorkClusters(issues: CategorizedIssue[]): WorkCluster[] {
+  // Group by subcategory
+  const bySubcategory = groupBy(
+    issues,
+    (issue) =>
+      `${issue.categorization.primary}/${issue.categorization.secondary || 'other'}`,
+  )
+
+  const clusters: WorkCluster[] = []
+
+  for (const [category, groupIssues] of Object.entries(bySubcategory)) {
+    if (groupIssues.length < 2) continue
+
+    // Sort by priority (urgency × engagement)
+    const sorted = groupIssues
+      .map((issue) => ({
+        issue,
+        priority: issue.scores.urgency * issue.scores.engagement,
+      }))
+      .sort((a, b) => b.priority - a.priority)
+
+    // Create clusters of 3-5 issues
+    for (let i = 0; i < sorted.length; i += 4) {
+      const clusterIssues = sorted.slice(i, i + 5).map((s) => s.issue)
+      if (clusterIssues.length < 2) continue
+
+      const metrics = calculateClusterMetrics(clusterIssues)
+
+      // Skip clusters that are too easy or too hard
+      if (metrics.avgComplexity < 30 || metrics.avgComplexity > 80) continue
+
+      const [primary, secondary] = category.split('/')
+
+      const cluster: WorkCluster = {
+        id: `cluster-${clusters.length + 1}`,
+        category: primary,
+        subcategory: secondary !== 'other' ? secondary : undefined,
+        issues: clusterIssues,
+        metrics,
+        reasoning: generateClusterReasoning(clusterIssues, category),
+        priority: calculateClusterPriority(metrics),
+      }
+
+      clusters.push(cluster)
+    }
+  }
+
+  return clusters.sort((a, b) => b.priority - a.priority).slice(0, 10) // Top 10 clusters
+}
+
+/**
+ * Calculate aggregate metrics for a cluster of issues
+ */
+function calculateClusterMetrics(issues: CategorizedIssue[]) {
+  const complexities = issues.map((i) => i.scores.complexity)
+  const engagements = issues.map((i) => i.scores.engagement)
+  const urgencies = issues.map((i) => i.scores.urgency)
+
+  return {
+    avgComplexity: average(complexities),
+    totalEngagement: sum(engagements),
+    avgUrgency: average(urgencies),
+    estimatedEffort: estimateEffort(average(complexities), issues.length),
+  }
+}
+
+/**
+ * Generate reasoning text for why issues are clustered together
+ */
+function generateClusterReasoning(
+  issues: CategorizedIssue[],
+  category: string,
+): string {
+  const [primary, secondary] = category.split('/')
+  return `All issues in ${primary}${secondary !== 'other' ? `/${secondary}` : ''} category with related functionality`
+}
+
+/**
+ * Calculate priority score for a cluster
+ * Higher scores indicate more important clusters to work on
+ */
+function calculateClusterPriority(metrics: {
+  totalEngagement: number
+  avgComplexity: number
+  avgUrgency: number
+}): number {
+  return (
+    (metrics.totalEngagement / 100) * 0.4 +
+    (100 - Math.abs(metrics.avgComplexity - 55)) * 0.3 +
+    metrics.avgUrgency * 0.2 +
+    10 * 0.1
+  )
+}
+
+/**
+ * Calculate average of an array of numbers
+ */
+function average(numbers: number[]): number {
+  return numbers.reduce((a, b) => a + b, 0) / numbers.length
+}
+
+/**
+ * Calculate sum of an array of numbers
+ */
+function sum(numbers: number[]): number {
+  return numbers.reduce((a, b) => a + b, 0)
+}
+
+/**
+ * Estimate effort in days based on complexity and issue count
+ */
+function estimateEffort(avgComplexity: number, issueCount: number): number {
+  // Rough estimate: 50 complexity = 1 day
+  const baseEffort = avgComplexity / 50
+  return Math.round(baseEffort * issueCount * 10) / 10
+}
@@ -0,0 +1,57 @@
+import type { CategorizedIssue } from '../categorize/types.js'
+import type { DuplicateGroup, SimilarityResult } from './types.js'
+import { calculateSimilarity } from './similarity.js'
+
+/**
+ * Find potential duplicates for all issues
+ * Returns groups where each group has a primary issue and its duplicates
+ */
+export function findAllDuplicates(
+  issues: CategorizedIssue[],
+): DuplicateGroup[] {
+  const duplicateGroups: DuplicateGroup[] = []
+  const processed = new Set<number>()
+
+  for (const issue of issues) {
+    if (processed.has(issue.number)) continue
+
+    const duplicates = findPotentialDuplicates(issue, issues).filter(
+      (result) => result.confidence !== 'low',
+    )
+
+    if (duplicates.length > 0) {
+      duplicateGroups.push({
+        primary: issue,
+        duplicates: duplicates.map((result) => ({
+          issue: issues.find((i) => i.number === result.issue2)!,
+          confidence: result.score,
+          signals: result.signals,
+        })),
+      })
+
+      // Mark all as processed
+      processed.add(issue.number)
+      duplicates.forEach((d) => processed.add(d.issue2))
+    }
+  }
+
+  return duplicateGroups.sort(
+    (a, b) => b.duplicates.length - a.duplicates.length,
+  )
+}
+
+/**
+ * Find potential duplicates for a single issue
+ * Returns up to 5 most similar issues with medium or high confidence
+ */
+export function findPotentialDuplicates(
+  issue: CategorizedIssue,
+  allIssues: CategorizedIssue[],
+): SimilarityResult[] {
+  return allIssues
+    .filter((other) => other.number !== issue.number)
+    .map((other) => calculateSimilarity(issue, other))
+    .filter((result) => result.score >= 0.6) // Medium confidence threshold
+    .sort((a, b) => b.score - a.score)
+    .slice(0, 5) // Top 5 potential duplicates
+}
@@ -0,0 +1,5 @@
+export * from './types.js'
+export * from './similarity.js'
+export * from './duplicates.js'
+export * from './clusters.js'
+export * from './utils.js'