Update summarize_applications.py

reginankenchor · web-flow · commit 7e1451c4ba24 · 2025-07-21T11:06:44.000+01:00
diff --git a/.github/scripts/summarize_applications.py b/.github/scripts/summarize_applications.py
@@ -2,90 +2,86 @@
 import csv
 import re
 from github import Github
+from openpyxl import Workbook
 
-# Step 0: Setup environment
+# Get GitHub token and repository name
 GITHUB_TOKEN = os.getenv("GITHUB_TOKEN")
 GITHUB_REPOSITORY = os.getenv("GITHUB_REPOSITORY")
 
-# Step 1: Authenticate GitHub
+# Authenticate with GitHub
 g = Github(GITHUB_TOKEN)
 repo = g.get_repo(GITHUB_REPOSITORY)
 
-print("📥 Fetching GitHub issues...")
-issues = list(repo.get_issues(state='all', labels=['ambassador']))
-print(f"🔍 Total issues fetched: {len(issues)}")
+print("📥 Fetching open GitHub issues labeled 'ambassador'...")
+issues = list(repo.get_issues(state='open', labels=['ambassador']))
+print(f"🔍 Total open issues fetched: {len(issues)}")
 
-# Helper: Extract value from GitHub issue template body
+# Helper to extract a field from the issue body
 def extract(label, body):
-    match = re.search(rf"{label}\s*\n\s*(.+)", body)
+    match = re.search(rf"{re.escape(label)}\s*\n\s*(.+)", body)
     return match.group(1).strip() if match else ""
 
-# Step 2: Extract submission data
+# Extract structured data from each issue
 submissions = []
 for issue in issues:
     body = issue.body or ""
     entry = {
         "Issue #": issue.number,
         "Nominee Name": extract("Nominee Name", body),
         "Nominee Email": extract("Nominee Email", body),
-        "Organization": extract("Organization / Affiliation", body),
+        "GitHub Handle": extract("Nominee's GitHub or GitLab Handle", body),
+        "Organization": extract("(Optional) Organization / Affiliation", body),
         "Location": extract("City, State/Province, Country", body),
-        "Contributions": extract("Relevant Contributions and Links", body),
-        "Ambassador Pitch": extract("Why do you want to be a PyTorch Ambassador?", body),
-        "Extra Notes": extract("Additional Notes or Comments", body),
-        "Nominate Others": extract("I would like to nominate contributors", body),
-        "Additional Info": extract("Any other information", body)
+        "Your Name": extract("Your Name", body),
+        "Your Email": extract("Your Email (Optional)", body),
+        "Submission Summary": "\n\n".join([
+            f"Nominee Self/Nominated: {extract('Select one:', body)}",
+            f"Requirements Acknowledged: {extract('Please confirm that the nominee meets the following requirements:', body)}",
+            f"Contributions: {extract('How has the nominee contributed to PyTorch?', body)}",
+            f"Ambassador Pitch: {extract('🏆 How Would the Nominee Contribute as an Ambassador?', body)}",
+            f"Additional Info: {extract('Any additional details you\'d like to share?', body)}"
+        ])
     }
     submissions.append(entry)
 
-print("🧹 Deduplicating...")
+print("🧹 Deduplicating by email or name...")
 
-# Step 3: Deduplicate — keep latest per email/name
+# Deduplication logic: keep latest (by issue #), use email if available
 latest_submissions = {}
-seen_keys = set()
-
 for entry in sorted(submissions, key=lambda x: x["Issue #"], reverse=True):
     key = entry["Nominee Email"].lower() if entry["Nominee Email"] else entry["Nominee Name"].lower()
-    if key not in latest_submissions:
+    if key and key not in latest_submissions:
         latest_submissions[key] = entry
-        seen_keys.add(key)
 
 deduped = list(latest_submissions.values())
+duplicates = [s for s in submissions if s not in deduped]
 
-# Step 4: Track duplicates
-duplicates = []
-seen_keys_copy = seen_keys.copy()  # prevent modifying original while checking
-for entry in submissions:
-    key = entry["Nominee Email"].lower() if entry["Nominee Email"] else entry["Nominee Name"].lower()
-    if key in seen_keys_copy:
-        seen_keys_copy.remove(key)  # keep only the first seen (i.e., latest)
-    else:
-        duplicates.append(entry)
-
-# Step 5: Ensure output directory exists
-output_dir = "ambassador/output_step1"
-os.makedirs(output_dir, exist_ok=True)
+# Ensure output folder
+os.makedirs("ambassador", exist_ok=True)
 
-# Step 6: Write full submissions
-with open(os.path.join(output_dir, "ambassador_submissions_full.csv"), "w", newline='', encoding="utf-8") as f:
+# Write raw submissions
+with open("ambassador/submissions_all_raw.csv", "w", newline='', encoding="utf-8") as f:
     writer = csv.DictWriter(f, fieldnames=submissions[0].keys())
     writer.writeheader()
     writer.writerows(submissions)
 
-# Step 7: Write deduplicated submissions
-with open(os.path.join(output_dir, "ambassador_submissions_deduped.csv"), "w", newline='', encoding="utf-8") as f:
+# Write deduplicated submissions
+with open("ambassador/submissions_deduplicated.csv", "w", newline='', encoding="utf-8") as f:
     writer = csv.DictWriter(f, fieldnames=deduped[0].keys())
     writer.writeheader()
     writer.writerows(deduped)
 
-# Step 8: Write duplicates removed
+# Write duplicates to Excel if any
 if duplicates:
-    with open(os.path.join(output_dir, "duplicates_removed.csv"), "w", newline='', encoding="utf-8") as f:
-        writer = csv.DictWriter(f, fieldnames=duplicates[0].keys())
-        writer.writeheader()
-        writer.writerows(duplicates)
-    print(f"🗂️ Duplicates written to {output_dir}/duplicates_removed.csv")
+    wb = Workbook()
+    ws = wb.active
+    ws.title = "Duplicates Removed"
+    ws.append(list(duplicates[0].keys()))
+    for d in duplicates:
+        ws.append([d.get(k, "") for k in ws[1]])
+    wb.save("ambassador/submissions_duplicates_removed.xlsx")
+    print("🗂️ Duplicates written to ambassador/submissions_duplicates_removed.xlsx")
 else:
     print("✅ No duplicates found.")
 
-print("✅ Step 1 complete: Extraction + Deduplication done.")
+print("🎉 Done: Data extracted and files saved.")