Update summarize_applications.py

reginankenchor · web-flow · commit 7540fa5613f1 · 2025-07-21T12:59:16.000+01:00
diff --git a/.github/scripts/summarize_applications.py b/.github/scripts/summarize_applications.py
@@ -2,101 +2,86 @@
 import csv
 import re
 from github import Github
+from openpyxl import Workbook
 
-# Load secrets
+# Setup GitHub token and repo from environment
 GITHUB_TOKEN = os.getenv("GITHUB_TOKEN")
 GITHUB_REPOSITORY = os.getenv("GITHUB_REPOSITORY")
-
-# Authenticate with GitHub
 g = Github(GITHUB_TOKEN)
 repo = g.get_repo(GITHUB_REPOSITORY)
 
-print("🔍 Fetching ambassador issues (open only)...")
-issues = repo.get_issues(state="open", labels=["ambassador"])
-
-submissions = []
+print("📥 Fetching GitHub issues...")
+issues = list(repo.get_issues(state='open', labels=['ambassador']))
+print(f"🔍 Total issues fetched: {len(issues)}")
 
-def extract_value(label, body):
-    match = re.search(rf"{label}\s*\n\s*(.+?)(?:\n|$)", body)
+# Markdown extractor
+def extract(label, body):
+    match = re.search(rf"{re.escape(label)}\s*\n\s*(.+?)(\n|$)", body)
     return match.group(1).strip() if match else ""
 
-def extract_checkboxes(body):
-    boxes = re.findall(r"- \[x\] (.+)", body, re.IGNORECASE)
-    return "\n".join(f"- {b.strip()}" for b in boxes)
-
+# Extracted field definitions
+submissions = []
 for issue in issues:
     body = issue.body or ""
-
-    nominee_name = extract_value("Nominee Name", body)
-    nominee_email = extract_value("Nominee Email", body)
-    github_handle = extract_value("Nominee's GitHub or GitLab Handle", body)
-    organization = extract_value("Organization / Affiliation", body)
-    location = extract_value("City, State/Province, Country", body)
-    nominator_name = extract_value("Your Name", body)
-    nominator_email = extract_value("Your Email", body)
-    ambassador_pitch = extract_value("🏆 How Would the Nominee Contribute as an Ambassador?", body)
-    additional_info = extract_value("Any additional details you'd like to share?", body)
-    contributions = extract_checkboxes(body)
-
-    # Compose the Submission Summary
-    summary_parts = []
-    if github_handle:
-        summary_parts.append(f"GitHub Handle: {github_handle}")
-    if contributions:
-        summary_parts.append(f"Contributions:\n{contributions}")
-    if ambassador_pitch:
-        summary_parts.append(f"Ambassador Pitch:\n{ambassador_pitch}")
-    if additional_info:
-        summary_parts.append(f"Additional Info:\n{additional_info}")
-
-    submission_summary = "\n\n".join(summary_parts)
-
-    submissions.append({
+    entry = {
         "Issue #": issue.number,
-        "Nominee Name": nominee_name,
-        "Nominee Email": nominee_email,
-        "Organization": organization,
-        "Location": location,
-        "Nominator Name": nominator_name,
-        "Nominator Email": nominator_email,
-        "Submission Summary": submission_summary
-    })
-
-print(f"📄 Total submissions found: {len(submissions)}")
+        "Nominee Name": extract("Nominee Name", body),
+        "Nominee Email": extract("Nominee Email", body),
+        "GitHub Handle": extract("Nominee's GitHub or GitLab Handle", body),
+        "Organization": extract("(Optional) Organization / Affiliation", body),
+        "Location": extract("City, State/Province, Country", body),
+        "Nominator Name": extract("Your Name", body),
+        "Nominator Email": extract("Your Email (Optional)", body),
+        "Contribution Checkboxes": "; ".join(re.findall(r"- \[x\] (.+)", body, re.IGNORECASE)),
+        "Ambassador Pitch": extract("🏆 How Would the Nominee Contribute as an Ambassador?", body),
+        "Additional Info": extract("Any additional details you'd like to share?", body)
+    }
+
+    # Construct clean submission summary
+    summary = f"""Contributions:\n{entry['Contribution Checkboxes']}
+
+Ambassador Nomination Statement:\n{entry['Ambassador Pitch']}
+
+GitHub Handle:\n{entry['GitHub Handle']}
+
+Additional Info:\n{entry['Additional Info']}"""
+    entry["Submission Summary"] = summary
+    submissions.append(entry)
+
+# Deduplicate by nominee email (fallback to name)
 print("🧹 Deduplicating...")
-
-# Deduplicate by email, fallback to name
-deduped = {}
-for entry in sorted(submissions, key=lambda x: x["Issue #"], reverse=True):
-    key = entry["Nominee Email"].lower() if entry["Nominee Email"] else entry["Nominee Name"].lower()
-    if key not in deduped:
-        deduped[key] = entry
-
-deduped_list = list(deduped.values())
-duplicates = [s for s in submissions if s not in deduped_list]
-
-# Save results
+latest = {}
+for s in sorted(submissions, key=lambda x: x["Issue #"], reverse=True):
+    key = (s["Nominee Email"] or s["Nominee Name"]).lower()
+    if key not in latest:
+        latest[key] = s
+deduped = list(latest.values())
+duplicates = [s for s in submissions if s not in deduped]
+
+# Output folder
 os.makedirs("ambassador", exist_ok=True)
 
-with open("ambassador/submissions_all.csv", "w", newline='', encoding="utf-8") as f:
+# Save raw submissions
+with open("ambassador/submissions_all_raw.csv", "w", newline='', encoding='utf-8') as f:
     writer = csv.DictWriter(f, fieldnames=submissions[0].keys())
     writer.writeheader()
     writer.writerows(submissions)
 
-with open("ambassador/submissions_deduped.csv", "w", newline='', encoding="utf-8") as f:
-    writer = csv.DictWriter(f, fieldnames=deduped_list[0].keys())
+# Save deduplicated
+with open("ambassador/submissions_deduplicated.csv", "w", newline='', encoding='utf-8') as f:
+    writer = csv.DictWriter(f, fieldnames=deduped[0].keys())
     writer.writeheader()
-    writer.writerows(deduped_list)
-
-if duplicates:
-    with open("ambassador/submissions_duplicates.csv", "w", newline='', encoding="utf-8") as f:
-        writer = csv.DictWriter(f, fieldnames=duplicates[0].keys())
-        writer.writeheader()
-        writer.writerows(duplicates)
+    writer.writerows(deduped)
 
-print("✅ Extraction and deduplication complete.")
-print("📁 Files created in ambassador/:")
-print("  - submissions_all.csv")
-print("  - submissions_deduped.csv")
+# Save duplicates to Excel
 if duplicates:
-    print("  - submissions_duplicates.csv")
+    wb = Workbook()
+    ws = wb.active
+    ws.title = "Duplicates Removed"
+    ws.append(list(duplicates[0].keys()))
+    for row in duplicates:
+        ws.append([row.get(k, "") for k in duplicates[0].keys()])
+    wb.save("ambassador/submissions_duplicates_removed.xlsx")
+    print("📄 Duplicates saved to ambassador/submissions_duplicates_removed.xlsx")
+
+print("✅ Done: All submission data saved.")