simplify attendance script

afeld · afeld · commit 49bb50795e58 · 2025-03-15T01:19:53.000-04:00
diff --git a/extras/scripts/attendance.py b/extras/scripts/attendance.py
@@ -1,71 +1,54 @@
 import pandas as pd
 
+NUM_CLASSES = 7
+TOP_SCORE = NUM_CLASSES
+FREEBIES = 1
+
 file_path = (
-    "/content/attendance_reports_attendance-264e4d14-1765-4396-b311-4d927b59566d.csv"
+    "~/Downloads/attendance_reports_attendance-264e4d14-1765-4396-b311-4d927b59566d.csv"
 )
-df = pd.read_csv(file_path)
-
-df.columns = df.columns.str.strip()
-df = df.rename(
-    columns={
-        "Course ID": "Section Name",
-        "Student ID": "Student Name",
-        "Class Date": "Date",
-        "Attendance": "Status",
-    }
+entries = pd.read_csv(
+    file_path,
+    index_col=False,
+    usecols=[
+        "Section Name",
+        "Student Name",
+        "Student ID",
+        "Class Date",
+        "Attendance",
+    ],
+    parse_dates=["Class Date"],
 )
 
-df = df[["Section Name", "Student Name", "Date", "Status"]]
-df = df.apply(lambda x: x.str.strip() if x.dtype == "object" else x)
-df = df.reset_index(drop=True)
-df["Date"] = pd.to_datetime(df["Date"], format="%m/%d/%y", errors="coerce")
-df = df.loc[:, ~df.columns.duplicated()]
-
-total_classes = df["Date"].nunique()
-
-
-attendance_counts = (
-    df.groupby(["Student Name", "Date"])["Status"]
-    .apply(lambda x: (x == "present").sum())
-    .reset_index()
+# pull the section number out
+entries["Section"] = (
+    entries["Section Name"].str.extract(r"INAFU6504_(\d{3})_").astype(int)
 )
 
-total_attended = attendance_counts.groupby("Student Name")["Status"].sum().reset_index()
-total_attended.columns = ["Student Name", "Total Attended"]
+# TODO deal with students who switch sections
 
-students_all_present = total_attended[
-    total_attended["Total Attended"] == total_classes
-]["Student Name"].tolist()
-students_missed_one = total_attended[
-    total_attended["Total Attended"] == total_classes - 1
-]["Student Name"].tolist()
+recording_counts = entries.groupby(["Student ID", "Student Name"]).size()
+print("Students missing entries:\n")
+print(recording_counts[recording_counts < NUM_CLASSES])
 
-filtered_students = pd.DataFrame(
-    {
-        "Student Name": students_all_present + students_missed_one,
-        "Attendance Status": ["All Present"] * len(students_all_present)
-        + ["Missed One"] * len(students_missed_one),
-    }
-)
+total_classes = entries["Class Date"].nunique()
+assert total_classes == NUM_CLASSES
 
-# students who missed more than one class
-students_missed_more_than_one = total_attended[
-    total_attended["Total Attended"] < total_classes - 1
-]["Student Name"].tolist()
+attended = entries[entries["Attendance"] == "present"]
+attendance_counts = attended.groupby(["Student ID", "Student Name"]).size()
+# print("\n-------------------\nAttendance counts:\n")
+# print(attendance_counts)
 
-missed_more_than_one_df = pd.DataFrame(
-    {
-        "Student Name": students_missed_more_than_one,
-        "Attendance Status": ["Missed More Than One"]
-        * len(students_missed_more_than_one),
-    }
-)
+# factor in the freebies
+scores = attendance_counts + FREEBIES
+scores[scores > TOP_SCORE] = TOP_SCORE
+# print(scores)
 
-pd.set_option("display.max_rows", None)
-pd.set_option("display.max_columns", None)
-pd.set_option("display.expand_frame_repr", False)
+# TODO write to CSV
+# https://community.canvaslms.com/t5/Instructor-Guide/How-do-I-import-grades-in-the-Gradebook/ta-p/807
 
-print("Students who attended all classes or missed only one:")
-print(filtered_students)
-print("\nStudents who missed more than one class:")
-print(missed_more_than_one_df)
+lowered_scores = scores[scores < TOP_SCORE]
+print(
+    f"\n-------------------\nScores for students who missed more than {FREEBIES} class(es):\n"
+)
+print(lowered_scores.sort_values())