Refactor: benchmark dataset too small for meaningful accuracy measurement

Current dataset has 20 synthetic traces. This validates basic functionality but is not enough to measure real-world accuracy or compare prompt strategies reliably.\n\n**Goal:** expand dataset to at least 50–100 traces covering edge cases and mixed-signal scenarios.