2023美赛爬虫
update:新增advisor列
美国大学生数学建模竞赛证书爬取及信息OCR识别分析
-
安装tesseractOCR,参考版本:v5.0.1.20220118,其他版本不保证可用,
v5.0.1.20220118下载地址
https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v5.0.1.20220118.exe
-
pip install -r requirements.txt
-
config.py中设置年份、进程数、你的学校、TesseractOCR安装路径等,进程数根据CPU和内存情况设置
-
download.py下载证书,由于有些证书只运行一次部分下载会失败,需要运行多次,确保全部下载
-
pdf2text.py识别学校、姓名、获奖等级、队伍ID等
-
txt_joint.py合并OCR识别的txt结果
-
analysis.ipynb分析数据
2023美赛结果,证书数量20858张,最终识别20818条信息
https://raw.githubusercontent.com/personqianduixue/comap_crawler_2023/master/all/all_2023.txt
2022美赛结果,证书数量27205张,最终识别27161条信息
https://raw.githubusercontent.com/personqianduixue/comap_crawler_2023/master/all/all_2022.txt