web_crawler 使用爬虫爬取 hugging face 的数据介绍网页,清洗并提取有关信息后对其进行分类,使用了 torch,numpy 等常见库 lab1 主要对单个网页进行爬取,并提取了数据简介,数据页面链接,下载次数等信息 lab2 对hugging face全部数据进行爬取,同时记录其标签类型,结构存为csv格式文件 lab3 训练通过数据简介进行大类分类的模型,主要使用了开源模型对文本进行向量化,尝试了SVM以及google_net等网络结构