Skip to content

用python开发的小红书蒲公英爬虫采集gui界面软件工具,自动爬取蒲公英平台上的各种博主达人数据。小红书爬虫|蒲公英爬虫|小红书采集工具|小红书蒲公英采集|小红书采集软件|小红书爬取数据|xiaohongshu|xhs|XHS|pgy

Notifications You must be signed in to change notification settings

mashukui/pgy_spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 

Repository files navigation

pgy_spider

马哥原创:用python开发的小红书蒲公英采集软件,一键自动采集蒲公英平台上的达人数据。

一、背景介绍

1.0 爬取目标

爬取目标

众所周知,蒲公英是小红书推出的优质创作者商业合作服务平台,致力于为品牌和博主提供内容合作服务,可以高效的为品牌匹配出最符合的优质博主。 蒲公英平台,需要有一定权限的企业资质账号才能申请开通。开通之后,进入【寻找博主】页面,即可根据一定的筛选条件过滤出满足的博主列表,如下: 寻找博主页面

上面是筛选条件,下面是筛选结果。

爬虫功能分为2大类模块:第一是根据筛选条件爬取博主列表,第二是根据爬取到的博主id进入详情页面爬取详细数据。

详情页如下: 某个博主的详情页

通过分析网页接口,开发出了爬虫GUI软件,界面如下:(目前已升至v2.3版)蒲公英v2 3

共爬取到34个字段,字段如下:

爬取到的字段

详细演示数据:(看《蒲公英》这个sheet页)

https://docs.qq.com/sheet/DVEFhZlFKR1NXVEdN?tab=suenot

1.1 演示视频

软件操作演示视频:【爬虫软件】批量采集小红书蒲公英博主信息

1.2 软件说明

重要说明,请详读:

1. Windows用户可直接双击打开使用无需Python运行环境非常方便2. 需要在cookie.txt中填入cookie值持久存储方便长期使用支持自动化一键配置
3. 支持筛选笔记搜索关键词笔记类型(不限/图文笔记为主/视频笔记为主)、粉丝数量图文报价搜索页范围4. 爬取过程中有log文件详细记录运行过程方便回溯
5. 爬取过程中自动保存结果到csv文件每爬一条存一次防止数据丢失6. 可爬34个关键字段关键词,页码,小红书昵称,小红书号,地址,机构,数据更新至,小红书链接,粉丝数,账号类型,图文报价,视频报价,合作笔记数,预估阅读单价_图文,图文3秒阅读,日常_阅读中位数,日常_互动中位数,日常_阅读来源发现页占比,日常_阅读来源搜索页占比,合作_阅读中位数,合作_互动中位数,合作_阅读来源发现页占比,合作_阅读来源搜索页占比,女性粉丝占比,年龄占比最多的,账号评估,合作笔记1阅读数,合作笔记2阅读数,合作笔记3阅读数,合作笔记4阅读数,合作笔记5阅读数,合作笔记6阅读数,合作笔记7阅读数,合作笔记8阅读数7. 以上爬取字段已经包含如无法满足个性化要求可定制开发接口已调通

以上。

二、代码讲解

2.0 关于接口

由于采集字段较多,开发者模式中分析接口不止一个,采集程序整合多个接口开发而成,归纳如下:

  1. 博主列表接口
  2. 日常笔记接口
  3. 合作笔记接口
  4. 粉丝数接口
  5. 阅读单价接口
  6. 合作笔记阅读数接口
  7. 所属机构接口

以上。

2.1 爬虫采集模块

此软件开发成本较高,代码量大、实现逻辑复杂,为保护个人知识版权,防止恶意盗版软件,不展示爬虫核心代码。

2.2 一键配置cookie

开始采集前,先用内置的《cookie小工具》自动配置好cookie。 ScreenShot_2026-02-04_074716_952 这样,获取到的cookie值就自动写入cookie.txt文件中了,告别繁琐的手动获取。

2.3 软件界面模块

主窗口部分:

# 创建主窗口
root = tk.Tk()
root.title('蒲公英爬虫v2.0 | 马哥python说')
# 设置窗口大小
root.minsize(width=850, height=650)

部分界面控件:

# 笔记关键词
tk.Label(root, justify='left', text='笔记关键词:').place(x=30, y=65)
entry_kw = tk.Text(root, bg='#ffffff', width=22, height=2, )
entry_kw.place(x=105, y=65, anchor='nw')  # 摆放位置

日志输出控件:

# 运行日志
tk.Label(root, justify='left', text='运行日志:').place(x=30, y=250)
show_list_Frame = tk.Frame(width=780, height=300)  # 创建<消息列表分区>
show_list_Frame.pack_propagate(0)
show_list_Frame.place(x=30, y=270, anchor='nw')  # 摆放位置

2.4 日志模块

好的日志功能,方便软件运行出问题后快速定位原因,修复bug。

核心代码:

def get_logger(self):
	self.logger = logging.getLogger(__name__)
	# 日志格式
	formatter = '[%(asctime)s-%(filename)s][%(funcName)s-%(lineno)d]--%(message)s'
	# 日志级别
	self.logger.setLevel(logging.DEBUG)
	# 控制台日志
	sh = logging.StreamHandler()
	log_formatter = logging.Formatter(formatter, datefmt='%Y-%m-%d %H:%M:%S')
	# info日志文件名
	info_file_name = time.strftime("%Y-%m-%d") + '.log'
	# 将其保存到特定目录
	case_dir = r'./logs/'
	info_handler = TimedRotatingFileHandler(filename=case_dir + info_file_name,
						when='MIDNIGHT',
						interval=1,
						backupCount=7,
						encoding='utf-8')

软件运行过程中生成的日志文件: log文件

三、付费说明

3.1 卡密说明

费用如下:

日卡使用期限1天39日卡仅能购买一次适合试用等临时需求
月卡使用期限1个月199月卡可多次购买适合短期采集需求
季卡使用期限3个月499季卡可多次购买适合中期采集需求
年卡使用期限1年999年卡可多次购买适合长期采集需求

方式一:自助开通(推荐)

开通入口:https://mgnb.pro/product/pgy

方式二:自助开通

开通入口:https://kjyjf.xetlk.com/s/2uCpIG

方式三:手动开通,付费后加v(493882434)对接 收款码v5

3.2 一机一码

为防止软件被恶意转卖,采用一机一码机制,一个卡密只能在一台电脑运行、不可多电脑运行

3.3 软件多开

一台电脑仅允许运行一个软件,不支持软件多开。

3.4 软件维护

软件由本人独立原创开发,长期维护更新,提供稳定运行​。

四、软件首发

公众号"老男孩的平凡之路",后台回复"爬蒲公英软件"获取最新版软件安装包。 二维码-公众号放底部v2

About

用python开发的小红书蒲公英爬虫采集gui界面软件工具,自动爬取蒲公英平台上的各种博主达人数据。小红书爬虫|蒲公英爬虫|小红书采集工具|小红书蒲公英采集|小红书采集软件|小红书爬取数据|xiaohongshu|xhs|XHS|pgy

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published