有了 25k Star 的MediaCrawler爬虫库加持，三分钟搞定某红书、某音等平台爬取！

大家好，我是`程序员凌览` 。

今天给大家介绍一个超实用的**Python爬虫实战项目——MediaCrawler**。

这个项目可以实现小红书、抖音、快手、B站和微博的爬虫功能，覆盖了当下热门的自媒体平台。

它能够高效抓取这些平台上的视频、图片、评论、点赞和转发等信息。

![](http://linglan008-blog.oss-cn-hangzhou.aliyuncs.com/image_20250707162419.png)

MediaCrawler 支持的平台及功能如下图：

![](http://linglan008-blog.oss-cn-hangzhou.aliyuncs.com/image_20250707162513.png)

## **快速开始**

### 下载项目代码

访问 [MediaCrawler GitHub 仓库](https://github.com/NanmiCoder/MediaCrawler "MediaCrawler GitHub 仓库")，点击“Code”按钮下载项目代码。

![](http://linglan008-blog.oss-cn-hangzhou.aliyuncs.com/image_20250707162528.png)

项目代码结构：

![](http://linglan008-blog.oss-cn-hangzhou.aliyuncs.com/image_20250707162539.png)


### 安装 Python 环境 

如果尚未安装 Python，推荐使用 `uv` 软件包管理器进行安装。`uv` 是一款便捷的工具，可以简化 Python 的安装过程。安装 `uv` 的方法如下：

```bash
curl -LsSf https://astral.sh/uv/install.sh | sh
```

更多安装方式和详细信息请参考 [uv 安装文档](https://docs.astral.sh/uv/getting-started/installation/ "uv 安装文档")。如果已有 Python 环境，可跳过此步骤。

### 安装项目依赖

切换到`MediaCrawler` ，项目目录，运行以下命令安装依赖库：

```bash
pip install -r requirements.txt
```

### 安装 Playwright 浏览器驱动

为了确保爬虫正常运行，需要安装 Playwright 浏览器驱动。运行以下命令完成安装：

```bash
playwright install
```

### 配置爬虫参数 

在运行爬虫之前，可以根据需要对爬虫进行配置。具体的配置选项可以在 `base_config.py` 文件中修改。例如，可以启用或禁用评论爬取功能、设置IP代理池等。请根据项目需求进行相应配置。


![](http://linglan008-blog.oss-cn-hangzhou.aliyuncs.com/image_20250707162554.png)


### 执行爬虫代码

环境搭建完成后，就可以运行爬虫程序了。根据需要选择对应的平台和功能，执行以下命令：

```bash
python main.py --platform <平台名称> --lt <登录方式> --type <爬取类型>
```

例如，爬取小红书的帖子信息和评论：

```bash
python main.py --platform xhs --lt qrcode --type search
```

更多使用方法可以通过运行 `python main.py --help` 查看。

### 实验

以小红书作为例子，命令行运行代码，保存的数据如下：


![](http://linglan008-blog.oss-cn-hangzhou.aliyuncs.com/image_20250707162604.png)



![](http://linglan008-blog.oss-cn-hangzhou.aliyuncs.com/image_20250707162611.png)


数据存储支持 **MySQL 数据库**、**CSV 文件** 和 **JSON 文件**。如果选择存储为 **CSV 文件** 或 **JSON 文件**，文件将被自动放置在项目根目录下的 **`data/`** 文件夹中。

MediaCrawler仓库地址：https://github.com/NanmiCoder/MediaCrawler

## 最后

给大家推荐几款超实用的工具:

- [密码管家](https://github.com/CatsAndMice/password "密码管家") 是一款 utools 插件，能帮你轻松管理各种繁杂的账号和密码，再也不用担心忘记密码啦！
- [微信公众号排版编辑器](https://u.tools/plugins/detail/%E5%BE%AE%E4%BF%A1%E5%85%AC%E4%BC%97%E5%8F%B7%E6%8E%92%E7%89%88%E7%BC%96%E8%BE%91%E5%99%A8/?c=eylamc1n2u "微信公众号排版编辑器") 是专为微信公众号运营者设计的排版工具，无论是图文排版，还是格式调整，都能轻松搞定，让你的文章看起来更加专业、美观。

对了，我还会不定时分享更多好玩、有趣的 GitHub 开源项目，欢迎持续关注哦！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

有了 25k Star 的MediaCrawler爬虫库加持，三分钟搞定某红书、某音等平台爬取！ #82

快速开始

下载项目代码

安装 Python 环境

安装项目依赖

安装 Playwright 浏览器驱动

配置爬虫参数

执行爬虫代码

实验

最后

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

有了 25k Star 的MediaCrawler爬虫库加持，三分钟搞定某红书、某音等平台爬取！ #82

Description

快速开始

下载项目代码

安装 Python 环境

安装项目依赖

安装 Playwright 浏览器驱动

配置爬虫参数

执行爬虫代码

实验

最后

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions