Skip to content

Latest commit

 

History

History
24 lines (20 loc) · 461 Bytes

File metadata and controls

24 lines (20 loc) · 461 Bytes

PHP爬虫

PHP爬虫采用php-multicurl多线程抓取爬虫类,文本提取采用phpquery类提取。包含部分php抓取脚本和文本解析代码。有兴趣的朋友可以下载下来看看。

请在CLI命令行模式下运行。

抓取命令:

php crawl site/alex

windows环境下也可使用:

crawl site/alex

处理命令:

php work proxy/run

windows环境下也可使用:

work proxy/run

待优化。。。