scrapy全站爬取数据及crawlspider怎么用？

2022-10-18

crawlspider这种爬虫快快速几行代码帮助我们爬取全站数据，下面是基本操作步骤。

1.新建一个文件夹，命名为lianxi

由于我们这次建立的爬虫是crawlspider这种爬虫，因此我们建立爬虫文件与之前稍有差异（如下图），在爬虫文件名之前新增了“-t crawl”

我们会发现爬虫文件与之前，不太一样，在请求模块多了个rules元组，包含几个参数：

1）allow用来填写正则表达式，我们需要翻页爬取的内容就在这里定义规则，需要注意的是allow参数没有必要写出要提取的url完整的正则表达式，部分即可，只要能够区别开来

2）callback用来解析数据

3）当follow为True时，爬虫会从获取的response中取出符合规则的url，再次进行爬取，如果这次爬取的response中还存在符合规则的url，则再次爬取，无限循环，直到不存在符合规则的url。

当follow为False是，爬虫只从start_urls 的response中取出符合规则的url，并请求。

start_urls设置起始网址，allow设置正则表达式，根据网址的规律，写出网址的翻页特征，以以下网址为例，变化的是page值因此用数字代替，我们输出response，就可以看到请求的页面。（自行设置setting）

THE END