scrapy全站爬取数据及crawlspider怎么用?
crawlspider这种爬虫快快速几行代码帮助我们爬取全站数据,下面是基本操作步骤。
1.新建一个文件夹,命名为lianxi
2.新建爬虫文件,命名为paqu
由于我们这次建立的爬虫是crawlspider这种爬虫,因此我们建立爬虫文件与之前稍有差异(如下图),在爬虫文件名之前新增了“-t crawl”
3.打开爬虫文件。
我们会发现爬虫文件与之前,不太一样,在请求模块多了个rules元组,包含几个参数:
1)allow用来填写正则表达式,我们需要翻页爬取的内容就在这里定义规则,需要注意的是allow参数没有必要写出要提取的url完整的正则表达式,部分即可,只要能够区别开来
2)callback用来解析数据
3)当follow为True时,爬虫会从获取的response中取出符合规则的url,再次进行爬取,如果这次爬取的response中还存在符合规则的url,则再次爬取,无限循环,直到不存在符合规则的url。
当follow为False是,爬虫只从start_urls 的response中取出符合规则的url,并请求。
4.简单应用crawlspider爬虫
start_urls设置起始网址,allow设置正则表达式,根据网址的规律,写出网址的翻页特征,以以下网址为例,变化的是page值因此用数字代替,我们输出response,就可以看到请求的页面。(自行设置setting)
THE END