scrapy全站爬取数据及crawlspider怎么用?

2022-10-1820:15:16云计算与物联网Comments938 views字数 588阅读模式

crawlspider这种爬虫快快速几行代码帮助我们爬取全站数据,下面是基本操作步骤。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28303.html

1.新建一个文件夹,命名为lianxi

 

scrapy全站爬取数据及crawlspider怎么用?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28303.html

 

2.新建爬虫文件,命名为paqu

由于我们这次建立的爬虫是crawlspider这种爬虫,因此我们建立爬虫文件与之前稍有差异(如下图),在爬虫文件名之前新增了“-t crawl”文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28303.html

scrapy全站爬取数据及crawlspider怎么用?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28303.html

3.打开爬虫文件。

我们会发现爬虫文件与之前,不太一样,在请求模块多了个rules元组,包含几个参数:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28303.html

1)allow用来填写正则表达式,我们需要翻页爬取的内容就在这里定义规则,需要注意的是allow参数没有必要写出要提取的url完整的正则表达式,部分即可,只要能够区别开来文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28303.html

2)callback用来解析数据文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28303.html

3)当follow为True时,爬虫会从获取的response中取出符合规则的url,再次进行爬取,如果这次爬取的response中还存在符合规则的url,则再次爬取,无限循环,直到不存在符合规则的url。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28303.html

当follow为False是,爬虫只从start_urls 的response中取出符合规则的url,并请求。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28303.html

4.简单应用crawlspider爬虫

start_urls设置起始网址,allow设置正则表达式,根据网址的规律,写出网址的翻页特征,以以下网址为例,变化的是page值因此用数字代替,我们输出response,就可以看到请求的页面。(自行设置setting)文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28303.html

scrapy全站爬取数据及crawlspider怎么用?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28303.html

scrapy全站爬取数据及crawlspider怎么用?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28303.html

  • 本站内容整理自互联网,仅提供信息存储空间服务,以方便学习之用。如对文章、图片、字体等版权有疑问,请在下方留言,管理员看到后,将第一时间进行处理。
  • 转载请务必保留本文链接:https://www.cainiaoxueyuan.com/yunda/28303.html

Comment

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

确定