scrapy如何深度爬取数据?

2022-10-1820:20:22云计算与物联网Comments717 views字数 443阅读模式

怎么进行scrapy进行深度爬取呢?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html

1.什么是深度爬取?

 

以‘https://www.shicimingju.com/category/all’诗词名句网为例,我们有列表页的数据,怎么样用scrapy框架爬取详情页的数据。接下来我们以该页面为例,爬取作者的名称以及对应的诗的名称(如下图)文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html

scrapy如何深度爬取数据?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html

scrapy如何深度爬取数据?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html

 

2.scrapy深度爬取操作方法

 

第一步,通过指令新建文件夹、爬虫名称文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html

 

scrapy如何深度爬取数据?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html

 文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html

第二步,发送请求并解析数据文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html

打开爬虫文件夹,做如下操作:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html

1)放入需要爬取的列表页的url文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html

scrapy如何深度爬取数据?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html

2)通过xpath解析数据获得作者名称以及详情页的地址文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html

scrapy如何深度爬取数据?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html

scrapy如何深度爬取数据?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html

3)对详情页发送请求文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html

我们从上一步已经获得了详情页的地址,然后与分页操作类似,我们用yield关键字,发送请求,只不过需要注意的是,解析数据不能再用列表页的parse,需要我们重新定义,比如我定义为del_parse文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html

scrapy如何深度爬取数据?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html

4)对详情页进行解析文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html

同列表页的解析一样,我们定义一个详情页的解析函数,然后用xpath进行数据解析,这样我们就获得了详情页的标题文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html

scrapy如何深度爬取数据?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html

scrapy如何深度爬取数据?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html

这样列表页以及详情页的标题我们就做好了。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html

  • 本站内容整理自互联网,仅提供信息存储空间服务,以方便学习之用。如对文章、图片、字体等版权有疑问,请在下方留言,管理员看到后,将第一时间进行处理。
  • 转载请务必保留本文链接:https://www.cainiaoxueyuan.com/yunda/28317.html

Comment

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

确定