怎么进行scrapy进行深度爬取呢?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html
1.什么是深度爬取?
以‘https://www.shicimingju.com/category/all’诗词名句网为例,我们有列表页的数据,怎么样用scrapy框架爬取详情页的数据。接下来我们以该页面为例,爬取作者的名称以及对应的诗的名称(如下图)文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html
2.scrapy深度爬取操作方法
第一步,通过指令新建文件夹、爬虫名称文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html
第二步,发送请求并解析数据文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html
打开爬虫文件夹,做如下操作:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html
1)放入需要爬取的列表页的url文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html
2)通过xpath解析数据获得作者名称以及详情页的地址文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html
3)对详情页发送请求文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html
我们从上一步已经获得了详情页的地址,然后与分页操作类似,我们用yield关键字,发送请求,只不过需要注意的是,解析数据不能再用列表页的parse,需要我们重新定义,比如我定义为del_parse文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html
4)对详情页进行解析文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html
同列表页的解析一样,我们定义一个详情页的解析函数,然后用xpath进行数据解析,这样我们就获得了详情页的标题文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html
这样列表页以及详情页的标题我们就做好了。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28317.html