scrapy如何深度爬取数据?

怎么进行scrapy进行深度爬取呢?

1.什么是深度爬取?

 

以‘https://www.shicimingju.com/category/all’诗词名句网为例,我们有列表页的数据,怎么样用scrapy框架爬取详情页的数据。接下来我们以该页面为例,爬取作者的名称以及对应的诗的名称(如下图)

 

2.scrapy深度爬取操作方法

 

第一步,通过指令新建文件夹、爬虫名称

 

 

第二步,发送请求并解析数据

打开爬虫文件夹,做如下操作:

1)放入需要爬取的列表页的url

2)通过xpath解析数据获得作者名称以及详情页的地址

3)对详情页发送请求

我们从上一步已经获得了详情页的地址,然后与分页操作类似,我们用yield关键字,发送请求,只不过需要注意的是,解析数据不能再用列表页的parse,需要我们重新定义,比如我定义为del_parse

4)对详情页进行解析

同列表页的解析一样,我们定义一个详情页的解析函数,然后用xpath进行数据解析,这样我们就获得了详情页的标题

这样列表页以及详情页的标题我们就做好了。

THE END