scrapy如何深度爬取数据？

2022-10-18

怎么进行scrapy进行深度爬取呢？

1.什么是深度爬取？

以‘https://www.shicimingju.com/category/all’诗词名句网为例，我们有列表页的数据，怎么样用scrapy框架爬取详情页的数据。接下来我们以该页面为例，爬取作者的名称以及对应的诗的名称（如下图）

第一步，通过指令新建文件夹、爬虫名称

第二步，发送请求并解析数据

打开爬虫文件夹，做如下操作：

1）放入需要爬取的列表页的url

2）通过xpath解析数据获得作者名称以及详情页的地址

3)对详情页发送请求

我们从上一步已经获得了详情页的地址，然后与分页操作类似，我们用yield关键字，发送请求，只不过需要注意的是，解析数据不能再用列表页的parse，需要我们重新定义，比如我定义为del_parse

4)对详情页进行解析

同列表页的解析一样，我们定义一个详情页的解析函数，然后用xpath进行数据解析，这样我们就获得了详情页的标题

这样列表页以及详情页的标题我们就做好了。

THE END