scrapy如何深度爬取数据?
怎么进行scrapy进行深度爬取呢?
1.什么是深度爬取?
以‘https://www.shicimingju.com/category/all’诗词名句网为例,我们有列表页的数据,怎么样用scrapy框架爬取详情页的数据。接下来我们以该页面为例,爬取作者的名称以及对应的诗的名称(如下图)
2.scrapy深度爬取操作方法
第一步,通过指令新建文件夹、爬虫名称
第二步,发送请求并解析数据
打开爬虫文件夹,做如下操作:
1)放入需要爬取的列表页的url
2)通过xpath解析数据获得作者名称以及详情页的地址
3)对详情页发送请求
我们从上一步已经获得了详情页的地址,然后与分页操作类似,我们用yield关键字,发送请求,只不过需要注意的是,解析数据不能再用列表页的parse,需要我们重新定义,比如我定义为del_parse
4)对详情页进行解析
同列表页的解析一样,我们定义一个详情页的解析函数,然后用xpath进行数据解析,这样我们就获得了详情页的标题
这样列表页以及详情页的标题我们就做好了。
THE END