用scrapy爬取数据的主要思路，古诗文网为例

菜小编

2022-10-18

后端开发及架构

用scrapy爬取数据。

1.爬取数据的主要思路

我们从该网址（
https://so.gushiwen.cn/shiwenv_4c5705b99143.aspx）爬取这首诗的标题和诗句，然后保存在我们的文件夹中，

2.scrapy爬虫案例解析

第一步，我们先新建一个scrapy框架名为’poems‘的文件夹

第二步，新建一个名为’verse‘的爬虫文件

第三步，对网页发送请求

打开爬虫文件’verse‘，更改需要爬取的网页地址

第四步，解析数据

更改parse解析部分，对获取到的数据（response）进行数据解析，所用到的解析方式为xpath解析，方法与requests发送请求的解析方式大同小异，首先在找到我们需要解析的部分内容，并填写相应的代码（如下图）。我们发现，与requests发送请求的解析方式不同的是，在原有基础上加上extract方法，和join方法才能获取文本信息

第五步，返回数据

我们要保存数据就需要parse模块有返回值，我们先新建一个空列表data，然后我们将title和content放入字典中并添加到列表中

第六步，保存数据

依旧用指令进行保存：scrapy +crawl+爬虫文件名+-o+保存路径，最终结果如下图：

THE END

学习爬虫，如何建立scrapy框架？怎么使用？

<<上一篇

scrapy框架爬取数据的步骤——管道保存数据

下一篇>>