用scrapy爬取数据的主要思路,古诗文网为例

2022-10-1820:39:38后端程序开发Comments757 views字数 515阅读模式

scrapy爬取数据。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28356.html

1.爬取数据的主要思路文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28356.html

我们从该网址(
https://so.gushiwen.cn/shiwenv_4c5705b99143.aspx)爬取这首诗的标题和诗句,然后保存在我们的文件夹中,文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28356.html

2.scrapy爬虫案例解析文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28356.html

第一步,我们先新建一个scrapy框架名为’poems‘的文件夹文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28356.html

用scrapy爬取数据的主要思路,古诗文网为例文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28356.html

用scrapy爬取数据的主要思路,古诗文网为例文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28356.html

第二步,新建一个名为’verse‘的爬虫文件文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28356.html

 

用scrapy爬取数据的主要思路,古诗文网为例文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28356.html

用scrapy爬取数据的主要思路,古诗文网为例文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28356.html

第三步,对网页发送请求文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28356.html

打开爬虫文件’verse‘,更改需要爬取的网页地址文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28356.html

用scrapy爬取数据的主要思路,古诗文网为例文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28356.html

第四步,解析数据文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28356.html

更改parse解析部分,对获取到的数据(response)进行数据解析,所用到的解析方式为xpath解析,方法与requests发送请求的解析方式大同小异,首先在找到我们需要解析的部分内容,并填写相应的代码(如下图)。我们发现,与requests发送请求的解析方式不同的是,在原有基础上加上extract方法,和join方法才能获取文本信息文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28356.html

用scrapy爬取数据的主要思路,古诗文网为例文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28356.html

用scrapy爬取数据的主要思路,古诗文网为例文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28356.html

第五步,返回数据文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28356.html

我们要保存数据就需要parse模块有返回值,我们先新建一个空列表data,然后我们将title和content放入字典中并添加到列表中文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28356.html

用scrapy爬取数据的主要思路,古诗文网为例文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28356.html

第六步,保存数据文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28356.html

依旧用指令进行保存:scrapy +crawl+爬虫文件名+-o+保存路径,最终结果如下图:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28356.html

用scrapy爬取数据的主要思路,古诗文网为例文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28356.html

用scrapy爬取数据的主要思路,古诗文网为例文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28356.html

  • 本站内容整理自互联网,仅提供信息存储空间服务,以方便学习之用。如对文章、图片、字体等版权有疑问,请在下方留言,管理员看到后,将第一时间进行处理。
  • 转载请务必保留本文链接:https://www.cainiaoxueyuan.com/bc/28356.html

Comment

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

确定