scrapy框架爬取数据的步骤——管道保存数据

2022-10-1820:41:36云计算与物联网Comments1,334 views字数 613阅读模式

1.scrapy框架爬取数据的步骤

其中前三步我们上节课有提到,大家可以试着先操作一下。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28357.html

第一步,新建文件夹文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28357.html

通过终端指令(scrapy+startproject+文件名),我们新建一个名为(house)的文件夹文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28357.html

scrapy框架爬取数据的步骤——管道保存数据文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28357.html

第二步,新建爬虫文件文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28357.html

我们继续通过终端指令(scrapy+genspider+文件名+通用域名),我们新建一个名为(rent)的爬虫文件文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28357.html

scrapy框架爬取数据的步骤——管道保存数据文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28357.html

第三步,修改爬虫代码文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28357.html

打开爬虫文件(rent.py),我们修改我们需要爬取的网址,并进行数据解析,解析方式与requests解析几乎一致,只是需要加一个extract方法以及join方法,如下,这样我们就获得了我们想要的数据信息。但是我们接下来要通过管道保存数据文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28357.html

scrapy框架爬取数据的步骤——管道保存数据文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28357.html

第四步,管道保存数据文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28357.html

1)管道保存数据这一步稍微复杂一点,我们需要先将解析的数据,实例化给item,通过item再传给管道,因此,item尤为关键,首先打开文件夹(items.py),将我们上一步解析到的数据进行属性的设定,如下图:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28357.html

scrapy框架爬取数据的步骤——管道保存数据文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28357.html

scrapy框架爬取数据的步骤——管道保存数据文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28357.html

2)然后解析数据(tt)实例化给item文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28357.html

scrapy框架爬取数据的步骤——管道保存数据文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28357.html

3)进入文件(pipelines)进行如下设置,通过定义开始爬虫,新建一个“house.txt”文件夹,然后将item文件传给管道,再通过结束爬虫,关闭文件夹。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28357.html

scrapy框架爬取数据的步骤——管道保存数据文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28357.html

4)打开(setting)文件夹,设置user-agent的值,以及robot的值,以及管道这个参数(找到该参数将井号去掉即可)文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28357.html

scrapy框架爬取数据的步骤——管道保存数据文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28357.html

scrapy框架爬取数据的步骤——管道保存数据文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28357.html

第五步,运行代码

在终端输入,scrapy crawl +爬虫文件名,运行文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28357.html

scrapy框架爬取数据的步骤——管道保存数据文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28357.html

  • 本站内容整理自互联网,仅提供信息存储空间服务,以方便学习之用。如对文章、图片、字体等版权有疑问,请在下方留言,管理员看到后,将第一时间进行处理。
  • 转载请务必保留本文链接:https://www.cainiaoxueyuan.com/yunda/28357.html

Comment

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

确定