学习爬虫,如何建立scrapy框架?怎么使用?

2022-10-1820:37:00后端程序开发Comments824 views字数 765阅读模式

scrapy是学习爬虫的一个非常重要部分,它可以快速帮助我们爬取想要的数据信息,因此这节课我们重点介绍下scrapy怎么使用。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html

1.如何建立scrapy框架

第一步,我们首先需要安装scrapy。

这一步不做过多介绍,前几节课也讲解了安装scrapy的方法。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html

第二步,打开terminal面板指令

位于pycharm左下角点击进入文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html

学习爬虫,如何建立scrapy框架?怎么使用?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html

第三步,首先新建一个scrapy框架文件夹

先用terminal面板定位到我们想要新建的位置,比如我想要在venv下新建文件夹文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html

学习爬虫,如何建立scrapy框架?怎么使用?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html

然后新建scrapy框架文件夹,主要格式为:scrapy+startproject+文件夹的名称文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html

学习爬虫,如何建立scrapy框架?怎么使用?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html

于是venv文件夹下就新建了一个名为scrapy框架的文件夹文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html

学习爬虫,如何建立scrapy框架?怎么使用?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html

第四步,打开scrapy框架的文件夹

我们打开scrapy框架的文件夹,可以看到包含一个同名文件夹以及一个cfg文件,打开同名文件夹,会有一个spider文件夹,其中spider文件夹就是我们输入代码,爬取数据的主要文件夹,此时,我们需要在该文件夹下新建爬虫文件文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html

学习爬虫,如何建立scrapy框架?怎么使用?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html

第五步,新建爬虫文件

首先跟第一步一样,我们需要先定位到该文件文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html

学习爬虫,如何建立scrapy框架?怎么使用?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html

然后新建爬虫文件,主要格式为:scrapy +genspider +文件名+ 通用域名文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html

学习爬虫,如何建立scrapy框架?怎么使用?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html

因此桌面上就新建了一个名为first的文件夹,用来写入我们的爬虫代码文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html

学习爬虫,如何建立scrapy框架?怎么使用?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html

第六步,修改爬虫代码

我们有了爬虫代码就可以在first中修改代码,来抓取我们想要的内容,比如下图,我将抓取的网址,修改为百度的地址,解析部分输出的是网页的代码文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html

学习爬虫,如何建立scrapy框架?怎么使用?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html

代码部分修改完成以后,我们需要对spiders文件夹中的设置做更改,打开spiders下的setting文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html

学习爬虫,如何建立scrapy框架?怎么使用?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html

我们将ROBOTSTXT_OBEY的值改为False,意思是爬取过程中暂不遵守robots协议文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html

学习爬虫,如何建立scrapy框架?怎么使用?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html

第七步,运行scrapy框架

输入以下代码:scrapy +crawl +爬虫文件名,就可以抓取我们想要的数据了文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html

学习爬虫,如何建立scrapy框架?怎么使用?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html

  • 本站内容整理自互联网,仅提供信息存储空间服务,以方便学习之用。如对文章、图片、字体等版权有疑问,请在下方留言,管理员看到后,将第一时间进行处理。
  • 转载请务必保留本文链接:https://www.cainiaoxueyuan.com/bc/28355.html

Comment

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

确定