学习爬虫,如何建立scrapy框架?怎么使用?

scrapy是学习爬虫的一个非常重要部分,它可以快速帮助我们爬取想要的数据信息,因此这节课我们重点介绍下scrapy怎么使用。

1.如何建立scrapy框架

第一步,我们首先需要安装scrapy。

这一步不做过多介绍,前几节课也讲解了安装scrapy的方法。

第二步,打开terminal面板指令

位于pycharm左下角点击进入

第三步,首先新建一个scrapy框架文件夹

先用terminal面板定位到我们想要新建的位置,比如我想要在venv下新建文件夹

然后新建scrapy框架文件夹,主要格式为:scrapy+startproject+文件夹的名称

于是venv文件夹下就新建了一个名为scrapy框架的文件夹

第四步,打开scrapy框架的文件夹

我们打开scrapy框架的文件夹,可以看到包含一个同名文件夹以及一个cfg文件,打开同名文件夹,会有一个spider文件夹,其中spider文件夹就是我们输入代码,爬取数据的主要文件夹,此时,我们需要在该文件夹下新建爬虫文件

第五步,新建爬虫文件

首先跟第一步一样,我们需要先定位到该文件

然后新建爬虫文件,主要格式为:scrapy +genspider +文件名+ 通用域名

因此桌面上就新建了一个名为first的文件夹,用来写入我们的爬虫代码

第六步,修改爬虫代码

我们有了爬虫代码就可以在first中修改代码,来抓取我们想要的内容,比如下图,我将抓取的网址,修改为百度的地址,解析部分输出的是网页的代码

代码部分修改完成以后,我们需要对spiders文件夹中的设置做更改,打开spiders下的setting

我们将ROBOTSTXT_OBEY的值改为False,意思是爬取过程中暂不遵守robots协议

第七步,运行scrapy框架

输入以下代码:scrapy +crawl +爬虫文件名,就可以抓取我们想要的数据了

THE END