学习爬虫，如何建立scrapy框架？怎么使用？

2022-10-18

scrapy是学习爬虫的一个非常重要部分，它可以快速帮助我们爬取想要的数据信息，因此这节课我们重点介绍下scrapy怎么使用。

1.如何建立scrapy框架

这一步不做过多介绍，前几节课也讲解了安装scrapy的方法。

位于pycharm左下角点击进入

先用terminal面板定位到我们想要新建的位置，比如我想要在venv下新建文件夹

然后新建scrapy框架文件夹,主要格式为：scrapy+startproject+文件夹的名称

于是venv文件夹下就新建了一个名为scrapy框架的文件夹

我们打开scrapy框架的文件夹，可以看到包含一个同名文件夹以及一个cfg文件,打开同名文件夹，会有一个spider文件夹，其中spider文件夹就是我们输入代码，爬取数据的主要文件夹，此时，我们需要在该文件夹下新建爬虫文件

首先跟第一步一样，我们需要先定位到该文件

然后新建爬虫文件，主要格式为：scrapy +genspider +文件名+ 通用域名

因此桌面上就新建了一个名为first的文件夹，用来写入我们的爬虫代码

我们有了爬虫代码就可以在first中修改代码，来抓取我们想要的内容，比如下图，我将抓取的网址，修改为百度的地址，解析部分输出的是网页的代码

代码部分修改完成以后，我们需要对spiders文件夹中的设置做更改，打开spiders下的setting

我们将ROBOTSTXT_OBEY的值改为False，意思是爬取过程中暂不遵守robots协议

输入以下代码：scrapy +crawl +爬虫文件名，就可以抓取我们想要的数据了

THE END