学习爬虫,如何建立scrapy框架?怎么使用?
scrapy是学习爬虫的一个非常重要部分,它可以快速帮助我们爬取想要的数据信息,因此这节课我们重点介绍下scrapy怎么使用。
1.如何建立scrapy框架
第一步,我们首先需要安装scrapy。
这一步不做过多介绍,前几节课也讲解了安装scrapy的方法。
第二步,打开terminal面板指令
位于pycharm左下角点击进入
第三步,首先新建一个scrapy框架文件夹
先用terminal面板定位到我们想要新建的位置,比如我想要在venv下新建文件夹
然后新建scrapy框架文件夹,主要格式为:scrapy+startproject+文件夹的名称
于是venv文件夹下就新建了一个名为scrapy框架的文件夹
第四步,打开scrapy框架的文件夹
我们打开scrapy框架的文件夹,可以看到包含一个同名文件夹以及一个cfg文件,打开同名文件夹,会有一个spider文件夹,其中spider文件夹就是我们输入代码,爬取数据的主要文件夹,此时,我们需要在该文件夹下新建爬虫文件
第五步,新建爬虫文件
首先跟第一步一样,我们需要先定位到该文件
然后新建爬虫文件,主要格式为:scrapy +genspider +文件名+ 通用域名
因此桌面上就新建了一个名为first的文件夹,用来写入我们的爬虫代码
第六步,修改爬虫代码
我们有了爬虫代码就可以在first中修改代码,来抓取我们想要的内容,比如下图,我将抓取的网址,修改为百度的地址,解析部分输出的是网页的代码
代码部分修改完成以后,我们需要对spiders文件夹中的设置做更改,打开spiders下的setting
我们将ROBOTSTXT_OBEY的值改为False,意思是爬取过程中暂不遵守robots协议
第七步,运行scrapy框架
输入以下代码:scrapy +crawl +爬虫文件名,就可以抓取我们想要的数据了
THE END