scrapy是学习爬虫的一个非常重要部分,它可以快速帮助我们爬取想要的数据信息,因此这节课我们重点介绍下scrapy怎么使用。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html
1.如何建立scrapy框架
第一步,我们首先需要安装scrapy。
这一步不做过多介绍,前几节课也讲解了安装scrapy的方法。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html
第二步,打开terminal面板指令
位于pycharm左下角点击进入文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html
第三步,首先新建一个scrapy框架文件夹
先用terminal面板定位到我们想要新建的位置,比如我想要在venv下新建文件夹文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html
然后新建scrapy框架文件夹,主要格式为:scrapy+startproject+文件夹的名称文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html
于是venv文件夹下就新建了一个名为scrapy框架的文件夹文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html
第四步,打开scrapy框架的文件夹
我们打开scrapy框架的文件夹,可以看到包含一个同名文件夹以及一个cfg文件,打开同名文件夹,会有一个spider文件夹,其中spider文件夹就是我们输入代码,爬取数据的主要文件夹,此时,我们需要在该文件夹下新建爬虫文件文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html
第五步,新建爬虫文件
首先跟第一步一样,我们需要先定位到该文件文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html
然后新建爬虫文件,主要格式为:scrapy +genspider +文件名+ 通用域名文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html
因此桌面上就新建了一个名为first的文件夹,用来写入我们的爬虫代码文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html
第六步,修改爬虫代码
我们有了爬虫代码就可以在first中修改代码,来抓取我们想要的内容,比如下图,我将抓取的网址,修改为百度的地址,解析部分输出的是网页的代码文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html
代码部分修改完成以后,我们需要对spiders文件夹中的设置做更改,打开spiders下的setting文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html
我们将ROBOTSTXT_OBEY的值改为False,意思是爬取过程中暂不遵守robots协议文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html
第七步,运行scrapy框架
输入以下代码:scrapy +crawl +爬虫文件名,就可以抓取我们想要的数据了文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28355.html