scrapy爬虫翻页爬取诗词胖排行榜案例

2022-10-18

scrapy框架实现自动翻页爬取数据，爬取诗词胖排行榜（
https://www.shicimingju.com/paiming）中的标题。

1.新建文件夹

scrapy starproject 文件名（wallpaper）

2.新建爬虫文件

scrapy genspider 文件名（landscape）www.xxx.com

3.发送请求并解析数据

上两节课有详细的讲解，所以这部分不再赘述。

4.建立翻页链接

上面我们放的链接为第一页的地址，根据翻页网页的地址我们可以发现，“p”对应的值为变量，因此我们拼接网址：

5.对翻页链接发送请求

基本格式为：yield scrapy.Request(url地址,callback=self.parse)，当遇到第二页的时候，会根据上面的拼接地址填入，并解析数据

6.总结

要实现翻页自动发送请求，需要先建立好第一页的请求并解析，然后写入翻页的网址之后，通过调用yield关键字实现翻页自动发送请求

THE END