Scrapy管道piplines:清洗、验证和存储数据

2022-10-1820:00:11后端程序开发Comments732 views字数 5644阅读模式

学习Item Pipline之前,我们还是来看一下下面这张图。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

Scrapy管道piplines:清洗、验证和存储数据大家可以看到上图最左侧的就是Item Pipline。Item管道的主要任务就是负责处理有Spider从网页中抽取的Item,因此Item Pipline的主要任务就是清洗、验证和存储数据。当页面被Spider解析后,将被发送到Item管道,Item Pipline获取了Items中的数据并执行对应的方法,并决定是否需要在Item管道中继续执行下一步或是直接丢弃掉不处理。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

因此对于Item Pipline其主要的作用包括如下:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

清理HTML数据。
验证爬取数据,检查爬取字段。
查重并丢弃重复内容。
将爬取结果保存到数据库。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

核心方法介绍

Item管道主要有4个方法,分别是:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

1)open_spider(spider)
2)close_spider(spider)
3)from_crawler(cls,crawler)
4)process_item(item,spider)文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

open_spider(spider)【参数spider 即被开启的Spider对象】文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

是在开启spider的时候触发的,常用于初始化操作(常见的有:开启数据库连接,打开文件等)。该方法非必需实现,可以根据需求定义。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

close_spider(spider) 【参数spider 即被关闭的Spider对象】文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

是在 Spider 关闭的时候自动调用的,在这里我们可以做一些收尾工作,如关闭数据库连接等,该方法非必需实现,可以根据需求定义。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

from_crawler(cls,crawler)【参数一:Class类 参数二:crawler对象】文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

该方法Spider启用时调用,比open_spider()方法调用还要早,是一个类方法,用@classmethod标识,是一种依赖注入的方式。它的参数有crawler,通过crawler对象,我们可以拿到Scrapy的所有核心组件,如全局配置的每个信息,然后创建一个Pipeline实例。参数cls就是Class,最后返回一个Class实例。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

process_item(item,spider) 【参数一:被处理的Item对象 参数二:生成该Item的Spider对象】文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

该方法是必须要实现的方法,被定义的 Item Pipeline 会默认调用这个方法对 Item 进行处理。比如,我们可以进行数据处理或者将数据写入到数据库等操作。它必须返回 Item 类型的值或者抛出一个 DropItem 异常。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

如果返回的是 Item 对象,那么此 Item 会接着被低优先级的 Item Pipeline 的 process_item () 方法进行处理,直到所有的方法被调用完毕。
如果抛出的是 DropItem 异常,那么此 Item 就会被丢弃,不再进行处理。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

延伸扩展:ImagesPipline文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

爬虫程序爬取的目标通常不仅仅是文字资源,经常也会爬取图片资源。这就涉及如何高效下载图片的问题。这里高效下载指的是既能把图片完整下载到本地又不会对网站服务器造成压力。此时你可以不在 pipeline 中自己实现下载图片逻辑,可以通过 Scrapy 提供的图片管道ImagesPipeline,这样可以更加高效的操作下载图片。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

ImagesPipeline具有以下特点:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

将所有下载的图片转换成通用的格式(JPG)和模式(RGB)
避免重新下载最近已经下载过的图片
缩略图生成
检测图像的宽/高,确保它们满足最小限制文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

使用说明:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

在pipline.py中可以新定义一个类,比如:xxImagePipline,Scrapy 默认生成的类是继承Object, 要将该类修改为继承ImagesPipeline。然后实现get_media_requestsitem_completed这两个函数文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

其中,get_media_requests函数为每个 url 生成一个 Request。而item_completed(self, results, item, info)当一个单独项目中的所有图片请求完成时,该方法会被调用。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

处理结果会以二元组的方式返回给 item_completed() 函数,即参数:results。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

results参数二元组结果是:(success, image_info_or_failure)其中success表示图片是否下载成功;image_info_or_failure是一个字典,包含三个属性:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

1.url - 图片下载的url。这是从 get_media_requests() 方法返回请求的url。
2.path - 图片存储的路径(类似 IMAGES_STORE)
3.checksum - 图片内容的 MD5 hash文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

如果需要file_path(request, response=None, info=None)文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

request表示当前下载对应的request对象(request.dict查看属性),该方法用来返回文件名文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

response返回的是None文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

info一样的返回是一个对象(info.dict查看)文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

同时需要结合settings.py的配置进行设置,比如设置配置存放图片的路径以及自定义下载的图片管道。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

# 可以避免下载最近已经下载的图片,90天的图片失效期限
IMAGES_EXPIRES = 90  
IMAGES_STORE = '设置存放图片的路径'

# 如果需要也可以设置缩略图
# IMAGES_THUMBS = {
#   'small': (50, 50),   # (宽, 高)
#   'big': (270, 270),
# }

# 配置自定义下载的图片管道, 默认是被注释的
ITEM_PIPELINES = {
  # yourproject.middlewares(文件名).middleware类
  '项目名.pipelines.xxImagePipeline': 数值,  
}

并且Scrapy 框架下载图片会用到这个Python Imaging Library (PIL)图片加载库,所以也要提前安装好这个库。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

pip install pillow文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

案例

本次我们爬取的网站是一个有很多治愈系图片的网站,更加重要的是免费的。链接是:http://www.designerspics.com文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

Scrapy管道piplines:清洗、验证和存储数据我们要实现的在MongoDB中存储,图片的名字和下载地址,并将图片下载到本地。因为我们前面存储没有使用过MongoDB或者Redis等非关系型数据库,所以本次案例我们使用MongoDB存储。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

首先新建一个项目,命令如下:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

scrapy startproject designerspics

接下来新建一个 Spider,命令如下:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

scrapy genspider designer www.designerspics.com

这样我们就成功创建了一个 Spider。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

接下来使用PyCharm打开爬虫项目,开始编写爬虫。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

Scrapy管道piplines:清洗、验证和存储数据于是我们的爬虫代码就是(当然现在爬取的只是第一页,如果是多页爬取则需要重写start_requests(self)方法):文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html
import scrapy
from designerspics.items import DesignerspicsItem

class DesignerSpider(scrapy.Spider):
   name = 'designer'
   allowed_domains = ['www.designerspics.com']
   start_urls = ['http://www.designerspics.com/']

   def parse(self, response):
       title = response.xpath('//div[@class="photograph-wrapper"]/div/h5[1]/text()').extract()
       image_url = response.xpath('//div[@class="photograph-wrapper"]/div/div/a/img/@src').extract()
       for index, t in enumerate(title):
           item = DesignerspicsItem()
           item['title'] = t[2:]
           item['image_url'] = image_url[index]
           yield item

如果多页爬取则可以这样写,因为每一页的地址是这样的除了第一页文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

第一页:http://www.designerspics.com/
第二页:http://www.designerspics.com/page/2/
第三页:http://www.designerspics.com/page/3/
...文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

import scrapy
from scrapy import Request
from designerspics.items import DesignerspicsItem

class DesignerSpider(scrapy.Spider):
   name = 'designer'
   allowed_domains = ['www.designerspics.com']

   # start_urls = ['http://www.designerspics.com/']

   def start_requests(self):
       # 爬取10页内容
       for i in range(1, 11):
           if i == 1:
               url = "http://www.designerspics.com/"
               yield Request(url, self.parse)
           else:
               url = 'http://www.designerspics.com/page/' + str(i)+"/"
               yield Request(url, self.parse)

   def parse(self, response):
       title = response.xpath('//div[@class="photograph-wrapper"]/div/h5[1]/text()').extract()
       image_url = response.xpath('//div[@class="photograph-wrapper"]/div/div/a/img/@src').extract()
       for index, t in enumerate(title):
           item = DesignerspicsItem()
           item['title'] = t[2:]
           item['image_url'] = image_url[index]
           yield item

其中DesignerspicsItem类的代码如下:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

import scrapy


class DesignerspicsItem(scrapy.Item):
   # define the fields for your item here like:
   # name = scrapy.Field()
   collection = 'designerimages'
   title = scrapy.Field()
   image_url = scrapy.Field()

此时开始定义Item Pipline,打开piplines.py文件文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

import pymongo
from scrapy import Request
from scrapy.exceptions import DropItem
from scrapy.pipelines.images import ImagesPipeline


class DesignerspicsPipeline:
   def __init__(self, mongo_uri, mongo_db, mongo_port):
       self.mongo_uri = mongo_uri
       self.mongo_db = mongo_db
       self.mongo_port = mongo_port

   @classmethod
   def from_crawler(cls, crawler):
       return cls(mongo_uri=crawler.settings.get('MONGO_URI'),
                  mongo_db=crawler.settings.get('MONGO_DB'),
                  mongo_port=crawler.settings.get('MONGO_PORT')
                  )

   def open_spider(self, spider):
       self.client = pymongo.MongoClient(host=self.mongo_uri, port=self.mongo_port)
       self.db = self.client[self.mongo_db]

   def process_item(self, item, spider):
       self.db[item.collection].insert(dict(item))
       return item

   def close_spider(self, spider):
       self.client.close()


class ImagePipeline(ImagesPipeline):
   def file_path(self, request, response=None, info=None):
       url = request.url
       file_name = url.split('/')[-1]
       return file_name

   def item_completed(self, results, item, info):
       image_paths = [x['path'] for ok, x in results if ok]
       if not image_paths:
           raise DropItem('Image Downloaded Failed')
       return item

   def get_media_requests(self, item, info):
       yield Request(item['image_url'])

此时需要在settings.py中配置:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

MONGO_URI = '127.0.0.1'
MONGO_DB = 'designerimages'
MONGO_PORT = 27017

# 需要设置存储图片的路径
IMAGES_STORE = './images'

启动爬虫:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

scrapy crawl designer

来看一下成果吧!文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html

Scrapy管道piplines:清洗、验证和存储数据Mongo数据库的数据展示一下:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html
Scrapy管道piplines:清洗、验证和存储数据
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/bc/28285.html
  • 本站内容整理自互联网,仅提供信息存储空间服务,以方便学习之用。如对文章、图片、字体等版权有疑问,请在下方留言,管理员看到后,将第一时间进行处理。
  • 转载请务必保留本文链接:https://www.cainiaoxueyuan.com/bc/28285.html

Comment

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

确定