物联网开发

爬虫开发：scrapy暂停与重启、数据收集、telnet服务、spider中间件

2022-10-18

物联网开发

selinium 控制鼠标滑动

selinium可以执行JavaScript代码

from selenium import webdriver

bro= webdriver.Chrome(executable_path='chromedriver.exe')
bro.get('https://blog.csdn.net/nav/python')
js="window.scrollTo(0, document.body.scrollHeight); var lenOfPage=document.body.scrollHeight; return lenOfPage;"
bro.execute_script(js)

scrapy爬虫的暂停与重启

打开命令行,进入当前项目的目录

启动项目:crawl spider 爬虫名 -s JOBDIR=自己新建的目录/001(或002...)

-s是safe的意思

将JOBDIR=自己新建的目录/001(或002...)这个也可以设置在每个爬虫单独的setting中

因为要暂停和重启,就需要提供一个目录,将spider中间状态的信息放在这个目录下,这样就能实现; 不同的spider使用不同的子目录

另外,需要在命令行中启动,而不能从pycharm中启动,因为命令行可以接收Ctrl+c中断信号

按一次Ctrl+c,程序会暂停,并处理一些善后工作,比如已经发出去的request要等它返回.(注意:ctrl+c连按两次会强制关掉进程,不会保存中间信息)

暂停后会生成以下中间信息

THE END

Scrapy入门及爬取站酷数据示例

scrapy怎么爬取站长素材中的高清图片？主要思路是什么？