selinium 控制鼠标滑动
selinium可以执行JavaScript代码文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28344.html
from selenium import webdriver
bro= webdriver.Chrome(executable_path='chromedriver.exe')
bro.get('https://blog.csdn.net/nav/python')
js="window.scrollTo(0, document.body.scrollHeight); var lenOfPage=document.body.scrollHeight; return lenOfPage;"
bro.execute_script(js)
scrapy爬虫的暂停与重启
打开命令行,进入当前项目的目录文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28344.html
启动项目:crawl spider 爬虫名 -s JOBDIR=自己新建的目录/001(或002...)
文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28344.html
-s
是safe的意思文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28344.html
将JOBDIR=自己新建的目录/001(或002...)
这个也可以设置在每个爬虫单独的setting中文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28344.html
因为要暂停和重启,就需要提供一个目录,将spider中间状态的信息放在这个目录下,这样就能实现; 不同的spider使用不同的子目录文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28344.html
另外,需要在命令行中启动,而不能从pycharm中启动,因为命令行可以接收Ctrl+c
中断信号文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28344.html
按一次Ctrl+c
,程序会暂停,并处理一些善后工作,比如已经发出去的request要等它返回.(注意:ctrl+c连按两次会强制关掉进程,不会保存中间信息)文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28344.html
暂停后会生成以下中间信息文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28344.html 文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunda/28344.html