DJANGO uWSGI服务实现优雅重启(graceful reload)的方式

2023-04-3015:44:55服务器及运维Comments1,245 views字数 3313阅读模式

背景文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

线上主api服务使用的是uWSGI+Django框架,循历史传承一直是通过svc守护进程运行,每次重启无外乎通过svc -k / svc -i 通知server实现重启,本质上就是通过向server发送SIGKILL/SIGINT信号实现结束旧进程,而后守护进程重新拉起新进程运行。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

问题文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

此种重启方式每次都会导致重启时刻一小段时间(数秒--数十秒)线上server的不可用,这直接导致两个异常来源:1,旧进程直接被kill,当前正在处理未完成的请求流程也直接中断;2,旧server被kill掉,新server启动初始化ready前,完全无法处理任何新请求,直接体现为大量的niginx502响应。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

针对异常1,由于SIGKILL信号直接杀死进程,所以不可避免,但是对于SIGINT信号,通过增加信号处理函数,理论上可以等server处理完全部未完成请求后再结束自身,但在收到SIGINT信号后,不应该再接收新的请求,此种方式不可能解决异常2的问题。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

针对异常2,要解决出现server重启准备期间无法响应新请求的问题,只能提前将打向重启节点的流量先屏蔽掉,server重启ready后再恢复流量,通过提前一定时间屏蔽流量,等待历史请求处理完成后再重启,还可以解决掉异常1的问题。这算是保持多进程服务高可用的一种典型思路,难点在于需要能够自动化这一流程,即:a, nginx屏蔽node流量;b,一定时间后重启node服务;c,重启ready后恢复node流量。对于使用一体化分布式框架,已经打通流量控制、节点重启平台功能的大公司,这个不失为一种选择,但对于小公司来说,自动化难度较大,而如果手动操作则不但繁琐,而且很容易出错,节点增多后更是难以接受的labor work。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

uWSGI优雅重启文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

在网上搜寻有无更好的uWSGI优雅重启方案,找到了uWSGI官方文档:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

优雅重载的艺术 — uWSGI 2.0 文档文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

The Art of Graceful Reloading文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

其中提到了数种reload的方案,简单总结如下:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

方法
过程
pros
cons
服务端当前使用方式直接通过svc发送SIGINT/SIGKILL信号文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

直接触发real_run脚本中的相关信号通知

使用简单每次重启所有进程(包括master),重启完成为全新的进程文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

不等待已有请求完成直接结束旧进程,文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

新进程ready前所有新请求将无法处理,相当于服务down掉一段时间(秒级)–-靠nginx实现fail over

Standard (default/boring) graceful reload (aka SIGHUP)文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

 

直接发送SIGHUP信号文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

master进程本身不重启,等待已有请求处理结束后结束worker文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

新worker ready前,所有新请求将进入等待队列

使用简单文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

不会存在不一致状态文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

基本重置了所有进程状态

等待队列满了之后的新请求将直接报错文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

新请求可能需要等待较长时间

Workers reloading in lazy-apps modewrite w to The Master FIFO文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

wait for running workers and then restart each of them.

avoids restarting the whole instance.和standar方式一样新请求需要进入队列等待
Chain reloading (lazy apps)write c to The Master FIFO文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

已有请求处理完成后reload 一个worker,新worker ready后才重启下一个worker

新请求无需进入等待队列等待,多个worker之中始终有可以接受请求的worker在工作文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

逐个worker重启降低机器短时负载

只能处理worker代码更新的重启,无法更改uwsgi option配置文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

需要多个worker配置才能有较好效果

Zerg mode配置 zerg server 或者 zerg pool(绑定unix socket)文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

首先spawn 新worker,ready后shutdown 旧worker(具体参见下面的Zerg Dance-自动化这一过程的一种实现)

基本已经算是0停机reload文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

允许master配置不同的option重启文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

 

需要一个额外的进程文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

相对没那么容易管理文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

reload时需要拷贝整个uWSGI栈

The Zerg Dance: Pausing instances通过配置3个Master FIFOs+ uWSGI 高级hooks实现开启新进程,暂停(pause)旧进程truly zero-downtime reload.需要使用高级的uWSGI和Unix技术,配置较为复杂

综合考虑,链式重启的方式配置简单,而且在多worker的情况下已经完全能够避免异常1与异常2问题的产生,考虑到实际上更改uWSGI配置的频率非常之低--偶尔需要按照旧有方式有损重启master进程也可以接受,因而采用链式重启实现uWSGI配置的优雅重启即可,实际只需要在原.xml配置文件中加上 <master-fifo>/tmp/uwsgi_api.fifo</master-fifo> (对应.ini文件、命令行参数加上master-fifo也一样) ,表示通过/tmp/uwsgi_api.fifo 管道传输命令,需要重启时执行 echo c > /tmp/uwsgi_api.fifo 即可。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

旧配置:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

<uwsgi>
    <socket>0.0.0.0:3000</socket>
    <listen>14400</listen>
    <master>true</master>
    <processes>4</processes>
    <threads>12</threads>
    <module>wsgi</module>
    <profiler>true</profiler>
    <memory-report>true</memory-report>
    <limit-as>6048</limit-as>
    <buffer-size>65536</buffer-size>
    <thunder-lock>true</thunder-lock>
    <harakiri>30</harakiri>
    <lazy-apps>true</lazy-apps>
</uwsgi>

新配置:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

<uwsgi>
    <socket>0.0.0.0:3000</socket>
    <listen>14400</listen>
    <master>true</master>
    <master-fifo>/tmp/uwsgi_api.fifo</master-fifo>
    <processes>4</processes>
    <threads>12</threads>
    <module>wsgi</module>
    <profiler>true</profiler>
    <memory-report>true</memory-report>
    <limit-as>6048</limit-as>
    <buffer-size>65536</buffer-size>
    <thunder-lock>true</thunder-lock>
    <harakiri>30</harakiri>
    <lazy-apps>true</lazy-apps>
</uwsgi>

 文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

PS: 在网上搜索到已经有人分享过 uWSGI平滑重启的方式,多篇文章来源看上去都是同一篇--uwsgi graceful reload,所采用的也是链式重启,都是通过配置 在.ini配置文件中添加:touch-chain-reload=XXX/settings.py 实现,即每次通过touch 某个代码文件的方式实现触发自动重启,后面链式重启逻辑本质都是一样的,只在于我这里是通过管道发送重启命令,而前者是通过监控代码文件状态实现。个人认为通过命名管道方式触发重启更可控一些,这样能将重启操作本身与代码状态这两个本就不应该相关内容的事务隔离开来,而且采用touch方式,任何时候线上只要一发生代码更新--git pull新代码、cp覆盖新代码乃至编辑修改代码(应极力避免)--无论是有意无意,都将触发reload,这不一定是操作者本身想要的,而通过管道方式,则很明确该操作就是需要重启server。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html

文章源自菜鸟学院-https://www.cainiaoxueyuan.com/yunwei/37983.html
  • 本站内容整理自互联网,仅提供信息存储空间服务,以方便学习之用。如对文章、图片、字体等版权有疑问,请在下方留言,管理员看到后,将第一时间进行处理。
  • 转载请务必保留本文链接:https://www.cainiaoxueyuan.com/yunwei/37983.html

Comment

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

确定