最近工作过程中,发现好几台服务器出现僵死进程。
用下面的命令找出僵死进程
ps -A -o stat,ppid,pid,cmd | grep -e '^[Zz]'
命令注解:
-A 参数列出所有进程
-o 自定义输出字段 我们设定显示字段为 stat(状态), ppid(进程父id), pid(进程id),cmd(命令)这四个参数
因为状态为 z或者Z 的进程为僵尸进程,所以我们使用grep抓取stat状态为zZ进程
运行结果参考如下
这里一共出现了9个僵死进程,我们需要把它们都干掉,执行下面的命令
kill -9 8310
这时你再执行查找僵死的进程,发现所有僵死进程都没了.
补充:
最近又遇到了个问题,一台服务器上产生了100多少僵死进程,而且每一僵死进程的父进程都不一样,如果用上面的方法,一条一条的杀,那还不得累死我啊。
搞了条简单的命令,直接查找僵死进程,然后将父进程杀死
ps -A -o stat,ppid,pid,cmd | grep -e '^[Zz]' | awk '{print $2}' | xargs kill -9
CentOS下下杀僵尸进程办法:
1) 检查当前僵尸进程信息
# ps -ef | grep defunct | grep -v grep | wc -l
175
#
top - 15:05:54 up 97 days, 23:49, 4 users, load average: 0.66, 0.45, 0.39
Tasks: 829 total, 1 running, 479 sleeping, 174 stopped, 175 zombie
# ps -ef | grep defunct | grep -v grep
2) 获得杀僵尸进程语句
# ps -ef | grep defunct | grep -v grep | awk '{print "kill -9 " $2,$3}'
执行上面获得的语句即可, 使用信号量9, 僵尸进程数会大大减少.
3) 过一会儿检查当前僵尸进程信息
# ps -ef | grep defunct | grep -v grep | wc -l
125
# top | head -2
top - 15:29:26 up 98 days, 12 min, 7 users, load average: 0.27, 0.54, 0.56
Tasks: 632 total, 1 running, 381 sleeping, 125 stopped, 125 zombie
发现僵尸进程数减少了一些, 但还有不少啊.
4) 再次获得杀僵尸进程语句
# ps -ef | grep defunct | grep -v grep | awk '{print "kill -18 " $3}'
执行上面获得的语句即可, 这次使用信号量18杀其父进程, 僵尸进程应该会全部消失.
5) 过一会儿再检查当前僵尸进程信息
# ps -ef | grep defunct | grep -v grep | wc -l
0
# top | head -2
top - 15:39:46 up 98 days, 23 min, 7 users, load average: 5.46, 2.20, 1.12
Tasks: 134 total, 1 running, 133 sleeping, 0 stopped, 0 zombie
6) 清除ZOMBIE(僵尸)进程原理
# kill -18 PPID
PPID是其父进程, 这个信号是告诉父进程, 该子进程已经死亡了, 请收回分配给他的资源. 如果还不行则看先看其父进程又无其他子进程, 如果有, 可能需要先kill其他子进程, 也就是兄弟进程.
方法是:
# kill -15 PID1 PID2
PID1,PID2是僵尸进程的父进程的其它子进程.
然后再kill父进程:
# kill -15 PPID
--End--