您的位置:首页 > 运维架构 > Linux

Linux进程之管理控制

2016-12-09 12:07 204 查看


实验介绍

通过本实验我们将掌握一些 Linux 所提供的工具来进行进程的查看与控制,掌握这些工具让我们能在某些进程出异常的时候我们能及时的解决与查看


实验涉及的知识点

进程的运行状态查看
进程的结束控制
进程的执行顺序


一、 进程的查看

不管在测试的时候还是在实际的生产环境中或者自己的使用过程中,难免遇到进程的一些异常,所以 Linux 为我们提供了一些工具可以查看进程的一些状态信息,我们可以通过 top 动态实时的查看进程的状态的已经系统的一些信息如 CPU、内存信息等等,我们同样可以通过 ps 来静态查看当前的进程信息,同时我们还可以使用 pstree 来查看当前活跃进程的树形结构


1.1 top 工具的使用

top 工具是我们常用的一个查看工具,他能实时的查看我们系统的关键一些关键信息的变化已经进程在进程中的实时变化
top




top 是一个在前台执行的程序,所以执行知道便在这样的一个交互界面,我们可以通过一些指令来做一些操作,筛选。首先我们先来了解一些显示了哪些信息

我们看到 top 显示的第一排,
内容解释
top表示当前程序的名称
11:05:18表示当前的系统的时间
up 8 days,17:12表示该机器已经启动了多长时间
1 user表示当前系统中只有一个用户
load average: 0.29,0.20,0.25分别对应1、5、15分钟内cpu的平均负载
load average 在 wikipedia 中的解释是 the system load is a measure of the amount of work that a computer system is doing 也就是对当前 CPU 工作量的度量,具体来说也就是指运行队列的平均长度,也就是等待CPU的平均进程数相关的一个计算值。

我们该如何看待这个load average 数据呢?

假设我们的系统是单CPU单内核的,把它比喻成是一条单向的桥,把CPU任务比作汽车。
load = 0 的时候意味着这个桥上并没有车,cpu 没有任何任务;
load < 1 的时候意味着桥上的车并不多,一切都还是很流畅的,cpu 的任务并不多,资源还很充足;
load = 1 的时候就意味着桥已经被车给沾满了,没有一点空隙,cpu 的已经在全力工作了,所有的资源都被用完了,当然还好,这还在能力范围之内,只是有点慢而已;
load > 1 的时候就意味着不仅仅是桥上已经被车占满了,就连桥外都被占满了,cpu 已经在全力的工作了,系统资源的用完了,但是还是有大量的进程在请求,在等待。若是这个值大于2,大于3,超过 CPU 工作能力的 2,3。而若是这个值 > 5 说明系统已经在超负荷运作了。【注释1】

这是单个 CPU 单核的情况,而实际生活中我们需要将得到的这个值除以我们的核数来看。我们可以通过一下的命令来查看 CPU 的个数与核心数
#查看物理CPU的个数
#cat /proc/cpuinfo |grep "physical id"|sort |uniq|wc -l

#每个cpu的核心数
cat /proc/cpuinfo |grep "physical id"|grep "0"|wc -l


通过上面的指数我们可以得知 load 的临界值为 1 ,但是在实际生活中,比较有经验的运维或者系统管理员会将临界值定为0.7。这里的指数都是除以核心数以后的值,不要混淆了
若是 load < 0.7 并不会去关注他;
若是 0.7< load < 1 的时候我们就需要稍微关注一下了,虽然还可以应付但是这个值已经离临界不远了;
若是 load = 1 的时候我们就需要警惕了,因为这个时候已经没有更多的资源的了,已经在全力以赴了;
若是 load > 5 的时候系统已经快不行了,这个时候你需要加班解决问题了

通常我们都会先看 15 分钟的值来看这个大体的趋势,然后再看 5 分钟的值对比来看是否有下降的趋势。

查看 busybox 的代码可以知道,数据是每 5 秒钟就检查一次活跃的进程数,然后计算出该值,然后 load 从/proc/loadavg 中读取的。而这个 load 的值是如何计算的呢,这是 load 的计算的源码
#define FSHIFT      11          /* nr of bits of precision */
#define FIXED_1     (1<<FSHIFT) /* 1.0 as fixed-point(定点) */
#define LOAD_FREQ   (5*HZ)      /* 5 sec intervals,每隔5秒计算一次平均负载值 */
#define CALC_LOAD(load, exp, n)     \
load *= exp;               \
load += n*(FIXED_1 - exp); \
load >>= FSHIFT;

unsigned long avenrun[3];

EXPORT_SYMBOL(avenrun);

/*
* calc_load - given tick count, update the avenrun load estimates.
* This is called while holding a write_lock on xtime_lock.
*/
static inline void calc_load(unsigned long ticks)
{
unsigned long active_tasks; /* fixed-point */
static int count = LOAD_FREQ;
count -= ticks;
if (count < 0) {
count += LOAD_FREQ;
active_tasks = count_active_tasks();
CALC_LOAD(avenrun[0], EXP_1, active_tasks);
CALC_LOAD(avenrun[1], EXP_5, active_tasks);
CALC_LOAD(avenrun[2], EXP_15, active_tasks);
}
}


有兴趣的朋友可以研究一下,是如何计算的。代码中的后面这部分相当于它的计算公式

我们回归正题,来看 top 的第二行数据,基本上第二行是进程的一个情况统计
内容解释
Tasks: 26 total进程总数
1 running1个正在运行的进程数
25 sleeping25个睡眠的进程数
0 stopped没有停止的进程数
0 zombie没有僵尸进程数
来看 top 的第三行数据,这一行基本上是 CPU 的一个使用情况的统计了
内容解释
Cpu(s): 1.0%us用户空间占用CPU百分比
1.0% sy内核空间占用CPU百分比
0.0%ni用户进程空间内改变过优先级的进程占用CPU百分比
97.9%id空闲CPU百分比
0.0%wa等待输入输出的CPU时间百分比
0.1%hi硬中断(Hardware IRQ)占用CPU的百分比
0.0%si软中断(Software IRQ)占用CPU的百分比
0.0%st(Steal time) 是当 hypervisor 服务另一个虚拟处理器的时候,虚拟 CPU 等待实际 CPU 的时间的百分比
CPU 利用率,是对一个时间段内 CPU 使用状况的统计,通过这个指标可以看出在某一个时间段内 CPU 被占用的情况,Load Average 是 CPU 的 Load,它所包含的信息不是 CPU 的使用率状况,而是在一段时间内 CPU 正在处理以及等待 CPU 处理的进程数情况统计信息,这两个指标并不一样。

来看 top 的第四行数据,这一行基本上是内存的一个使用情况的统计了
内容解释
8176740 total物理内存总量
8032104 used使用的物理内存总量
144636 free空闲内存总量
313088 buffers用作内核缓存的内存量
注意
系统的中可用的物理内存最大值并不是 free 这个单一的值,而是 free + buffers + swap 中的 cached 的和

来看 top 的第五行数据,这一行基本上是交换区的一个使用情况的统计了
内容解释
total交换区总量
used使用的交换区总量
free空闲交换区总量
cached缓冲的交换区总量,内存中的内容被换出到交换区,而后又被换入到内存,但使用过的交换区尚未被覆盖
在下面就是进程的一个情况了
列名解释
PID进程id
USER该进程的所属用户
PR该进程执行的优先级priority 值
NI该进程的 nice 值
VIRT该进程任务所使用的虚拟内存的总数
RES该进程所使用的物理内存数,也称之为驻留内存数
SHR该进程共享内存的大小
S该进程进程的状态: S=sleep R=running Z=zombie
%CPU该进程CPU的利用率
%MEM该进程内存的利用率
TIME+该进程活跃的总时间
COMMAND该进程运行的名字
注意
NICE 值叫做静态优先级,是用户空间的一个优先级值,其取值范围是-20至19。这个值越小,表示进程”优先级”越高,而值越大“优先级”越低。nice值中的 -20 到 19,中 -20 优先级最高, 0 是默认的值,而 19 优先级最低
PR 值表示 Priority 值叫动态优先级,是进程在内核中实际的优先级值,进程优先级的取值范围是通过一个宏定义的,这个宏的名称是MAX_PRIO,它的值为140。Linux实际上实现了140个优先级范围,取值范围是从0-139,这个值越小,优先级越高。而这其中的 0 - 99 是实时的值,而 100 - 139 是给用户的。
其中 PR 中的 100 to 139 值部分有这么一个对应 PR = 20 + (-20 to +19),这里的 -20 to +19 便是nice值,所以说两个虽然都是优先级,而且有千丝万缕的关系,但是他们的值,他们的作用范围并不相同
VIRT 任务所使用的虚拟内存的总数,其中包含所有的代码,数据,共享库和被换出 swap空间的页面等所占据空间的总数

在上文我们曾经说过 top 是一个前台程序,所以是一个可以交互的
常用交互命令解释
q退出程序
I切换显示平均负载和启动时间的信息
P根据CPU使用百分比大小进行排序
M根据驻留内存大小进行排序
i忽略闲置和僵死的进程,这是一个开关式命令
k终止一个进程,系统提示输入 PID 及发送的信号值。一般终止进程用15信号,不能正常结束则使用9信号。安全模式下该命令被屏蔽。
好好的利用 top 能够很有效的帮助我们观察到系统的瓶颈所在,或者是系统的问题所在


1.2 ps 工具的使用

ps 也是我们最常用的查看进程的工具之一,我们通过这样的一个命令来了解一下,他能给我带来哪些消息
ps aux




ps axjf




我们来总体了解下会出现哪些信息给我们,这些信息又代表着什么
内容解释
F进程的标志 為 4 表示此程序的權限為 root,若為 1 則表示此子程序僅進行複製(fork)而沒有實際執行(exec)
USER进程的属主
PID进程的ID
PPID其父进程的PID
SIDsession的ID
TPGID前台进程组的ID
%CPU进程占用的CPU百分比
%MEM占用内存的百分比
NI进程的NICE值
VSZ进程使用虚拟内存大小
RSS驻留内存中页的大小
TTY终端ID
S or STAT进程状态
WCHAN正在等待的进程资源
START启动进程的时间
TIME进程消耗CPU的时间
COMMAND命令的名称和参数
TPGID栏写着-1的都是没有控制终端的进程,也就是守护进程
STAT表示进程的状态,而进程的状态有很多,如下表所示

状态解释
RRunning.运行中
SInterruptible Sleep.等待调用
DUninterruptible Sleep.不可终端睡眠
TStoped.暂停或者跟踪状态
XDead.即将被撤销
ZZombie.僵尸进程
WPaging.内存交换
N优先级低的进程
<优先级高的进程
s进程的领导者
L锁定状态
l多线程状态
+前台进程
其中的 D 不可终端睡眠的状态,处在这种状态的进程不接受外来的任何signal,所以无法使用 kill 命令杀掉处于D状态的进程,无论是 kill,kill -9 还是 kill -15,一般处于这种状态可能是进程 IO 的时候出问题了。

ps 工具有许多的参数,下面给大家解释部分常用的参数

使用 -l 参数可以显示自己这次登陆的 bash 相关的进程信息罗列出来
ps -l




相对来说我们更加常用下面这个命令,他将会罗列出所有的进程信息
ps aux




若是查找其中的某个进程的话,我们还可以配合着 grep 和正则表达式一起使用
ps aux | grep zsh




此外我们还可以查看时,将连同部分的进程呈树状显示出来
ps axjf




当然如果你觉得使用这样的此时没有把你想要的信息放在一起,我们也可以是用这样的命令,来自定义我们所需要的参数显示
ps -afxo user,ppid,pid,pgid,command




这是一个简单而又实用的工具,想要更灵活的使用,想要知道更多的参数我们可以使用 man 来获取更多相关的信息


1.3 pstree 工具的使用

通过 pstree 可以很直接的看到相同的进程数量,最主要的还是我们可以看到所有进程的之间的相关性。
pstree




pstree -up

#参数选择:
#-A  :各程序树之间以 ASCII 字元來連接;
#-p  :同时列出每个 process 的 PID;
#-u  :同时列出每个 process 的所屬账户名称。





二、进程的管理


2.1 kill命令的掌握

上个实验中我们讲诉了进程之间是如何衍生,之间又有什么相关性,我们来回顾一下,当一个进程结束的时候或者要异常结束的时候,会向其父进程返回一个或者接收一个 SIGHUP 信号而做出的结束进程或者其他的操作,这个 SIGHUP 信号不仅可以由系统发送,我们可以使用 kill 来发送这个信号来操作进程的结束或者重启等等。

上节课程我们使用 kill 命令来管理我们的一些 job,这节课我们将尝试用 kill 来操作下一些不属于 job 范畴的进程,直接对 pid 下手
#首先我们使用图形界面打开了 gedit、gvim,用 ps 可以查看到
ps aux#使用9这个信号强制结束 gedit 进程
kill -9 1608

#我们在查找这个进程的时候就找不到了
ps aux | grep gedit







2.2 进程的执行顺序

我们在是使用 ps 命令的时候我们可以看到大部分的进程都是处于休眠的状态,如果这些进程都被唤醒,那么该谁最先享受 CPU 的服务,后面的进程又该是一个什么样的顺序呢?进程调度的队列又该如何去排列呢?

当然就是靠该进程的优先级值来判定进程调度的优先级,而优先级的值就是上文所提到的 PR 与 nice 来控制与体现了

而 nice 的值我们是可以通过 nice 命令来修改的,而需要注意的是 nice 值可以调整的范围是 -20 ~ 19,其中 root 有着至高无上的权力,既可以调整自己的进程也可以调整其他用户的程序,并且是所有的值都可以用,而普通用户只可以调制属于自己的进程,并且其使用的范围只能是 0 ~ 19,因为系统为了避免一般用户抢占系统资源而设置的一个限制
#这个实验在环境中无法做,因为权限不够,可以自己在本地尝试

#打开一个程序放在后台,或者用图形界面打开
nice -n -5 vim &

#用 ps 查看其优先级
ps -afxo user,ppid,pid,stat,pri,ni,time,command | grep vim


我们还可以用 renice 来修改已经存在的进程的优先级,同样因为权限的原因在实验环境中无法尝试
renice -5 pid


实验总结

通过本实验我们学会了进程的查看命令 ps,pstree,top,以及使用这些命令是所得到的信息的含义,从而获取我们想要,我们需要的信息,同是我们学会了进程的管理命令 kill,nice,renice
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: