cpu负载过高怎么解决 CPU占用过高问题的排查及解决

一，排查步骤
1.使用 top 定位到占用CPU高的进程 PID 然后按 shift+p 按照 CPU 排序

top 命令是 Linux 下常用的性能分析工具，能够实时显示系统中各个进程的资源占用状况，类似于 Windows 的任务管理器

第一行，任务队列信息，同 uptime 命令的执行结果

系统时间：07:27:05 运行时间：up 1:57 min, 当前登录用户：  3 user 负载均衡(uptime)  load average: 0.00, 0.00, 0.00      average 后面的三个数分别是 1 分钟、5 分钟、15 分钟的负载情况。 load average 数据是每隔 5 秒钟检查一次活跃的进程数，然后按特定算法计算出的数值。如果这个数除以逻辑 CPU 的数量，结果高于 5 的时候就表明系统在超负荷运转了

第二行，Tasks — 任务（进程）

总进程:150 total, 运行:1 running, 休眠:149 sleeping, 停止: 0 stopped, 僵尸进程: 0 zombie

第三行，cpu 状态信息

0.0%us【user space】— 用户空间占用 CPU 的百分比。 0.3%sy【sysctl】— 内核空间占用 CPU 的百分比。 0.0%ni【】— 改变过优先级的进程占用 CPU 的百分比 99.7%id【idolt】— 空闲 CPU 百分比 0.0%wa【wait】— IO 等待占用 CPU 的百分比 0.0%hi【Hardware IRQ】— 硬中断占用 CPU 的百分比 0.0%si【Software Interrupts】— 软中断占用 CPU 的百分比

第四行,内存状态

1003020k total, 234464k used, 777824k free, 24084k buffers【缓存的内存量】

第五行，swap 交换分区信息

2031612k total, 536k used, 2031076k free, 505864k cached【缓冲的交换区总量】

可用内存=free + buffer + cached 对于内存监控，在 top 里我们要时刻监控第五行 swap 交换分区的 used，如果这个数值在不断的变化，说明内核在不断进行内存和 swap 的数据交换，这是真正的内存不够用了。 第四行中使用中的内存总量（used）指的是现在系统内核控制的内存数， 第四行中空闲内存总量（free）是内核还未纳入其管控范围的数量。 纳入内核管理的内存不见得都在使用中，还包括过去使用过的现在可以被重复利用的内存，内核并不把这些可被重新使用的内存交还到 free 中去，因此在 linux 上 free 内存会越来越少，但不用为此担心。

更多 Linux 内核视频资料免费·领取后台私信【

内核

】自行获取。

第六行，空行

第七行以下：各进程（任务）的状态监控

PID — 进程 idUSER — 进程所有者 PR — 进程优先级 NI — nice 值。负值表示高优先级，正值表示低优先级 VIRT — 进程使用的虚拟内存总量，单位 kb。VIRT=SWAP+RESRES — 进程使用的、未被换出的物理内存大小，单位 kb。RES=CODE+DATASHR — 共享内存大小，单位 kbS —进程状态。D=不可中断的睡眠状态 R=运行 S=睡眠 T=跟踪/停止 Z=僵尸进程%CPU — 上次更新到现在的 CPU 时间占用百分比%MEM — 进程使用的物理内存百分比 TIME+ — 进程使用的 CPU 时间总计，单位 1/100 秒 COMMAND — 进程名称（命令名/命令行）

详解

VIRT：virtual memory usage 虚拟内存 1、进程“需要的”虚拟内存大小，包括进程使用的库、代码、数据等 2、假如进程申请 100m 的内存，但实际只使用了 10m，那么它会增长 100m，而不是实际的使用量 RES：resident memory usage 常驻内存 1、进程当前使用的内存大小，但不包括 swap out2、包含其他进程的共享 3、如果申请 100m 的内存，实际使用 10m，它只增长 10m，与 VIRT 相反 4、关于库占用内存的情况，它只统计加载的库文件所占内存大小 SHR：shared memory 共享内存 1、除了自身进程的共享内存，也包括其他进程的共享内存 2、虽然进程只使用了几个共享库的函数，但它包含了整个共享库的大小 3、计算某个进程所占的物理内存大小公式：RES – SHR4、swap out 后，它将会降下来 DATA1、数据占用的内存。如果 top 没有显示，按 f 键可以显示出来。2、真正的该程序要求的数据空间，是真正在运行中要使用的。 top 运行中可以通过 top 的内部命令对进程的显示方式进行控制。内部命令如下：s – 改变画面更新频率 l – 关闭或开启第一部分第一行 top 信息的表示 t – 关闭或开启第一部分第二行 Tasks 和第三行 Cpus 信息的表示 m – 关闭或开启第一部分第四行 Mem 和 第五行 Swap 信息的表示 N – 以 PID 的大小的顺序排列表示进程列表 P – 以 CPU 占用率大小的顺序排列进程列表 M – 以内存占用率大小的顺序排列进程列表 h – 显示帮助 n – 设置在进程列表所显示进程的数量 q – 退出 tops – 改变画面更新周期

top 使用方法：

使用格式： top [-] [d] [p] [q] [c] [C] [S] [s] [n]参数说明： d：指定每两次屏幕信息刷新之间的时间间隔。当然用户可以使用 s 交互命令来改变之。 p:通过指定监控进程 ID 来仅仅监控某个进程的状态。 q:该选项将使 top 没有任何延迟的进行刷新。如果调用程序有超级用户权限，那么 top 将以尽可能高的优先级运行。 S：指定累计模式。 s：使 top 命令在安全模式中运行。这将去除交互命令所带来的潜在危险。 i：使 top 不显示任何闲置或者僵死进程。 c:显示整个命令行而不只是显示命令名。

此时发现如果是 Java 的进程占用过高，并且一直下不来，则排查是什么线程导致占比过高。以图中进程举例，假如发现 PID 为 31357 的 Java 进程占 CPU 比一直很高，则记录下它的 PID

2.查看 Java 进程里面的线程的占用情况

top -H -p 31357 然后按 shift+p 按照 CPU 排序

说明：-H 指显示线程，-p 是指定进程

可以看到 CPU 占用较高的线程，记下他们的 PID，假设这里 31357 的 CPU 占比一直是 50%

或者是再用 ps -mp pid -o THREAD,tid,time 查询进程中,那个线程的 cpu 占用率高记住 TID

将查找到的线程占用最高的 tid 上图中 29108 转成 16 进制 — 71b4

3.通过 jstack 命令获取占用资源异常的线程栈，可暂时保存到一个文件中查看

jstack 31357 > jstack.31357.log

以上能看到指定线程的堆栈信息。如果想看到关于线程中的

锁的附加信息

，可以加一个-l 参数

4.上面方法用于进程正常情况下的堆栈打印

用 jstack -l 命令没有响应，估计是 CPU 一直站着不能执行正常的命令，根据提示［The -F option can be used when the target process is not responding］只能放大招了。

jstack -F “PID” > jstack.“PID”.txt

吐出的实际日志结果如下：

发现一大坨线程阻塞了，有用的结果在这里：

显然一直在跑的是 19576 这个线程，一直在执行 EXCEL 导出的相关方法，问题就出在这里，下面的任务就是排查这个地方的代码逻辑了。

jstack 命令格式:

jstack [ option ] pid

参数说明:

-F jstack [-l] pid 无法响应时，强制打印堆栈-l l 长列表. 打印关于锁的附加信息,例如属于 java.util.concurrent 的 ownable synchronizers 列表.-m 混合模式输出(包括 java 和本地 c/c++片段)堆栈。pid: java 应用程序的进程号5jps 命令查看 java 进程的 pid 更实用

命令格式

jps [ options ] [ hostid ]