监控SpringBoot2.0 Actuator监控指标分析
代长亚基于SpringBoot2.0+ Actuator metrics的监控(基于Oracle JDK9,G1)
引言
SpringBoot2在spring-boot-actuator中引入了micrometer,对1.x的metrics进行了重构,另外支持对接的监控系统也更加丰富(Atlas、Datadog、Ganglia、Graphite、Influx、JMX、NewRelic、Prometheus、SignalFx、StatsD、Wavefront)。本文以Prometheus为例阐述SpringBoot2.0的监控。
eg. Prometheus
Prometheus中文文档
Maven坐标
1 2 3 4 5 6 7 8 9
| <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-actuator</artifactId> </dependency> <dependency> <groupId>io.micrometer</groupId> <artifactId>micrometer-registry-prometheus</artifactId> </dependency>
|
配置信息
1 2
| management.endpoints.web.exposure.include=*
|
SpringBoot2.0 Actuator监控指标分析
序号 |
参数 |
参数说明 |
是否监控 |
监控手段 |
重要度 |
--- |
JVM |
--- |
|
|
|
1 |
jvm.memory.max |
JVM最大内存 |
|
|
|
2 |
jvm.memory.committed |
JVM可用内存 |
是 |
展示并监控堆内存和Metaspace |
重要 |
3 |
jvm.memory.used |
JVM已用内存 |
是 |
展示并监控堆内存和Metaspace |
重要 |
4 |
jvm.buffer.memory.used |
JVM缓冲区已用内存 |
|
|
|
5 |
jvm.buffer.count |
当前缓冲区数 |
|
|
|
6 |
jvm.threads.daemon |
JVM守护线程数 |
是 |
显示在监控页面 |
|
7 |
jvm.threads.live |
JVM当前活跃线程数 |
是 |
显示在监控页面;监控达到阈值时报警 |
重要 |
8 |
jvm.threads.peak |
JVM峰值线程数 |
是 |
显示在监控页面 |
|
9 |
jvm.classes.loaded |
加载classes数 |
|
|
|
10 |
jvm.classes.unloaded |
未加载的classes数 |
|
|
|
11 |
jvm.gc.memory.allocated |
GC时,年轻代分配的内存空间 |
|
|
|
12 |
jvm.gc.memory.promoted |
GC时,老年代分配的内存空间 |
|
|
|
13 |
jvm.gc.max.data.size |
GC时,老年代的最大内存空间 |
|
|
|
14 |
jvm.gc.live.data.size |
FullGC时,老年代的内存空间 |
|
|
|
15 |
jvm.gc.pause |
GC耗时 |
是 |
显示在监控页面 |
|
--- |
TOMCAT |
--- |
|
|
|
16 |
tomcat.sessions.created |
tomcat已创建session数 |
|
|
|
17 |
tomcat.sessions.expired |
tomcat已过期session数 |
|
|
|
18 |
tomcat.sessions.active.current |
tomcat活跃session数 |
|
|
|
19 |
tomcat.sessions.active.max |
tomcat最多活跃session数 |
是 |
显示在监控页面,超过阈值可报警或者进行动态扩容 |
重要 |
20 |
tomcat.sessions.alive.max.second |
tomcat最多活跃session数持续时间 |
|
|
|
21 |
tomcat.sessions.rejected |
超过session最大配置后,拒绝的session个数 |
是 |
显示在监控页面,方便分析问题 |
|
22 |
tomcat.global.error |
错误总数 |
是 |
显示在监控页面,方便分析问题 |
|
23 |
tomcat.global.sent |
发送的字节数 |
|
|
|
24 |
tomcat.global.request.max |
request最长时间 |
|
|
|
25 |
tomcat.global.request |
全局request次数和时间 |
|
|
|
26 |
tomcat.global.received |
全局received次数和时间 |
|
|
|
27 |
tomcat.servlet.request |
servlet的请求次数和时间 |
|
|
|
28 |
tomcat.servlet.error |
servlet发生错误总数 |
|
|
|
29 |
tomcat.servlet.request.max |
servlet请求最长时间 |
|
|
|
30 |
tomcat.threads.busy |
tomcat繁忙线程 |
是 |
显示在监控页面,据此检查是否有线程夯住 |
|
31 |
tomcat.threads.current |
tomcat当前线程数(包括守护线程) |
是 |
显示在监控页面 |
重要 |
32 |
tomcat.threads.config.max |
tomcat配置的线程最大数 |
是 |
显示在监控页面 |
重要 |
33 |
tomcat.cache.access |
tomcat读取缓存次数 |
|
|
|
34 |
tomcat.cache.hit |
tomcat缓存命中次数 |
|
|
|
--- |
CPU… |
--- |
|
|
|
35 |
system.cpu.count |
CPU数量 |
|
|
|
36 |
system.load.average.1m |
load average |
是 |
超过阈值报警 |
重要 |
37 |
system.cpu.usage |
系统CPU使用率 |
|
|
|
38 |
process.cpu.usage |
当前进程CPU使用率 |
是 |
超过阈值报警 |
|
39 |
http.server.requests |
http请求调用情况 |
是 |
显示10个请求量最大,耗时最长的URL;统计非200的请求量 |
重要 |
40 |
process.uptime |
应用已运行时间 |
是 |
显示在监控页面 |
|
41 |
process.files.max |
允许最大句柄数 |
是 |
配合当前打开句柄数使用 |
|
42 |
process.start.time |
应用启动时间点 |
是 |
显示在监控页面 |
|
43 |
process.files.open |
当前打开句柄数 |
是 |
监控文件句柄使用率,超过阈值后报警 |
重要 |
监控dashboard可使用grafana。