指标
RocketMQ 以 Prometheus 格式公开以下指标。您可以使用这些指标监控您的集群。
- Broker 指标
- 生产者指标
- 消费者指标
版本支持:RocketMQ 的以下指标是在 5.1.0 版本中引入的,仅支持 Broker。
指标详情
指标类型
RocketMQ 中定义指标的标准符合开源 Prometheus 中定义指标的标准。RocketMQ 提供的指标类型包括计数器、仪表盘和直方图。有关更多信息,请参阅 指标类型。
Broker 指标
下表描述了与 Apache RocketMQ Broker 消息队列相关的指标标签。
- cluster: RocketMQ 集群名称。
- node_type: 服务节点类型,包括以下类型:proxy、broker、nameserver。
- node_id: 服务节点的 ID。
- topic: RocketMQ 的主题。
- message_type: 消息类型,包括以下类型
normal: 普通消息;
fifo: 有序消息;
transaction: 事务消息;
delay: 定时或延迟消息。 - consumer_group: 消费者组的 ID。
类型 | 名称 | 单位 | 描述 | 标签 |
---|---|---|---|---|
counter | rocketmq_messages_in_total | count | 生产的消息数量。 | cluster,node_type,node_id,topic,message_type |
counter | rocketmq_messages_out_total | count | 消费的消息数量。 | cluster,node_type,node_id,topic, consumer_group |
counter | rocketmq_throughput_in_total | byte | 生产的写入吞吐量。 | cluster,node_type,node_id,topic,message_type |
counter | rocketmq_throughput_out_total | byte | 生产的读取吞吐量。 | cluster,node_type,node_id,topic, consumer_group |
histogram | rocketmq_message_size | byte | 消息大小的分布。此指标仅在发送消息时进行计数。以下是分布范围 le_1_kb: ≤ 1 KB le_4_kb: ≤ 4 KB le_512_kb: ≤ 512 KB le_1_mb: ≤ 1 MB le_2_mb: ≤ 2 MB le_4_mb: ≤ 4 MB le_overflow: > 4 MB | cluster,node_type,node_id,topic,message_type |
gauge | rocketmq_consumer_ready_messages | count | 准备就绪的消息数量。 | cluster,node_type,node_id,topic, consumer_group |
gauge | rocketmq_consumer_inflight_messages | count | 正在处理的消息数量。 | cluster,node_type,node_id,topic, consumer_group |
gauge | rocketmq_consumer_queueing_latency | millisecond | 准备就绪的消息排队延迟时间。 | cluster,node_type,node_id,topic, consumer_group |
gauge | rocketmq_consumer_lag_latency | millisecond | 消费消息之前的延迟时间。 | cluster,node_type,node_id,topic, consumer_group |
counter | rocketmq_send_to_dlq_messages_total | count | 发送到死信队列的消息数量。 | cluster,node_type,node_id,topic, consumer_group |
histogram | rocketmq_rpc_latency | millisecond | RPC 调用延迟 | cluster,node_typ,node_id,protocol_type,request_code,response_code |
gauge | rocketmq_storage_message_reserve_time | millisecond | 消息保留时间。 | cluster,node_type,node_id |
gauge | rocketmq_storage_dispatch_behind_bytes | byte | 未分发的消息大小。 | cluster,node_type,node_id |
gauge | rocketmq_storage_flush_behind_bytes | byte | 未刷新的消息大小。 | cluster,node_type,node_id |
gauge | rocketmq_thread_pool_wartermark | count | 线程池中排队的任务数量。 | cluster,node_type,node_id,name |
生产者指标
下表描述了与 Apache RocketMQ 生产者相关的指标标签。
- cluster: RocketMQ 集群名称。
- node_type: 服务节点类型,包括以下类型:proxy、broker、nameserver。
- node_id: 服务节点的 ID。
- topic: Apache RocketMQ 消息队列的主题。
- message_type: 消息类型,包括以下类型
normal: 普通消息;
fifo: 有序消息;
transaction: 事务消息;
delay: 定时或延迟消息。 - client_id: 客户端的 ID。
- invocation_status: 发送消息的 API 调用结果,包括成功和失败。
类型 | 名称 | 单位 | 描述 | 标签 |
---|---|---|---|---|
Histogram | rocketmq_send_cost_time | millisecond | 生产 API 调用时间的分布。以下是分布范围 le_1_ms le_5_ms le_10_ms le_20_ms le_50_ms le_200_ms le_500_ms le_overflow | topic,client_id,invocation_status |
消费者指标
下表描述了与 Apache RocketMQ 消费者相关的指标标签。
- topic: Apache RocketMQ 消息队列的主题。
- consumer_group: 消费者组的 ID。
- client_id: 客户端的 ID。
- invocation_status: 发送消息的 API 调用结果,包括成功和失败。
类型 | 名称 | 单位 | 描述 | 标签 |
---|---|---|---|---|
Histogram | rocketmq_process_time | millisecond | 消息处理时间的分布。以下是分布范围 le_1_ms le_5_ms le_10_ms le_100_ms le_10000_ms le_60000_ms le_overflow | topic,consumer_group,client_id,invocation_status |
gauge | rocketmq_consumer_cached_messages | message | PushConsumer 本地缓冲队列中的消息数量。 | topic,consumer_group,client_id |
gauge | rocketmq_consumer_cached_bytes | byte | PushConsumer 本地缓冲队列中所有消息的总大小。 | topic,consumer_group,client_id |
Histogram | rocketmq_await_time | millisecond | PushConsumer 本地缓冲队列中消息的排队时间分布。以下是分布范围 le_1_ms le_5_ms le_20_ms le_100_ms le_1000_ms le_5000_ms le_10000_ms le_overflow | topic,consumer_group,client_id |
背景信息
RocketMQ 基于以下业务场景定义指标。
消息累积场景
上图显示了不同阶段的消息数量和持续时间。通过监控这些指标,您可以确定业务消费是否异常。下表描述了这些指标的含义以及用于计算这些指标的公式。
名称 | 描述 | 公式 |
---|---|---|
正在处理的消息 | 消费者正在处理但尚未确认的消息数量 | 最新拉取消息的偏移量 - 最新提交消息的偏移量 |
准备就绪的消息 | 准备消费的消息数量。 | 最大偏移量 - 最新拉取消息的偏移量 |
准备就绪时间 | 普通消息或有序消息:消息存储到 Broker 的时间。 定时消息:定时结束时间。 事务消息:事务提交时间。 | -- |
准备就绪消息排队时间 | 最早准备就绪消息的准备就绪时间与当前时间之间的时间间隔。此时间反映了消费者拉取消息的及时性。 | 当前时间 - 最早准备就绪消息的准备就绪时间 |
消费者延迟时间 | 最早未确认消息的准备就绪时间与当前时间之间的时差。 此时间反映了消费者完成消息处理的及时性。 | 当前时间 - 最早未确认消息的准备就绪时间 |
PushConsumer 消费场景
在 PushConsumer 中,实时消息处理能力是基于 SDK 内部典型的 Reactor 线程模型实现的。如下所示,SDK 具有内置的长时间轮询线程,该线程异步将消息拉取到 SDK 的内置缓冲队列中,然后分别将它们提交给消费者线程,触发监听器执行本地消费逻辑。
PushConsumer 场景中本地缓冲队列的指标如下
- 本地缓冲队列中的消息数量:本地缓冲队列中的消息总数。
- 本地缓冲队列中的消息大小:本地缓冲队列中所有消息大小的总和。
- 消息等待时间:消息临时缓存在本地缓冲队列中等待处理的时间。
如何获取指标
目前支持两种导出器:gRPC OTLP 和 Prometheus。
gRPC OTLP 导出器
gRPC OTLP 导出器会定期将指标报告到指定的 OpenTelemetry 收集器。
先决条件:部署支持 GRPC OpenTelemetry 协议 的 OpenTelemetry 收集器。
要启用 Broker 指标的 gRPC OTLP 导出器,请执行以下操作
- 将
metricsExporterType
设置为OTLP_GRPC
。 - 将
metricsGrpcExporterTarget
设置为 OpenTelemetry 收集器提供的端点。
可选配置
metricsGrpcExporterHeader
: 以 key1:value1,key2:value2 的格式将请求头附加到 gRPC OTLP 导出器。metricGrpcExporterTimeOutInMills
: 设置 gRPC OTLP 导出器的请求超时时间。metricGrpcExporterIntervalInMills
: 设置 gRPC OTLP 导出器的报告间隔。
Prometheus 导出器
Prometheus 导出器仅支持拉取模式和累积聚合。有关更多信息,请参阅 OpenTelemetry 指标导出器 - Prometheus。
要启用 Broker 指标的 Prometheus 导出器,请执行以下操作
- 将
metricsExporterType
设置为PROM
。
访问 http://<broker-ip>:5557/metrics
以查看指标。在 Prometheus 中配置服务发现或手动配置拉取任务以收集指标。
可选配置
metricsPromExporterPort
: Broker 公开指标服务的端口号。默认值为5557
。metricGrpcExporterTimeOutInMills
: 公开指标服务的 hostname。默认值为 Broker 向 NameServer 注册的 IP,brokerIP1。