跳至主要内容
版本: 5.0

指标

RocketMQ 以 Prometheus 格式公开以下指标。您可以使用这些指标监控您的集群。

  • Broker 指标
  • 生产者指标
  • 消费者指标

版本支持:RocketMQ 的以下指标是在 5.1.0 版本中引入的,仅支持 Broker。

指标详情

指标类型

RocketMQ 中定义指标的标准符合开源 Prometheus 中定义指标的标准。RocketMQ 提供的指标类型包括计数器、仪表盘和直方图。有关更多信息,请参阅 指标类型

Broker 指标

下表描述了与 Apache RocketMQ Broker 消息队列相关的指标标签。

  • cluster: RocketMQ 集群名称。
  • node_type: 服务节点类型,包括以下类型:proxy、broker、nameserver。
  • node_id: 服务节点的 ID。
  • topic: RocketMQ 的主题。
  • message_type: 消息类型,包括以下类型
    normal: 普通消息;
    fifo: 有序消息;
    transaction: 事务消息;
    delay: 定时或延迟消息。
  • consumer_group: 消费者组的 ID。
类型名称单位描述标签
counterrocketmq_messages_in_totalcount生产的消息数量。cluster,node_type,node_id,topic,message_type
counterrocketmq_messages_out_totalcount消费的消息数量。cluster,node_type,node_id,topic, consumer_group
counterrocketmq_throughput_in_totalbyte生产的写入吞吐量。cluster,node_type,node_id,topic,message_type
counterrocketmq_throughput_out_totalbyte生产的读取吞吐量。cluster,node_type,node_id,topic, consumer_group
histogramrocketmq_message_sizebyte消息大小的分布。此指标仅在发送消息时进行计数。以下是分布范围
le_1_kb: ≤ 1 KB
le_4_kb: ≤ 4 KB
le_512_kb: ≤ 512 KB
le_1_mb: ≤ 1 MB
le_2_mb: ≤ 2 MB
le_4_mb: ≤ 4 MB
le_overflow: > 4 MB
cluster,node_type,node_id,topic,message_type
gaugerocketmq_consumer_ready_messagescount准备就绪的消息数量。cluster,node_type,node_id,topic, consumer_group
gaugerocketmq_consumer_inflight_messagescount正在处理的消息数量。cluster,node_type,node_id,topic, consumer_group
gaugerocketmq_consumer_queueing_latencymillisecond准备就绪的消息排队延迟时间。cluster,node_type,node_id,topic, consumer_group
gaugerocketmq_consumer_lag_latencymillisecond消费消息之前的延迟时间。cluster,node_type,node_id,topic, consumer_group
counterrocketmq_send_to_dlq_messages_totalcount发送到死信队列的消息数量。cluster,node_type,node_id,topic, consumer_group
histogramrocketmq_rpc_latencymillisecondRPC 调用延迟cluster,node_typ,node_id,protocol_type,request_code,response_code
gaugerocketmq_storage_message_reserve_timemillisecond消息保留时间。cluster,node_type,node_id
gaugerocketmq_storage_dispatch_behind_bytesbyte未分发的消息大小。cluster,node_type,node_id
gaugerocketmq_storage_flush_behind_bytesbyte未刷新的消息大小。cluster,node_type,node_id
gaugerocketmq_thread_pool_wartermarkcount线程池中排队的任务数量。cluster,node_type,node_id,name

生产者指标

下表描述了与 Apache RocketMQ 生产者相关的指标标签。

  • cluster: RocketMQ 集群名称。
  • node_type: 服务节点类型,包括以下类型:proxy、broker、nameserver。
  • node_id: 服务节点的 ID。
  • topic: Apache RocketMQ 消息队列的主题。
  • message_type: 消息类型,包括以下类型
    normal: 普通消息;
    fifo: 有序消息;
    transaction: 事务消息;
    delay: 定时或延迟消息。
  • client_id: 客户端的 ID。
  • invocation_status: 发送消息的 API 调用结果,包括成功和失败。
类型名称单位描述标签
Histogramrocketmq_send_cost_timemillisecond生产 API 调用时间的分布。以下是分布范围
le_1_ms
le_5_ms
le_10_ms
le_20_ms
le_50_ms
le_200_ms
le_500_ms
le_overflow
topic,client_id,invocation_status

消费者指标

下表描述了与 Apache RocketMQ 消费者相关的指标标签。

  • topic: Apache RocketMQ 消息队列的主题。
  • consumer_group: 消费者组的 ID。
  • client_id: 客户端的 ID。
  • invocation_status: 发送消息的 API 调用结果,包括成功和失败。
类型名称单位描述标签
Histogramrocketmq_process_timemillisecond消息处理时间的分布。以下是分布范围
le_1_ms
le_5_ms  
le_10_ms
le_100_ms
le_10000_ms
le_60000_ms
le_overflow
topic,consumer_group,client_id,invocation_status
gaugerocketmq_consumer_cached_messagesmessagePushConsumer 本地缓冲队列中的消息数量。topic,consumer_group,client_id
gaugerocketmq_consumer_cached_bytesbytePushConsumer 本地缓冲队列中所有消息的总大小。topic,consumer_group,client_id
Histogramrocketmq_await_timemillisecondPushConsumer 本地缓冲队列中消息的排队时间分布。以下是分布范围
le_1_ms
le_5_ms
le_20_ms
le_100_ms
le_1000_ms
le_5000_ms
le_10000_ms
le_overflow
topic,consumer_group,client_id

背景信息

RocketMQ 基于以下业务场景定义指标。

消息累积场景

rocketmq queue meesage stuatus
上图显示了不同阶段的消息数量和持续时间。通过监控这些指标,您可以确定业务消费是否异常。下表描述了这些指标的含义以及用于计算这些指标的公式。

名称描述公式
正在处理的消息消费者正在处理但尚未确认的消息数量最新拉取消息的偏移量 - 最新提交消息的偏移量
准备就绪的消息准备消费的消息数量。最大偏移量 - 最新拉取消息的偏移量
准备就绪时间普通消息或有序消息:消息存储到 Broker 的时间。 
定时消息:定时结束时间。
 事务消息:事务提交时间。
--
准备就绪消息排队时间最早准备就绪消息的准备就绪时间与当前时间之间的时间间隔。此时间反映了消费者拉取消息的及时性。当前时间 - 最早准备就绪消息的准备就绪时间
消费者延迟时间最早未确认消息的准备就绪时间与当前时间之间的时差。
此时间反映了消费者完成消息处理的及时性。
当前时间 - 最早未确认消息的准备就绪时间

PushConsumer 消费场景

在 PushConsumer 中,实时消息处理能力是基于 SDK 内部典型的 Reactor 线程模型实现的。如下所示,SDK 具有内置的长时间轮询线程,该线程异步将消息拉取到 SDK 的内置缓冲队列中,然后分别将它们提交给消费者线程,触发监听器执行本地消费逻辑。
PushConsumer client
PushConsumer 场景中本地缓冲队列的指标如下

  • 本地缓冲队列中的消息数量:本地缓冲队列中的消息总数。
  • 本地缓冲队列中的消息大小:本地缓冲队列中所有消息大小的总和。
  • 消息等待时间:消息临时缓存在本地缓冲队列中等待处理的时间。

如何获取指标

目前支持两种导出器:gRPC OTLP 和 Prometheus。

gRPC OTLP 导出器

gRPC OTLP 导出器会定期将指标报告到指定的 OpenTelemetry 收集器。

先决条件:部署支持 GRPC OpenTelemetry 协议 的 OpenTelemetry 收集器。

要启用 Broker 指标的 gRPC OTLP 导出器,请执行以下操作

  1. metricsExporterType 设置为 OTLP_GRPC
  2. metricsGrpcExporterTarget 设置为 OpenTelemetry 收集器提供的端点。

可选配置

  1. metricsGrpcExporterHeader: 以 key1:value1,key2:value2 的格式将请求头附加到 gRPC OTLP 导出器。
  2. metricGrpcExporterTimeOutInMills: 设置 gRPC OTLP 导出器的请求超时时间。
  3. metricGrpcExporterIntervalInMills: 设置 gRPC OTLP 导出器的报告间隔。

Prometheus 导出器

Prometheus 导出器仅支持拉取模式和累积聚合。有关更多信息,请参阅 OpenTelemetry 指标导出器 - Prometheus

要启用 Broker 指标的 Prometheus 导出器,请执行以下操作

  1. metricsExporterType 设置为 PROM

访问 http://<broker-ip>:5557/metrics 以查看指标。在 Prometheus 中配置服务发现或手动配置拉取任务以收集指标。

可选配置

  1. metricsPromExporterPort: Broker 公开指标服务的端口号。默认值为 5557
  2. metricGrpcExporterTimeOutInMills: 公开指标服务的 hostname。默认值为 Broker 向 NameServer 注册的 IP,brokerIP1。