Node.js Monitoring & Observability

Introduction to Observability

Observability in Node.js applications involves collecting and analyzing metrics and logs to understand system behavior.

Key Pillars of Observability: Metrics, Logs, and Traces (often called the "three pillars of observability") provide different but complementary views of your system's health and performance.

Application Metrics Collection

Using Prometheus Client

Basic Metrics Collection

Key Metrics to Monitor

System Metrics

CPU Usage
Memory Usage (Heap & RSS)
Event Loop Lag
Garbage Collection
Active Handles/Requests

Application Metrics

Request Rate & Duration
Error Rates
Database Query Performance
Cache Hit/Miss Ratios
Queue Lengths

Distributed Tracing

Distributed tracing helps track requests as they flow through multiple services in a microservices architecture.

OpenTelemetry Setup

// Install required packages
// npm install @opentelemetry/sdk-node @opentelemetry/auto-instrumentations-http
// npm install @opentelemetry/exporter-trace-otlp-http

const { NodeSDK } = require('@opentelemetry/sdk-node');
const { getNodeAutoInstrumentations } = require('@opentelemetry/auto-instrumentations-node');
const { OTLPTraceExporter } = require('@opentelemetry/exporter-trace-otlp-http');
const { Resource } = require('@opentelemetry/resources');
const { SemanticResourceAttributes } = require('@opentelemetry/semantic-conventions');

const sdk = new NodeSDK({
  resource: new Resource({
    [SemanticResourceAttributes.SERVICE_NAME]: 'my-service',
    [SemanticResourceAttributes.SERVICE_VERSION]: '1.0.0',
  }),
  traceExporter: new OTLPTraceExporter({
    url: 'http://collector:4318/v1/traces',
  }),
  instrumentations: [getNodeAutoInstrumentations()],
});

sdk.start()
  .then(() => console.log('Tracing initialized'))
  .catch((error) => console.log('Error initializing tracing', error));

Logging Best Practices

Structured Logging with Pino

Log Enrichment

// Add context to logs
app.use((req, res, next) => {
  const childLogger = logger.child({
    requestId: req.id,
    userId: req.user?.id || 'anonymous',
    path: req.path,
    method: req.method
  });
  req.log = childLogger;
  next();
});

Alerting and Visualization

Grafana Dashboard Example

Visualize your metrics with Grafana dashboards. Example queries for common metrics:

# Node.js Memory Usage (RSS in MB)
process_resident_memory_bytes{job="nodejs"} / 1024 / 1024

# Request Duration (p99 in ms)
histogram_quantile(0.99, sum(rate(http_request_duration_seconds_bucket[5m])) by (le)) * 1000

# Error Rate
sum(rate(http_requests_total{status=~"5.."}[5m])) / sum(rate(http_requests_total[5m]))

Alerting Rules (Prometheus)

groups:
- name: nodejs
  rules:
  - alert: HighErrorRate
    expr: rate(http_requests_total{status=~"5.."}[5m]) / rate(http_requests_total[5m]) > 0.05
    for: 10m
    labels:
      severity: critical
    annotations:
      summary: "High error rate on {{ $labels.instance }}"

Production Monitoring Tools

Open Source

Prometheus + Grafana
Elasticsearch + Fluentd + Kibana (EFK)
Jaeger
Loki

Commercial

Datadog
New Relic
Dynatrace
AppDynamics

Cloud Native

AWS CloudWatch
Google Cloud Operations
Azure Monitor
OpenTelemetry Collector

Best Practices

Do's

Use structured logging with consistent formats
Monitor both system and application metrics
Set up alerts based on SLOs (Service Level Objectives)
Use distributed tracing for microservices

Don'ts

Don't log sensitive information
Avoid high-cardinality labels in metrics
Don't rely solely on logs for debugging
Avoid alert fatigue - focus on actionable alerts

< Previous Next >

★ +1

Track your progress - it's free!

Node.js Tutorial

Asynchronous

Module Basics

Core Modules

JS & TS Features

Building Applications

Database Integration

Advanced Communication

Testing & Debugging

Node.js Deployment

Perfomance & Scaling

Node.js Advanced

Hardware & IoT

Node.js Reference

Resources & Tools