オブザーバビリティとは

オブザーバビリティ(可観測性)は、システムの外部出力からその内部状態を推測できる能力です。従来の「監視(Monitoring)」が既知の問題を検知するのに対し、オブザーバビリティは未知の問題も探索できる点が異なります。

オブザーバビリティの3本柱

内容 ツール例
メトリクス 数値で表された時系列データ Prometheus・Datadog
ログ 時系列のイベント記録 Loki・Elasticsearch
トレース リクエストの処理経路 Jaeger・Zipkin

PrometheusとGrafanaの構成

Prometheusがメトリクスを収集・保存し、Grafanaがそのデータを可視化するダッシュボードを提供します。この組み合わせはオープンソースの標準スタックです。

# docker-compose.yml(基本構成)
services:
  prometheus:
    image: prom/prometheus
    volumes:
      - ./prometheus.yml:/etc/prometheus/prometheus.yml
    ports:
      - "9090:9090"

  grafana:
    image: grafana/grafana
    ports:
      - "3000:3000"
    environment:
      - GF_SECURITY_ADMIN_PASSWORD=admin

重要なメトリクス(The Four Golden Signals)

  1. レイテンシ:リクエストの処理時間
  2. トラフィック:秒間リクエスト数
  3. エラーレート:失敗したリクエストの割合
  4. サチュレーション:リソース使用率(CPU・メモリ)

アラートの設計原則

  • 症状ベースのアラート:「CPUが80%」でなく「エラーレートが1%超」をトリガーに
  • ページするアラートは最小限に:深夜に起こすアラートは本当に緊急のものだけ
  • ランブックのリンク:アラートに対処手順書へのリンクを添付

監視基盤は「問題が起きてから慌てる」のではなく、「何が起きているかを常に見える化する」ことで運用の質を根本から変えます。