DokümanlarRehberlerAlarm Rehberi

Rehberler

Alarm Rehberi

Eşik tabanlı alarmlar kur ve yönlendir.

Uyarı Yönetimi (Alert Management)

DevOpsZon'un uyarı sistemi, servislerinizin ve altyapınızın sağlığını proaktif olarak izlemenizi sağlar. Metrik ve log tabanlı kurallar tanımlayarak, sorunları kullanıcılarınızdan önce tespit edin.


Uyarı Sistemi Nasıl Çalışır?

DevOpsZon uyarı pipeline'ı şu aşamalardan oluşur:

Metrik/Log Toplama → Kural Değerlendirme → Uyarı Tetikleme → Bildirim Gönderme
 (Komuta Metrics    →    (Uyarı kuralı)  → (Komuta Alerts) → (E-posta/Slack/...)
  / Komuta Logs)
  1. Komuta Metrics cluster'daki metrikleri toplar
  2. Komuta Logs uygulama loglarını toplar
  3. Tanımlanan kurallar periyodik olarak değerlendirilir
  4. Koşul sağlandığında Komuta Alerts üzerinden uyarı tetiklenir
  5. Bildirim kanallarınıza anlık bildirim gönderilir
  6. Panel üzerinde gerçek zamanlı güncelleme yapılır

Uyarı Kapsamları

DevOpsZon'da uyarılar iki kapsamda yönetilir:

Global Uyarılar

Sol menüdeki Alerts sayfasından uygulama genelindeki tüm uyarı kurallarını yönetin. Bu sayfada:

  • Tüm cluster ve servislere ait uyarılar listelenir
  • Cluster veya servis bazında filtreleme yapabilirsiniz
  • Yeni kural oluşturabilir, mevcut kuralları düzenleyebilirsiniz

Servis Bazlı Uyarılar

Service ManagementAlert Management sekmesinden yalnızca seçili servise ait uyarıları yönetin. Bu, tek bir servisin sağlığına odaklanmanızı sağlar.


Uyarı Kuralı Oluşturma

Adım 1: Kural Tipini Seçin

TipAçıklamaSorgu Dili
Metrik tabanlıCPU, bellek, istek sayısı gibi metriklere dayalıMetrik sorgu dili
Log tabanlıUygulama loglarındaki kalıplara dayalıLog sorgu dili

Adım 2: Sorguyu Tanımlayın

Metrik tabanlı örnekler:

SenaryoMetrik Sorgusu
CPU %80'in üzerinderate(container_cpu_usage_seconds_total[5m]) > 0.8
Bellek %90'ın üzerindecontainer_memory_working_set_bytes / container_spec_memory_limit_bytes > 0.9
5xx hata oranı yüksekrate(http_requests_total{status=~"5.."}[5m]) > 0.05
Pod restart sayısı arttıincrease(pod_container_status_restarts_total[1h]) > 3

Log tabanlı örnekler:

SenaryoLog Sorgusu
Error logu tespit`{app="my-service"}
Exception sayısı yüksek`count_over_time({app="my-service"}

Adım 3: Şiddeti (Severity) Belirleyin

SeviyeKullanım Alanı
InfoBilgilendirme amaçlı; acil müdahale gerektirmez
WarningDikkat gerektiren durum; yakında sorun olabilir
CriticalAcil müdahale gerekli; servis etkilenmiş olabilir
EmergencySistem tamamen etkilenmiş; anında müdahale şart

Adım 4: Süreyi Belirleyin

Uyarının tetiklenmesi için koşulun kaç dakika boyunca sürekli sağlanması gerektiğini belirleyin. Bu, geçici dalgalanmaların yanlış alarm oluşturmasını önler.

SüreKullanım
1 dakikaAnlık sorunlar için hızlı tespit
5 dakikaGenel amaçlı; çoğu senaryo için uygun
15 dakikaTrend bazlı sorunlar; kısa süreli dalgalanmaları filtreler

Adım 5: Bildirim Kanalını Seçin

Uyarı tetiklendiğinde hangi kanallara bildirim gönderileceğini seçin. Birden fazla kanal seçebilirsiniz.

Adım 6: Test Edin

Kuralınızı kaydetmeden önce Test butonuyla doğrulayın. Test, sorgunuzu cluster üzerinde çalıştırarak mevcut durumda uyarının tetiklenip tetiklenmeyeceğini gösterir.

Adım 7: Kubernetes'e Deploy Edin

Kaydettiğiniz kural otomatik olarak Kubernetes cluster'ına PrometheusRule CRD olarak deploy edilir ve izleme başlar.


Uyarı Şablonları

DevOpsZon, sık kullanılan senaryolar için hazır uyarı şablonları sunar:

ŞablonAçıklama
Yüksek CPU KullanımıCPU limiti aşılmak üzere
Yüksek Bellek KullanımıBellek limiti aşılmak üzere
Pod Restart DöngüsüPod sürekli yeniden başlatılıyor
5xx Hata OranıHTTP 5xx hataları artıyor
Disk DolulukDisk kapasitesi azalıyor
Veritabanı Bağlantı HavuzuBağlantı havuzu dolmak üzere

Şablonları doğrudan kullanabilir veya özelleştirerek yeni kurallar oluşturabilirsiniz.


Bildirim Kanalları

Uyarı bildirimlerini şu kanallar üzerinden alabilirsiniz:

KanalYapılandırma
E-postaSMTP ayarları ve alıcı adresleri
SlackWebhook URL ile kanal entegrasyonu
TelegramBot token ve chat ID
Microsoft TeamsIncoming webhook URL
PagerDutyIntegration key ile olay yönetimi
SMSTelefon numarası ve SMS sağlayıcı ayarları
WhatsAppBusiness API entegrasyonu
WebhookÖzel HTTP endpoint'e POST isteği

Bildirim kanallarını Notifications sayfasından yapılandırabilirsiniz.


Uyarı Susturma (Silence)

Planlı bakım veya bilinen sorunlar sırasında belirli uyarıları geçici olarak susturabilirsiniz:

  1. Uyarı listesinde susturmak istediğiniz kuralın yanındaki Sustur butonuna tıklayın
  2. Süre belirleyin (ör: 2 saat, 1 gün)
  3. İsteğe bağlı bir açıklama ekleyin
  4. Belirlenen süre sonunda uyarı otomatik olarak tekrar aktif olur

Addon Uyarıları

Yönetilen servisler (PostgreSQL, RabbitMQ, Valkey) oluşturulduğunda otomatik olarak temel uyarı kuralları tanımlanır:

ServisOtomatik Uyarılar
PostgreSQLYüksek CPU, bellek, disk, bağlantı havuzu, replication lag
RabbitMQKuyruk doluluk, bellek, bağlantı sayısı
ValkeyBellek kullanımı, bağlantı sayısı

Bu uyarılar varsayılan olarak aktiftir ve ihtiyacınıza göre özelleştirebilirsiniz.


İpuçları

  • Kademeli uyarı: Aynı metrik için farklı eşiklerle Warning ve Critical uyarıları tanımlayın
  • Süre ayarı: Çok kısa süreler yanlış alarm üretir, çok uzun süreler geç tespit'e neden olur
  • Test: Her kuralı kaydetmeden önce mutlaka test edin
  • Bildirim yorgunluğu: Çok fazla uyarı, önemli uyarıların gözden kaçmasına neden olur; sadece aksiyon gerektiren uyarılar tanımlayın