{ } API & WEBHOOK

Entegrasyon dayanıklılığı: outage runbook’u

Buaze API’si veya dış sisteminiz geçici olarak yanıt vermediğinde kurtarma ve müşteri etkisini sıfıra indirme adımları.

Güncelleme:

Hiçbir entegrasyon %100 uptime ile çalışmaz. Önemli olan kesinti olduğunda fark edilmesi, iletişim kurulması ve geri kazanılması; geri kalan büyük ölçüde otomatik akıştır.

Outage anında en pahalı şey panik değildir; “bunu kim çözecek” sorusudur. Runbook bu sorunun cevabını önceden yazılı tutar.

4 saatlik runbook

  • 00:00 — Olay tespit (alarm veya manuel).
  • 00:05 — On-call kişi onayladı, paneli kontrol etti.
  • 00:15 — Müşteri etkisi tahmin edildi.
  • 01:00 — Geçici workaround uygulandı (manuel mod).
  • 04:00 — Kalıcı çözüm planı çıkarıldı.

Manuel mod

Webhook çalışmıyorsa Buaze paneli çalışmaya devam eder. Kritik bildirimler için geçici manuel mod: ekip panelden son 4 saatlik düşük puanları her saat başı manuel kontrol eder. Bu, otomatik akış restore olana kadar yeterlidir.

İletişim

Müşteriye outage iletişimi yapmak çoğu zaman gerekmez; çünkü Buaze müşteri ile doğrudan değil işletme ile temas halindedir. Ancak ekip iç iletişimi için bir status sayfası veya Slack kanalı, “kim ne biliyor” sorusunu siler.

Bir kesintinin ekibe maliyeti dakikada hesaplanmaz; “neyin çalışıp çalışmadığını bilmemekten” doğan endişede hesaplanır.

Postmortem

Olay bittiğinde 24 saat içinde kısa bir postmortem yazın. Incident response rehberindeki disiplin burada da geçerlidir: kök neden, etki, alınan aksiyon, gelecek için önlem.

Kontrol listesi / Checklist

  • On-call rotasyonu yazılı.
  • Manuel mod prosedürü mevcut.
  • Status iletişim kanalı kurulu.
  • 4 saatlik runbook denendi.
  • Postmortem template’i hazır.
  • Alarm eşikleri yıllık gözden geçirildi.
  • Yedek webhook hedefi (failover) tanımlı.

SSS / FAQ

Outage Buaze tarafında mı yoksa benim sistemimde mi?

Buaze status sayfası veya destek kanalı ilk kontrol noktasıdır. Buaze çalışıyorsa kontrol kendi sisteminize geçer; webhook payload’ı log’larınıza ulaşmıyorsa endpoint’iniz hatadadır.

Kayıp eventleri sonradan alabilir miyim?

Webhook retry mekanizması belirli bir süre boyunca tekrar dener. Sürenin dışında kalan eventler için CSV export ile telafi yapabilirsiniz.

Outage’da müşteri yorum yazamaz mı?

QR akışı ve panel ayrı katmandır. Webhook gibi yan akışlar olmadan bile yorum kabulü çalışmaya devam eder.

Birden fazla webhook hedefim var, hepsi aynı anda etkilenir mi?

Genellikle hayır. Hedef başına bağımsız teslim akışları çalışır; biri kesilirse diğerleri etkilenmez.

Sorun çözülmedi mi?

Destek ekibimize yaz, 2 saat içinde dönelim. Ortalama yanıt süremiz 12 dakika.

İletişime geç