Cloudflare reduziert die durchschnittliche Reaktionszeit mit PagerDuty auf Sekunden

PagerDuty image

Größe: 415+ Mitarbeiter

Industrie: Informationstechnologie und -dienste

Standort: San Francisco, Kalifornien

Kunde seit: 2016

Als globale, cloudbasierte Performance- und Sicherheitslösung für über 6 Millionen Internetressourcen sorgt Cloudflare dafür, dass Kundenwebsites, -anwendungen und -APIs sicher, leistungsstark und hochverfügbar sind. Da Cloudflare über 10 % des weltweiten Internetverkehrs abwickelt, ist es unerlässlich, dass die Dienste von Cloudflare für Kunden in großem Umfang online bleiben und gleichzeitig die SLA-Verfügbarkeit gewährleistet ist, indem Störungen erkannt und behoben werden, lange bevor der Betrieb überhaupt unterbrochen wird. Das Site Reliability Engineering (SRE)-Team von Cloudflare unter der Leitung von Michael Daly suchte nach einer Lösung zur Störungsbehebung, die Cloudflare dabei helfen würde, die Betriebsstabilität zu erhöhen und gleichzeitig jedem Kunden ein einwandfreies Erlebnis zu bieten.

Herausforderungen: Sichtbarkeit, Kommunikation und Eskalation

Cloudflare stand vor der Einführung von PagerDuty vor drei Herausforderungen. Die erste betraf die Optik. „Wir wussten nicht sofort, wenn etwas kaputt war, weil das Entwicklungsteam bei einem Vorfall keine automatischen Benachrichtigungen erhielt“, erklärte Michael.

Die zweite Herausforderung bestand im Vorfallmanagement. Sobald ein Problem entdeckt wurde, musste das Engineering-Team es manuell beheben. Die Ingenieure verbrachten Zeit damit, die Ursache des Problems zu diagnostizieren. Wenn für eine Lösung die Unterstützung einer anderen Abteilung erforderlich war, mussten die SREs diese Person per Telefon, SMS oder Chat kontaktieren – eine Aufgabe, die sich als schwierig erwies, wenn die Vorfälle nach Feierabend oder am Wochenende auftraten.

Angesichts des rasanten Wachstums von Cloudflare – von weniger als 800.000 Kunden im Jahr 2013 auf über 6 Millionen im Jahr 2016 – wurde es für Michaels Team immer schwieriger, aus der wachsenden Datenmenge der Überwachungstools die relevanten kritischen Vorfälle herauszufiltern. Das Team wollte zwar keine potenziell nützlichen Informationen verwerfen, musste aber verwandte Symptome gruppieren, um verwertbare Erkenntnisse zu gewinnen. Ohne die Unterstützung des dynamischen Ereignismanagements und der Triage, der Automatisierung und anderer Funktionen von PagerDuty mussten Michael und seine Mitarbeiter die Schwere jedes Vorfalls manuell bewerten. Dieser Prozess wurde zu langsam, um die exponentiell wachsende Kundenzahl optimal zu bedienen.

„Die durchschnittliche Zeit bis zur Aktion ist von mehreren Minuten auf Sekunden gesunken.“

– Michael Daly , Engineering Manager, Cloudflare

Höhere Stabilität und Reaktionszeit mit PagerDuty

Mit PagerDuty hat Cloudflare all diese Herausforderungen gelöst. PagerDuty stellt sicher, dass Michael und sein Team immer sofort über Vorfälle informiert werden. Sollte ein Vorfall von einem anderen Team bearbeitet werden müssen, leitet PagerDuty die Benachrichtigung automatisch weiter, um Zeit zu sparen.

Das Cloudflare SRE-Team verwendet außerdem die Operations-Kommandokonsole und profitieren von Funktionen wie der Hervorhebung dringender Vorfälle in der Anwendung „Major Incidents“. Dank der vollständigen Transparenz ihrer Infrastruktur sowie der Erkennung von Mustern und Anomalien entgehen ihnen keine schwerwiegenden Ereignisse mehr. Michael erklärte: „Als wir PagerDuty eingeführt haben, konnten wir bestimmte Warnmeldungen erfassen und uns sagen: Diese ist wirklich wichtig. Wir müssen uns sofort darum kümmern.“

Darüber hinaus sind weitere Funktionen wie PagerDuty's HipChat-Integration Das SRE-Team von Cloudflare konnte bei der Reaktion auf Vorfälle einfacher kommunizieren, zusammenarbeiten, betriebsbezogene Aufgaben mit Befehlen automatisieren, gemeinsam lernen und vieles mehr. PagerDuty macht es für SREs außerdem überflüssig, manuell nach den Kontaktdaten des richtigen Experten zu suchen, da Einzelpersonen, Teams oder Geschäftsinteressenten mit nur einem Klick informiert und für einen Vorfall rekrutiert werden können. Mit PagerDuty können sie sofort Kontakt aufnehmen.

Besonders wichtig: PagerDuty reduzierte die Zeit, die Michael und sein Team für die Reaktion auf Vorfälle benötigten, auf einen Bruchteil der bisherigen Zeit. „Die durchschnittliche Reaktionszeit ist von Minuten auf Sekunden gesunken“, sagte Michael und fügte hinzu, dass schnellere Reaktionszeiten zu höherer Servicezuverlässigkeit und besseren Kundenergebnissen führen – was das ultimative Ziel und der Grund ist, warum Cloudflare sich überhaupt für PagerDuty entschieden hat.

Wir hatten mehrere Optionen, entschieden uns aber für PagerDuty , weil wir weniger Aufwand hatten, um PagerDuty mit unseren Systemen zu verbinden. Es war sehr gut formatiert, die API funktionierte einwandfrei und die Ausgabe der App war sehr einfach zu interpretieren.

– Michael Daly , Engineering Manager, Cloudflare