PagerDuty image

PagerDuty aide CTC à transformer ses opérations dans un monde éloigné

PagerDuty image

Taille: 101 à 500 employés

Industrie: Services financiers

Emplacement: Chicago, Illinois

Client depuis : 2014

Intégrations clés :

JIRA
Mou
Splunk
AWS

Fondée en 1995, Chicago Trading Company (CTC) est une société de négociation de produits dérivés spécialisée dans le trading sur les marchés financiers, couvrant une variété de produits, services et stratégies. CTC intervient activement sur un large éventail de classes d'actifs, notamment les actions, les taux d'intérêt et les matières premières. Ses bureaux de négociation sont ouverts 20 heures sur 24, six jours sur sept, et la société est reconnue comme un fournisseur majeur de liquidités et de services de tarification sur de nombreuses bourses d'actions et de produits dérivés à travers le monde.

Le marché fluctuant à la microseconde près, les applications et services critiques de CTC doivent être en ligne en permanence et accessibles aux utilisateurs à tout moment afin d'offrir une expérience client cohérente, à chaque instant. « Nos services étant directement liés au marché, les temps d'arrêt sont tout simplement impossibles », explique Luke Rotta, responsable SRE et observabilité chez CTC. « Si nous ne sommes pas présents sur le marché, nous ne saisissons pas l'opportunité, et c'est une opportunité manquée. » M. Rotta est responsable de la gestion de l'observabilité chez CTC et supervise l'équipe SRE qui prend en charge, automatise et améliore la disponibilité des environnements de pré-production et de production.

CTC reduced alert noise 10x with PagerDuty

Avant PagerDuty

Avant de mettre en œuvre PagerDuty, l'équipe de Rotta a rencontré plusieurs défis, notamment :

  • Retards de réponse dus à un répertoire manuel d'astreinte avec des horaires et des rotations obsolètes
  • Difficulté à communiquer avec les intervenants de garde en dehors des heures ouvrables
  • Manque d'automatisation intégrée au processus de réponse, ce qui a entraîné davantage de travail manuel pour les intervenants de garde
  • Un tableau de bord hérité encombré d'événements et d'alertes non exploitables, créant des retards dans la reconnaissance et la résolution des incidents
  • Des tempêtes d'alerte qui ont réduit la capacité des équipes à comprendre la composition des incidents et à y répondre efficacement

Avec la récente tendance au télétravail, CTC a été contraint d'adapter rapidement ses opérations à un modèle privilégiant le numérique. De plus, la volatilité accrue des marchés a contraint ses clients à augmenter la fréquence de leurs transactions, rendant plus cruciale que jamais la disponibilité permanente de la plateforme de trading CTC.

Pour y parvenir, CTC a dû repenser son processus de gestion des incidents tout en continuant à maintenir et à offrir une expérience client cohérente. Les équipes de Rotta ont donc dû recentrer leurs efforts sur les opérations quotidiennes plutôt que sur les projets à long terme, le tout dans un nouvel environnement axé sur le télétravail. « Nos équipes se concentrent avec la plus grande attention sur la capacité des systèmes à gérer l'augmentation de capacité et à fournir des liquidités au marché pour garantir la satisfaction de nos clients », a expliqué Rotta.

Prioriser la communication et la collaboration

Avant le télétravail, la plupart des informations étaient communiquées oralement au bureau. Aujourd'hui, avec le télétravail général, la capacité à communiquer et à collaborer efficacement entre les équipes est plus importante que jamais. PagerDuty a aidé CTC à transformer ses canaux de communication sur les incidents pour les rendre entièrement numériques. « PagerDuty nous a vraiment appris à gérer un incident à distance et nous a permis de centraliser notre processus de gestion des incidents afin de rassembler rapidement les équipes sur un canal unique et de prendre des décisions directement à partir de là. »

CTC s'appuie également sur Slack, qui fait partie de PagerDuty écosystème de plus de 600 intégrations , pour améliorer la communication et la collaboration entre les équipes en cas d'incident, ainsi que pour réaliser des analyses post-mortem. Intégration Slack Les équipes peuvent créer, gérer et résoudre les incidents PagerDuty directement depuis l'interface Slack, ce qui allège le stress lié à la multiplicité des canaux de communication et permet à toutes les équipes concernées de travailler ensemble sur l'incident. « Comme toutes les équipes travaillent désormais à distance, nous créons l'incident directement dans Slack. Le manuel indique à chacun la salle Zoom à laquelle se connecter, et c'est parti », a expliqué Rotta.

Améliorer la visibilité opérationnelle

Dans un environnement numérique, il est essentiel que les parties prenantes aient une visibilité totale sur la santé de leurs systèmes et services critiques en temps réel afin qu'elles puissent rapidement orchestrer une réponse appropriée lorsqu'un incident se produit.

Avant PagerDuty, CTC utilisait un tableau de bord traditionnel qui alertait l'équipe des interruptions de service et des incidents. « Nous étions confrontés à ce que nous appelons le 'mur rouge', un écran rempli de centaines d'alertes, sans aucune idée de ce qui était impacté ni de ce qui se passait dans notre environnement », explique Rotta.

Pour lutter contre ce problème, le CTC a mis en œuvre Intelligence des événements PagerDuty pour regrouper automatiquement les alertes et réduire le bruit pour tous les services et applications critiques. « Avant PagerDuty, nous recevions parfois entre 50 et 200 alertes simultanément. Grâce à Event Intelligence, ce nombre est désormais réduit à 5 à 10 », explique Rotta.

Grâce à Event Intelligence, les équipes d'intervention de CTC disposent également du contexte nécessaire pour résoudre rapidement un problème avant qu'il n'ait un impact majeur sur les clients. « La possibilité de réduire le bruit et de supprimer les alertes au sein de la plateforme libère énormément de temps pour que notre équipe SRE puisse se concentrer sur des tâches à plus fort impact », a déclaré Rotta.

Comme de nombreuses entreprises aujourd'hui, CTC doit continuer à évoluer pour répondre à la demande des clients et aux innovations. Même si la rapidité est un enjeu majeur pour une société de trading comme CTC, l'exécution de charges de travail non sensibles à la latence sur AWS a permis à CTC d'évoluer plus rapidement et de réduire le délai de commercialisation des idées. Nombre des nouveaux services déployés sur AWS suivent une approche « vous le construisez, vous le possédez », et PagerDuty offre un moyen unique de remonter, de suivre et de mesurer les incidents dans toute l'entreprise, quel que soit le propriétaire ou le support du service.

« La possibilité de réduire le bruit et de supprimer les alertes au sein de la plateforme libère vraiment beaucoup de temps pour que les membres de notre équipe SRE puissent se concentrer sur des tâches à plus fort impact. »

– Luke Rotta , Responsable, SRE et observabilité, CTC

Avantages avec PagerDuty

Depuis la mise en œuvre de PagerDuty, CTC a constaté plusieurs avantages, notamment :

  • Réduction de la fatigue liée aux alertes et amélioration de la réponse aux incidents grâce à Intelligence des événements PagerDuty
  • Délai moyen d'accusé de réception/temps moyen de réponse (MTTA/MTTR) plus rapide sur tous les systèmes et services critiques
  • Amélioration de la gestion quotidienne des incidents et possibilité d'automatiser le transfert des incidents d'une équipe à l'autre
  • Une ligne de communication ouverte avec les traders seniors sur le terrain qui transmet les incidents aux responsables de permanence dans tous les fuseaux horaires si nécessaire
  • Expérience de gestion des incidents transparente pour les applications 24h/24 et 7j/7 exécutées sur AWS

PagerDuty a également contribué à la stratégie de continuité des activités de CTC. « Dans ce nouvel environnement de télétravail, les employés peuvent se sentir déconnectés de la situation, et nous essayons de remédier à ce problème avec PagerDuty. Presque tous les employés de l'entreprise utilisent la plateforme PagerDuty , qu'ils soient actionnaires ou utilisateurs à part entière », a expliqué M. Rotta.

Regard vers l'avenir

CTC prévoit de continuer à étendre l'utilisation de PagerDuty à l'ensemble de l'organisation. Par exemple, l'entreprise a décidé de se concentrer davantage sur les indicateurs pour éclairer les actions futures. L'équipe de Rotta étudie donc les revues opérationnelles, ainsi que les Analyses et tableaux de bord intelligents de PagerDuty , pour mieux comprendre la santé des équipes et l'impact des incidents sur l'entreprise, mesurer les accords de niveau de service (SLA) et partager facilement les indicateurs avec la direction. « Cela pourrait nous aider à prendre des décisions éclairées quant aux applications dans lesquelles nous devons investir », a expliqué M. Rotta.

De plus, si CTC a déjà configuré tous ses principaux services métier dans Status Dashboards, l'entreprise souhaite étendre son utilisation à l'ensemble de l'entreprise en offrant à la direction une meilleure visibilité sur l'état d'un incident ou d'un service. À mesure que la plateforme PagerDuty évolue avec CTC, Rotta et son équipe se réjouissent d'étendre ses fonctionnalités à d'autres parties de leur infrastructure. « J'apprécie sa simplicité. Je n'ai rien à gérer, elle fait son travail », a-t-il expliqué.

Pour savoir comment PagerDuty peut aider votre équipe à simplifier les choses et à transformer les opérations dans un monde numérique, contactez votre gestionnaire de compte ou essayez un Essai gratuit de 14 jours aujourd'hui.