Nubank es una de las fintech más exitosas del mundo. Parte de este éxito se debe a su capacidad de combinar velocidad, confianza y cumplimiento. Para ello, una cultura de colaboración es fundamental. En este artículo descubriremos cómo Nubank usa Slack para aprovechar (¡y reforzar!) la colaboración y la agilidad. El equipo de disponibilidad busca continuamente mejorar los procesos de gestión de incidentes a través de herramientas, procesos y más. El objetivo es acompañar al equipo de ingeniería en un recorrido para mitigar los problemas operativos en un entorno saludable, basado completamente en una cultura sin culpables y que se enfoca en el cumplimiento de todas las regulaciones aplicables a las instituciones financieras. Cualquier problema con los sistemas de Nubank que de alguna manera afecte a los clientes puede considerarse un incidente técnico. Estos incidentes son identificados por las herramientas de monitoreo de la empresa, y deben ser solucionados rápidamente por el equipo de ingeniería. Un incidente se puede dividir en dos partes:
- La primera parte es la gestión del incidente en sí
- La segunda parte es el conjunto de acciones que se ejecutan luego de la ocurrencia del incidente como planes de acción
Tan importante como prevenir incidentes es la capacidad de estar preparado para una recuperación rápida y segura, mitigar los impactos y brindar la mejor experiencia y satisfacción de nuestros clientes. Identificando un incidente Nuestro sistema de alertas permite a los equipos crear notificaciones personalizadas para sus servicios y, además, cada servicio tiene también un conjunto de alertas predeterminadas, como “servicio detenido”. Los equipos reciben un mensaje en su canal de Slack y la persona responsable recibe una notificación prioritaria para comenzar a trabajar de inmediato en el problema. “Abriendo un incidente” Nubank sigue un proceso sencillo en el que el primer paso es “abrir un incidente”. Esto significa notificar a toda la empresa de que se está trabajando en un problema y que los Nubankers ya están gestionándolo. Los incidentes identificados se informan mediante un bot a través de Slack (nuestra principal herramienta de comunicación interna). Este proceso de automatización centraliza toda la gestión de incidentes: el equipo utiliza la plataforma para abrir, editar y cerrar un caso. El mayor beneficio es poder organizar rápidamente la situación, involucrar otros equipos según la índole del problema (por ejemplo, equipos de gestión de riesgos y compliance) y dar a la empresa la visibilidad necesaria.
Adicionalmente, también permite la gestión de indicadores sobre incidencias, como por ejemplo: MTTR (tiempo medio de resolución). Antes de abrir un incidente, el equipo de ingeniería primero debe entender el nivel de gravedad del mismo en una calificación que va de 1 (crítico) a 5 (cosmético). Estas calificaciones incluyen criterios de disponibilidad, número de clientes afectados, productos afectados y problemas regulatorios, entre otros.
La principal información necesaria al abrir un “incidente” es:
- Severidad
- Breve descripción del caso
- Países afectados
- “Focal Point” (quién es la persona que actuará como el punto focal del incidente y coordinará las actividades de resolución)
- “Communications Point” (el responsable de reportar el incidente y su estado a la empresa, brindando la información necesaria a quienes la necesiten)
Después del envío del caso, se publica un resumen del incidente en Slack notificando a los equipos correspondientes mientras el equipo de ingeniería trabaja en la resolución.
Trabajando en la resolución
En esta etapa pueden suceder varias acciones. Los equipos a menudo abren una reunión virtual y comienzan a trabajar para resolver el problema. El equipo de operaciones y producto comienzan a preparar la comunicación para los clientes, mientras que el enfoque del equipo de ingeniería es mitigar el impacto y restaurar los sistemas. En este punto es importante que todos los stakeholders relevantes estén involucrados, especialmente cuando se trata de incidentes de alta gravedad, y que el Nubanker que administra la comunicación mantenga el hilo del incidente con información lo más actualizada posible. Esto permite que todos tengan actualizaciones en tiempo real. Una vez que se resuelve el incidente y se normaliza la situación, se puede cerrar el caso.
Cultura sin culpables y “postmortems”
El “postmortem” es un tema fundamental en la gestión de incidentes. El objetivo principal es asegurar que la empresa aprenda de los problemas, registre los eventos y comparta conocimientos y lecciones aprendidas sobre los casos. Una vez que se cierra un incidente, el equipo de ingeniería debe escribir un documento con los siguientes puntos:
- Resumen: una descripción breve del incidente que contiene datos sobre el nivel de gravedad, el punto focal, las comunicaciones, el tiempo de detección, el tiempo de resolución y la explicación.
- Cronograma de eventos: cronograma de los principales eventos del caso.
- Acciones de resolución: una lista de todas las acciones desarrolladas para resolver el incidente.
- Impacto en los clientes y en el negocio: breve descripción del impacto generado por el incidente.
- Causa, raíz y factores agravantes: descripción de la(s) causa(s) raíz y factores que ocasionaron o agravaron el incidente.
- Notas de la reunión: cualquier registro importante sobre lo sucedido.
- Plan de acción: una lista de elementos o acciones que deben ejecutarse para evitar que el evento vuelva a ocurrir, y ayudar a Nubank a recuperarse rápidamente en caso de incidentes futuros.
- Regulatorio: información regulatoria que se debe transmitir al Banco Central sobre incidencias.
- Referencias: cualquier referencia necesaria como enlaces útiles, artículos y otros.
Una vez que se publique este documento, estará a disposición de toda la empresa con el fin de que todos lo lean y se enteren del caso. Para que Nubank tenga un entorno de trabajo saludable para hacer frente a estas situaciones, la existencia de una cultura sin culpables es fundamental. El objetivo es siempre comprender qué sucedió y qué se debe hacer para que no vuelva a ocurrir un incidente.
Un ejemplo concreto de esta cultura de aprendizaje en Nubank es decir “¡Buena!”, levantar la mano o celebrar a través de emojis para simbolizar que los incidentes ocurren y son una interesante oportunidad para que la empresa aprenda y mejore.
Guía para mapear la jornada de tus clientes
Comprende cuáles son los canales a utilizar, cuándo ponerse en contacto con tu cliente y el mejor tipo de mensaje para utilizar.