🔎 ¿Qué estamos buscamos?
En Xepelin estamos buscando personas creativas y visionarias que piensen fuera de la caja para sumarse a nuestro equipo. Si te apasiona resolver desafíos interesantes de alto impacto y quieres ser parte de un entorno dinámico que está transformando la industria financiera, ¡Esta oportunidad es para ti!
El rol se integrará a nuestro equipo de Platform-SRE. Si te motiva el desafío de construir soluciones innovadoras en un entorno de rápido cambio, queremos conocerte.
Unete a nosotros, crezcamos juntos!
🎯 Principales responsabilidades
- Liderar la implementación y evolución de herramientas de monitoreo y observabilidad, como Datadog.
- Diseñar, implementar y evaluar estrategias avanzadas de monitoreo y alerta.
- Trabajar estrechamente con equipos de desarrollo para garantizar la fiabilidad y rendimiento óptimos de las aplicaciones.
- Desarrollar y ejecutar planes avanzados de recuperación ante desastres y continuidad del negocio.
- Dirigir análisis post-mortem complejos de incidentes y garantizar la implementación de soluciones.
- Definir y supervisar métricas avanzadas (SLI/SLO/SLA) y asegurar su alineación con los objetivos del negocio.
- Automate complex operational tasks using Python, Golang, and Shell scripting.
- Planificar, ejecutar y analizar pruebas de carga y estrés complejas utilizando herramientas como Artillery, K6 y JMeter.
- Implementar y liderar pruebas de caos con Chaos Monkey y otras herramientas, proponiendo mejoras significativas.
- Gestionar y optimizar infraestructuras complejas utilizando Terraform.
- Diseñar, implementar y mantener pipelines de CI/CD complejos utilizando GithubActions enfocado en SRE.
🏆 ¿Qué necesitas para brillar?
-
Datadog: Dominio de Datadog y otras herramientas de monitoreo avanzadas.
-
Lenguajes de Scripting: Alta experiencia en Python, Golang y Shell para scripting avanzado.
-
Pruebas de Carga y Estrés: Experiencia avanzada con Artillery, K6 y JMeter para pruebas de carga y estrés.
-
Pruebas de Caos: Experiencia avanzada con Chaos Monkey y otras herramientas de pruebas de caos.
-
IaC: Alta competencia en el uso de Terraform para la gestión y optimización de infraestructura compleja.
-
CI/CD: Conocimiento experto de GithubActions y prácticas de CI/CD avanzadas enfocado en SRE.
#LI-AG1