Senior Site Reliability Engineer (m/w/d) - Kubernetes Plattform

TLDR

Maximize reliability and scalability of the MKA platform by solving complex platform challenges and developing production-ready systems while maintaining operational excellence.

Deine Mission

Als Senior Site Reliability Engineer (m/w/d) im MetaKube Accelerator Team nutzt du moderne Kubernetes- und Cloud-Native-Technologien, um die Zuverlässigkeit, Skalierbarkeit und operative Exzellenz der MKA-Plattform zu maximieren. Du löst komplexe Plattform-Herausforderungen, entwickelst produktionsreife Systeme und trägst zu Shared Ownership und kontinuierlicher Verbesserung bei. Damit gestaltest du aktiv die Weiterentwicklung des MetaKube Accelerators und erhöhst die Zuverlässigkeit unserer Managed Services.

Deine Aufgaben

  • Entwerfen und Implementieren von Observability-Lösungen mit Prometheus, Loki und Mimir, einschließlich der Definition sinnvoller Alerts sowie der kontinuierlichen Verbesserung der Monitoring-Abdeckung
  • Analyse, Troubleshooting und Weiterentwicklung eigener Kubernetes-Controller, um Zuverlässigkeit und Stabilität sicherzustellen
  • Entwicklung und Wartung von Produktionsanwendungen mit Fokus auf Codequalität, Skalierbarkeit und operativer Einsatzfähigkeit
  • Betrieb, Automatisierung und kontinuierliche Weiterentwicklung der MKA-Plattform mit Fokus auf Effizienz und Wartbarkeit
  • Weiterentwicklung interner Tooling-Lösungen, um Automatisierung zu fördern und manuellen Aufwand zu reduzieren

Das bringst Du mit

  • Erfahrung im Betrieb von hochverfügbaren, geschäftskritischen Anwendungen in Cloud- und On-Premises-Umgebungen, inklusive Incident Leadership
  • Sehr gute Kubernetes-Kenntnisse sowie Erfahrung im Cluster-Management
  • Erfahrung mit GitOps-Prinzipien für Deployment- und Delivery-Workflows
  • Erfahrung mit Infrastructure as Code, insbesondere Terraform
  • Gute Kenntnisse in Bash und/oder Python für Automatisierung und Tooling
  • Verständnis von CI/CD-Pipelines, idealerweise mit Tekton-basierten Workflows
  • Sehr gute Deutsch- sowie Gute Englischkenntnisse (B2+) für die technische Zusammenarbeit

Nice to have
  • Kenntnisse in ArgoCD oder vergleichbaren GitOps-Tools
  • Berührungspunkte mit Configuration-Management-Tools wie Ansible
  • Programmierkenntnisse in Go
  • Vertrautheit mit Nix für Development-Tooling und Automatisierung
  • Routine im Umgang mit Helm, Make und Git
  • Weitere Einblicke in Cloud-Native-Plattformen, Observability oder Plattform-Automatisierung

Was Dich bei uns erwartet

Du erhältst tiefgehende praktische Kubernetes-Erfahrung und lernst die Internals auf einem Level kennen, das nur wenige haben. Du bekommst die Freiheit, Herausforderungen zu lösen, Wissen zu teilen und kontinuierlich zu lernen – sei es durch Team-Zusammenarbeit, interne Show-and-Tell-Sessions oder Konferenzen wie KubeCon oder Container Days.

SysEleven builds reliable customer-facing services like Database as a Service and Observability as a Service, seamlessly integrated into cloud and Kubernetes platforms. They serve tech companies that value open-source principles and prioritize technological excellence, working within a technically demanding and highly structured environment.

View all jobs
Ace your job interview

Understand the required skills and qualifications, anticipate the questions you may be asked, and study well-prepared answers using our sample responses.

Senior Site Reliability Engineer Q&A's
Report this job
Apply for this job