SysEleven

Senior Site Reliability Engineer (m/w/d) - Kubernetes Plattform

Berlin, Germany

Full-Time

Remote

TLDR

Maximize reliability and scalability of the MKA platform by solving complex platform challenges and developing production-ready systems while maintaining operational excellence.

Deine Mission

Als Senior Site Reliability Engineer (m/w/d) im MetaKube Accelerator Team nutzt du moderne Kubernetes- und Cloud-Native-Technologien, um die Zuverlässigkeit, Skalierbarkeit und operative Exzellenz der MKA-Plattform zu maximieren. Du löst komplexe Plattform-Herausforderungen, entwickelst produktionsreife Systeme und trägst zu Shared Ownership und kontinuierlicher Verbesserung bei. Damit gestaltest du aktiv die Weiterentwicklung des MetaKube Accelerators und erhöhst die Zuverlässigkeit unserer Managed Services.

Deine Aufgaben

Entwerfen und Implementieren von Observability-Lösungen mit Prometheus, Loki und Mimir, einschließlich der Definition sinnvoller Alerts sowie der kontinuierlichen Verbesserung der Monitoring-Abdeckung
Analyse, Troubleshooting und Weiterentwicklung eigener Kubernetes-Controller, um Zuverlässigkeit und Stabilität sicherzustellen
Entwicklung und Wartung von Produktionsanwendungen mit Fokus auf Codequalität, Skalierbarkeit und operativer Einsatzfähigkeit
Betrieb, Automatisierung und kontinuierliche Weiterentwicklung der MKA-Plattform mit Fokus auf Effizienz und Wartbarkeit
Weiterentwicklung interner Tooling-Lösungen, um Automatisierung zu fördern und manuellen Aufwand zu reduzieren

Das bringst Du mit

Erfahrung im Betrieb von hochverfügbaren, geschäftskritischen Anwendungen in Cloud- und On-Premises-Umgebungen, inklusive Incident Leadership
Sehr gute Kubernetes-Kenntnisse sowie Erfahrung im Cluster-Management
Erfahrung mit GitOps-Prinzipien für Deployment- und Delivery-Workflows
Erfahrung mit Infrastructure as Code, insbesondere Terraform
Gute Kenntnisse in Bash und/oder Python für Automatisierung und Tooling
Verständnis von CI/CD-Pipelines, idealerweise mit Tekton-basierten Workflows
Sehr gute Deutsch- sowie Gute Englischkenntnisse (B2+) für die technische Zusammenarbeit

Nice to have

Kenntnisse in ArgoCD oder vergleichbaren GitOps-Tools
Berührungspunkte mit Configuration-Management-Tools wie Ansible
Programmierkenntnisse in Go
Vertrautheit mit Nix für Development-Tooling und Automatisierung
Routine im Umgang mit Helm, Make und Git
Weitere Einblicke in Cloud-Native-Plattformen, Observability oder Plattform-Automatisierung

Was Dich bei uns erwartet

Du erhältst tiefgehende praktische Kubernetes-Erfahrung und lernst die Internals auf einem Level kennen, das nur wenige haben. Du bekommst die Freiheit, Herausforderungen zu lösen, Wissen zu teilen und kontinuierlich zu lernen – sei es durch Team-Zusammenarbeit, interne Show-and-Tell-Sessions oder Konferenzen wie KubeCon oder Container Days.

Apply for this job

SysEleven

SysEleven builds reliable customer-facing services like Database as a Service and Observability as a Service, seamlessly integrated into cloud and Kubernetes platforms. They serve tech companies that value open-source principles and prioritize technological excellence, working within a technically demanding and highly structured environment.

View company profile

Senior Site Reliability Engineer

Report this job