Senior Site Reliability Engineer (m/w/d)

TLDR

Assume end-to-end responsibility for the reliability of customer-facing services deeply integrated into cloud and Kubernetes platforms, fostering a culture of continuous improvement.

Deine Mission

Als Senior Site Reliability Engineer (m/w/d) bei SysEleven entwickelst, implementierst und betreibst du APIs, die die Automatisierung und Zuverlässigkeit unserer as-a-Service-Produkte – beispielsweise Database as a Service – ermöglichen.

Du nutzt Infrastructure as Code, um unsere Plattformen zu standardisieren und skalierbar weiterzuentwickeln, und optimierst kontinuierlich unsere CI/CD-Pipelines, um sichere, resiliente und effiziente Delivery-Prozesse sicherzustellen.

Mit GitOps-Praktiken und Kubernetes-Orchestrierung reduzierst du operative Komplexität und ermöglichst stabile, planbare Deployments, die die geschäftskritischen Workloads unserer Kund*innen zuverlässig unterstützen.

Du übernimmst End-to-End-Verantwortung für Reliability, förderst eine Kultur der kontinuierlichen Verbesserung und gehst bei der Lösung komplexer technischer Herausforderungen mit gutem Beispiel voran.

Deine Aufgaben

  • Sicherstellung der Zuverlässigkeit, Verfügbarkeit und Performance unserer Database- und Observability-as-a-Service-Produkte
  • Betrieb containerbasierter Anwendungen in Kubernetes mit starkem Fokus auf Sicherheit und Resilienz
  • Leitung von Incident-Response-Maßnahmen, Root-Cause-Analysen sowie nachhaltiger Fehlerbehebung
  • Anwendung von GitOps-Prinzipien mit Helm und Argo CD
  • Entwicklung von API-Services und Tools in Go zur Bereitstellung stabiler SaaS-Produkte
  • Aufbau und Optimierung von CI/CD-Pipelines zur Erhöhung von Deployment-Sicherheit und Systemstabilität
  • Design und Verwaltung skalierbarer Infrastrukturen mit Infrastructure-as-Code-Tools (z. B. Terraform) in Cloud-Umgebungen

Unsere Technologien und Tech Stack:
  • Go, Python, Bash
  • OpenStack, Kubernetes, Cilium, Envoy, Kyverno
  • Terraform, Crossplane, Argo CD, GitLab CI
  • PostgreSQL, Grafana, Loki, Mimir

Das bringst Du mit

  • Mehrjährige Erfahrung im Betrieb hochverfügbarer Systeme in Linux- und Kubernetes-Umgebungen
  • Fundiertes Verständnis von Observability-Konzepten (Monitoring, Logging, Tracing) 
  • Praktische Entwicklungserfahrung in Go (Kenntnisse in Python oder Rust sind von Vorteil)
  • Erfahrung mit Infrastructure-as-Code-Tools wie Terraform oder OpenTofu
  • Praxiserfahrung im Incident Management sowie in strukturierten Root-Cause-Analysen
  • Vertrautheit mit CI-Systemen, insbesondere GitLab CI
  • Ausgeprägte Problemlösungskompetenz sowie gute Kommunikationsfähigkeiten in Deutsch und Englisch (mindestens B2-Niveau)

Was Dich bei uns erwartet

Bei SysEleven übernimmst du Verantwortung für die Zuverlässigkeit kundennaher Services wie Database as a Service und Observability as a Service, die tief in unsere Cloud- und Kubernetes-Plattform integriert sind.

Du arbeitest aktiv am täglichen Betrieb und an der kontinuierlichen Weiterentwicklung dieser Services mit – mit Fokus auf Stabilität, Performance und Automatisierungsreife.

Wir leben eine blameless Culture, offene Kommunikation und aktiven Wissensaustausch – im Arbeitsalltag, bei internen „Show & Tell“-Sessions oder auf externen Konferenzen. Du erhältst den Freiraum, Reliability-Themen strategisch voranzutreiben und gemeinsam mit dem Team nachhaltige, robuste Plattformlösungen zu gestalten.

SysEleven builds reliable customer-facing services like Database as a Service and Observability as a Service, seamlessly integrated into cloud and Kubernetes platforms. They serve tech companies that value open-source principles and prioritize technological excellence, working within a technically demanding and highly structured environment.

View all jobs
Ace your job interview

Understand the required skills and qualifications, anticipate the questions you may be asked, and study well-prepared answers using our sample responses.

Senior Site Reliability Engineer Q&A's
Report this job
Apply for this job