Senior Site Reliability Engineer Managed Kubernetes (m/w/d)

AI overview

Contribute to the technological vision and scalability of our Managed-Kubernetes platform while mentoring new colleagues and enhancing open-source-based solutions.

Deine Mission

Als Teil unseres MetaKube-Teams prägst Du die technologische Vision und Skalierbarkeit unserer Managed-Kubernetes-Plattform. Dich treibt die Leidenschaft für modernes Platform Engineering an, bei dem Infrastruktur konsequent als Software-Engineering-Aufgabe verstanden wird von der Server-Provisionierung über K8s-Operatoren bis hin zur GPU-Integration. Als erfahrene Persönlichkeit übernimmst Du das Mentoring neuer Kolleg:innen und trägst Verantwortung. Mit technologischer Weitsicht und frischen Ideen inspirierst Du das Team, unsere Open-Source-basierte Plattform gemeinsam auf das nächste Level zu heben.

Deine Aufgaben

  • Sicherstellung des stabilen Betriebs unserer Kubernetes SaaS-Plattform mit hunderten aktiven Clustern
  • Übersetzung komplexer Systemarchitekturen in Code (30-40% Software-Entwicklung-Anteil) mit Go (Golang), Terraform, Ansible und Bash
  • Entwicklung und Automatisierung von Infrastrukturkomponenten von der Server-Provisionierung und K8s-Operatoren bis hin zur Integration von GPUs
  • Optimierung und strategische Erweiterung unserer Observability-Plattform basierend auf dem Prometheus-Stack
  • Durchführung von Releasemanagement, kontinuierliche Verbesserung der CI/CD-Pipelines, Testautomatisierung sowie Troubleshooting komplexer Kunden-Setups im 2nd und 3rd Level Support
  • Teilnahme an der Rufbereitschaft nach erfolgreicher Probezeit (extra vergütet)

Das bringst Du mit

  • Mehrjährige, praktische Erfahrung im Betrieb und der Skalierung hochverfügbarer Kubernetes-Cluster in Produktionsumgebungen

  • Tiefgehende Kenntnisse in der Linux-Systemadministration sowie ein fundiertes Verständnis von Netzwerk-Layer 3/4 und Layer 7-Protokollen

  • Fundierte Entwicklungserfahrung in Go (Golang), sichere Anwendung von Automatisierungstools (Ansible, Terraforrm)

  • Idealerweise fundiertes Wissen im Bereich von Observability-Stacks (Prometheus, Loki, Mimir) &  K8s-Operatoren

  • Ausgeprägter Teamgeist und die Fähigkeit,mit frischen Ideen zu inspirieren und fachliche Orientierung zu bieten

  • Gute Deutschkenntnisse (B2)  sehr gute Englischkenntnisse

Was Dich bei uns erwartet

Dich erwartet ein echtes Tech-Team mit tief verankerter Open-Source-DNA, in der die beste technische Lösung unabhängig von Hierarchien gewinnt. Wir legen wir größten Wert auf technologische Exzellenz, eine ausgeprägte Hands-on-Mentalität und den direkten, unkomplizierten Wissensaustausch auf Augenhöhe. Kurze Entscheidungswege geben dir den nötigen Freiraum, eigene Ideen einzubringen, Verantwortung zu übernehmen und Open-Source-Technologien biszur tiefen Plattformentwicklung aktiv einzusetzen.
Ace your job interview

Understand the required skills and qualifications, anticipate the questions you may be asked, and study well-prepared answers using our sample responses.

Senior Site Reliability Engineer Q&A's
Report this job
Apply for this job