Vaga 100% remota

Aqui a gente conecta o mundo

A Sensedia é líder no mercado de APIs, oferecendo soluções de integração e consultoria a grandes empresas no Brasil e no mundo, em uma variedade de setores. Seu portfólio, além de uma plataforma API Management, inclui Sensedia Integrations, Service Mesh, API Adaptive Governance, Events Hub, Open Banking & Finance e equipes estratégicas de Professional Services.

Trabalhar aqui é pertencer a uma cultura plural, descontraída e inovadora. É para quem tem coragem de ir além, pensar e agir fora da caixa. Preferimos pedir desculpas ao invés de pedir permissão e estamos sempre dispostos a nos transformar, nos reinventar.
Nossas pessoas são incríveis e você pode fazer parte disso tudo. Nos comprometemos em garantir um ambiente de trabalho acolhedor e respeitoso.

Conheça + em nosso site: https://br.sensedia.com/sensedia-careers

Qual a missão do Cargo?

Sua missão será garantir alta disponibilidade, segurança operacional e excelência dos serviços mais críticos da Sensedia, sendo referência técnica na evolução da nossa stack de observabilidade e na resposta a incidentes. Você ajudará a evoluir o modelo de operação, transformando telemetria (logs, métricas, traces e eventos) em detecção rápida, decisões ágeis, aprendizado contínuo e mudanças estruturais que reduzam reincidência e elevem o nível de confiabilidade dos produtos da Sensedia.

Quais serão suas atividades do dia-a-dia?

Ser referência técnica e orientar o time na construção e evolução da stack de observabilidade, garantindo instrumentação consistente, alertas acionáveis e dashboards que suportem detecção e resposta rápidas.
Atuar em parceria com o time de Gestão de Crise, garantindo rápida detecção e acionamento assertivo dos value streams, com escalonamento eficiente e suporte técnico à tomada de decisão.
Monitorar e evoluir métricas operacionais-chave, como tempo de detecção de incidentes (MTTD), tempo de resposta (MTTR) e aderência a SLO/SLA, backlog de problemas e eficiência de alertas.
Construir e fortalecer práticas de observabilidade (monitoramento, logs, tracing, dashboards, alertas acionáveis), troubleshooting e sustentação com visão sistêmica e antecipação de riscos.
Impulsionar automação operacional (runbooks, playbooks, auto-remediação, padronização de alertas) para reduzir retrabalho e “toil”.
Atuar de forma analítica e colaborativa na construção e evolução do time, bem como apoiar o desenvolvimento técnico do time e da operação.

Quais são os requisitos obrigatórios para esse cargo?

Experiência sólida (mão na massa) desenhando, implementando e mantendo stacks de observabilidade/monitoramento em produção para ambientes críticos, garantindo detecção rápida e alertas acionáveis (baixa taxa de falsos positivos e alta cobertura).
Domínio prático de fundamentos e práticas de observabilidade: monitoramento, logs, tracing, dashboards e alertas acionáveis, com capacidade de diagnóstico e troubleshooting ponta a ponta.
Capacidade comprovada de engenharia de alertas: definição de sinais, thresholds, correlação/deduplicação, roteamento, janelas, severidades e políticas de escalonamento para acionar o value stream correto com rapidez e assertividade.
Vivência com métricas operacionais e confiabilidade, como MTTD/MTTR/MTBF, disponibilidade e análise de aderência a SLO/SLA, além de condução de pós-incidente (RCA/postmortem) com plano de ação.
Experiência em conduzir alinhamentos com times técnicos (value streams) para priorizar correções estruturais, reduzir reincidência e evoluir SLO/SLA com base em evidências.
Excelente comunicação e autonomia para atuar como referência técnica, influenciando Engenharia/Produto/Suporte e garantindo, sob pressão, priorização, coordenação e acionamento/escalonamento assertivos dos value streams.
Conhecimento sólido de infraestrutura e sistemas distribuídos (redes, containers, serviços, cloud), suficiente para investigação e direcionamento de correções.
Mentalidade de melhoria contínua e automação, reduzindo “toil” com runbooks/playbooks e padronização operacional.

Quais serão os requisitos diferencias para este cargo?

Capacidade de operar e evoluir a stack como produto: governança de dashboards/alertas, versionamento/templating, automação, observabilidade “by default” e preocupação com performance/custo da própria plataforma de observabilidade.
Experiência profunda com OpenTelemetry (instrumentação, collectors, traces end-to-end) e padrões de observabilidade em arquiteturas distribuídas/microsserviços.
Experiência operando/observando plataformas de integração, API Management, gateways ou middleware (alto volume, baixa latência, impacto direto no negócio).
Experiência com event correlation / noise reduction (deduplicação, agrupamento, supressão inteligente) e construção de alertas “actionable” em escala.
Automação avançada de operações: auto-remediação, ChatOps, runbooks executáveis, rotinas de correção automática e integração com pipelines (GitOps/IaC).
Vivência com modelos de operação distribuída e incident response em escala (global/regional, multi-timezone, follow-the-sun), incluindo coordenação de resposta a incidentes e
integração com ferramentas de on-call (PagerDuty/Opsgenie ou similares).
Histórico de liderança técnica informal (mentoria, padrões, enablement de times).
Ter construído ou evoluído uma plataforma interna de observabilidade (templates, golden signals, dashboards padrão por tipo de serviço, onboarding de times, governança de alertas).
Familiaridade com práticas avançadas de observabilidade, automação operacional e cultura de confiabilidade (ex.: Chaos Engineering).
Certificações ou experiência formal com frameworks de operação e confiabilidade (ex.: ITIL, DevOps, SRE).
Paixão por tecnologia, inovação e vontade de impulsionar práticas de excelência operacional em um ambiente dinâmico e colaborativo.
Métricas e resultados esperados para este cargo:
Redução consistente de MTTD e MTTR.
Redução do volume e aumento da efetividade dos alertas (baixa taxa de falsos positivos e alta taxa de cobertura).
Aderência a SLO/SLA internos e externos.
Eficácia em planos de ação (RCAs/Postmortem).
Evolução da cobertura de observabilidade.

Aqui você vai encontrar:

Vale Refeição/Vale Alimentação (Cartão Flash benefícios), Plano de Saúde, Plano Odontológico, Seguro de Vida, PPR, TotalPass, Auxílio Creche, Programa Well-Being (destinado para saúde física e mental), Universidade Corporativa (nossa #SensediaAcademy), com diversas trilhas de desenvolvimento; Parceiros culturais e educacionais, com descontos especiais; Somos uma empresa cidadã, proporcionando licença maternidade e licença paternidade estendida.

Temos #WorkWhereYouBelong como proposta de valor, que é um modelo flexível de trabalho que nos ajuda a aumentar o senso de pertencimento dos Sensediers.
Trabalhe onde você pertence, porque as barreiras físicas estão menores, e o sentimento é de que exista apenas uma Sensedia em qualquer lugar que você esteja trabalhando.

Esta oportunidade também é para PCD! ;)

Suas experiências são compatíveis? Se candidate e venha conhecer a maior referência de APIs no Brasil! Queremos você em nossa equipe!!

Pensando em promover times cada vez mais diversos e ambientes de trabalho plurais, nossa missão é mapear os diferentes públicos que alcançamos com ele! Por isso, faremos algumas perguntinhas relacionadas à diversidade*, tudo bem? =)

Reliability & Observability Owner [Staff] - (12533)

TLDR