
Vaga 100% remota
Aqui a gente conecta o mundo
A Sensedia é líder no mercado de APIs, oferecendo soluções de integração e consultoria a grandes empresas no Brasil e no mundo, em uma variedade de setores. Seu portfólio, além de uma plataforma API Management, inclui Sensedia Integrations, Service Mesh, API Adaptive Governance, Events Hub, Open Banking & Finance e equipes estratégicas de Professional Services.
Trabalhar aqui é pertencer a uma cultura plural, descontraída e inovadora. É para quem tem coragem de ir além, pensar e agir fora da caixa. Preferimos pedir desculpas ao invés de pedir permissão e estamos sempre dispostos a nos transformar, nos reinventar.
Nossas pessoas são incríveis e você pode fazer parte disso tudo. Nos comprometemos em garantir um ambiente de trabalho acolhedor e respeitoso.
Conheça + em nosso site: https://br.sensedia.com/sensedia-careers
Qual a missão do Cargo?
Sua missão será garantir alta disponibilidade, segurança operacional e excelência dos serviços mais críticos da Sensedia, sendo referência técnica na evolução da nossa stack de observabilidade e na resposta a incidentes. Você ajudará a evoluir o modelo de operação, transformando telemetria (logs, métricas, traces e eventos) em detecção rápida, decisões ágeis, aprendizado contínuo e mudanças estruturais que reduzam reincidência e elevem o nível de confiabilidade dos produtos da Sensedia.
Quais serão suas atividades do dia-a-dia?
- Ser referência técnica e orientar o time na construção e evolução da stack de observabilidade, garantindo instrumentação consistente, alertas acionáveis e dashboards que suportem detecção e resposta rápidas.
- Atuar em parceria com o time de Gestão de Crise, garantindo rápida detecção e acionamento assertivo dos value streams, com escalonamento eficiente e suporte técnico à tomada de decisão.
- Monitorar e evoluir métricas operacionais-chave, como tempo de detecção de incidentes (MTTD), tempo de resposta (MTTR) e aderência a SLO/SLA, backlog de problemas e eficiência de alertas.
- Construir e fortalecer práticas de observabilidade (monitoramento, logs, tracing, dashboards, alertas acionáveis), troubleshooting e sustentação com visão sistêmica e antecipação de riscos.
- Impulsionar automação operacional (runbooks, playbooks, auto-remediação, padronização de alertas) para reduzir retrabalho e “toil”.
- Atuar de forma analítica e colaborativa na construção e evolução do time, bem como apoiar o desenvolvimento técnico do time e da operação.
Quais são os requisitos obrigatórios para esse cargo?
- Experiência sólida (mão na massa) desenhando, implementando e mantendo stacks de observabilidade/monitoramento em produção para ambientes críticos, garantindo detecção rápida e alertas acionáveis (baixa taxa de falsos positivos e alta cobertura).
- Domínio prático de fundamentos e práticas de observabilidade: monitoramento, logs, tracing, dashboards e alertas acionáveis, com capacidade de diagnóstico e troubleshooting ponta a ponta.
- Capacidade comprovada de engenharia de alertas: definição de sinais, thresholds, correlação/deduplicação, roteamento, janelas, severidades e políticas de escalonamento para acionar o value stream correto com rapidez e assertividade.
- Vivência com métricas operacionais e confiabilidade, como MTTD/MTTR/MTBF, disponibilidade e análise de aderência a SLO/SLA, além de condução de pós-incidente (RCA/postmortem) com plano de ação.
- Experiência em conduzir alinhamentos com times técnicos (value streams) para priorizar correções estruturais, reduzir reincidência e evoluir SLO/SLA com base em evidências.
- Excelente comunicação e autonomia para atuar como referência técnica, influenciando Engenharia/Produto/Suporte e garantindo, sob pressão, priorização, coordenação e acionamento/escalonamento assertivos dos value streams.
- Conhecimento sólido de infraestrutura e sistemas distribuídos (redes, containers, serviços, cloud), suficiente para investigação e direcionamento de correções.
- Mentalidade de melhoria contínua e automação, reduzindo “toil” com runbooks/playbooks e padronização operacional.
Quais serão os requisitos diferencias para este cargo?
- Capacidade de operar e evoluir a stack como produto: governança de dashboards/alertas, versionamento/templating, automação, observabilidade “by default” e preocupação com performance/custo da própria plataforma de observabilidade.
- Experiência profunda com OpenTelemetry (instrumentação, collectors, traces end-to-end) e padrões de observabilidade em arquiteturas distribuídas/microsserviços.
- Experiência operando/observando plataformas de integração, API Management, gateways ou middleware (alto volume, baixa latência, impacto direto no negócio).
- Experiência com event correlation / noise reduction (deduplicação, agrupamento, supressão inteligente) e construção de alertas “actionable” em escala.
- Automação avançada de operações: auto-remediação, ChatOps, runbooks executáveis, rotinas de correção automática e integração com pipelines (GitOps/IaC).
- Vivência com modelos de operação distribuída e incident response em escala (global/regional, multi-timezone, follow-the-sun), incluindo coordenação de resposta a incidentes e
- integração com ferramentas de on-call (PagerDuty/Opsgenie ou similares).
- Histórico de liderança técnica informal (mentoria, padrões, enablement de times).
- Ter construído ou evoluído uma plataforma interna de observabilidade (templates, golden signals, dashboards padrão por tipo de serviço, onboarding de times, governança de alertas).
- Familiaridade com práticas avançadas de observabilidade, automação operacional e cultura de confiabilidade (ex.: Chaos Engineering).
- Certificações ou experiência formal com frameworks de operação e confiabilidade (ex.: ITIL, DevOps, SRE).
- Paixão por tecnologia, inovação e vontade de impulsionar práticas de excelência operacional em um ambiente dinâmico e colaborativo.
- Métricas e resultados esperados para este cargo:
- Redução consistente de MTTD e MTTR.
- Redução do volume e aumento da efetividade dos alertas (baixa taxa de falsos positivos e alta taxa de cobertura).
- Aderência a SLO/SLA internos e externos.
- Eficácia em planos de ação (RCAs/Postmortem).
- Evolução da cobertura de observabilidade.
Aqui você vai encontrar:
- Vale Refeição/Vale Alimentação (Cartão Flash benefícios), Plano de Saúde, Plano Odontológico, Seguro de Vida, PPR, TotalPass, Auxílio Creche, Programa Well-Being (destinado para saúde física e mental), Universidade Corporativa (nossa #SensediaAcademy), com diversas trilhas de desenvolvimento; Parceiros culturais e educacionais, com descontos especiais; Somos uma empresa cidadã, proporcionando licença maternidade e licença paternidade estendida.
- Temos #WorkWhereYouBelong como proposta de valor, que é um modelo flexível de trabalho que nos ajuda a aumentar o senso de pertencimento dos Sensediers.
Trabalhe onde você pertence, porque as barreiras físicas estão menores, e o sentimento é de que exista apenas uma Sensedia em qualquer lugar que você esteja trabalhando.
Esta oportunidade também é para PCD! ;)
Suas experiências são compatíveis? Se candidate e venha conhecer a maior referência de APIs no Brasil! Queremos você em nossa equipe!!
- Pensando em promover times cada vez mais diversos e ambientes de trabalho plurais, nossa missão é mapear os diferentes públicos que alcançamos com ele! Por isso, faremos algumas perguntinhas relacionadas à diversidade*, tudo bem? =)
*Os dados pessoais e dados pessoais sensíveis coletados serão tratados de acordo com a Lei Geral de Proteção de Dados - Lei n° 13.709/2018