MAISTODOS

Site Reliability Engineer (SRE) - Especialista

Detalhes da Vaga:

Principais responsabilidades/funções da vaga:

  • Estratégia de Confiabilidade: Liderar técnicamente a governança global de SRE, definindo frameworks de SLIs/SLOs/SLAs que alinhem os objetivos de negócio à disponibilidade técnica em toda a organização.
  • Arquitetura de Entrega (GitOps): Desenvolver e evoluir a arquitetura de entrega contínua, utilizando ArgoCD e EKS, visando escalabilidade para múltiplos clusters e ambientes globais, garantindo conformidade e self-healing.
  • Governança de Infraestrutura: Estabelecer padrões de arquitetura para IaC (Terraform), criando módulos reutilizáveis de alta abstração e gerindo a política de automação via Atlantis para garantir consistência entre todas as verticais.
  • Evolução da Observabilidade: Projetar a visão de longo prazo para observabilidade (Tracing, Logging, Metrics), integrando OpenTelemetry e Datadog para criar uma cultura de telemetria preditiva e redução drástica do MTTR (Mean Time To Recovery).
  • Segurança e Compliance Estratégico: Atuar como autoridade técnica em IAM e segurança de rede na AWS, desenhando modelos de Least Privilege automatizados e auditáveis para infraestrutura crítica.
  • Liderança em Incidentes e Cultura: Liderar a resposta a incidentes de escala sistêmica e institucionalizar a cultura de Post-mortems blameless, garantindo que o aprendizado técnico se transforme em mudanças no roadmap de produto.
  • Evangelismo de Platform Engineering: Impulsionar a adoção de conceitos de Internal Developer Platform (IDP) para reduzir a carga cognitiva dos desenvolvedores e acelerar o time-to-market.

Competências Técnicas:

  • Experiência sólida (8+ anos): Trajetória comprovada em ambientes de alta escala, com histórico de decisões que impactaram múltiplos times ou a arquitetura core da empresa.
  • Visão Multicloud e AWS Especialista: Conhecimento profundo da AWS além do operacional, focando em otimização de custos (FinOps), performance de rede e arquiteturas resilientes em múltiplas zonas/regiões.
  • Engenharia de Kubernetes: Especialista em internals do EKS, segurança (Network Policies, OPA/Kyverno) e estratégias avançadas de escalonamento (Karpenter/KEDA).
  • Ecossistema GitOps & Automação: Domínio arquitetural de ferramentas de orquestração (ArgoCD, Atlantis, GitHub Actions), desenhando fluxos que suportem centenas de deploys diários com segurança.
  • Desenvolvimento de Ferramental: Alta proficiência em Go ou Python para construir operadores de Kubernetes, CLIs customizadas e integrações de API que automatizam o ciclo de vida da infraestrutura.
  • Telemetria Avançada: Implementação de padrões de mercado como OpenTelemetry e gestão estratégica do stack de monitoramento para visibilidade full-stack.
  • Observabilidade: Gestão de SLA, SLI e SLO's em soluçõs de mercado, principalmente Datadog.
  • Banco de Dados: Proficiência em identificação de gargalos em Clusters de Banco de Dados, como queries N+1, falta de índices e problemas relacionados.

Aplicar-se a Vaga
Habilidades e Conhecimentos:

AWS

Engenharia de Kubernetes

Ecossistema GitOps & Automação

Telemetria Avançada

Observabilidade

Banco de Dados

Benefícios:

Plano de saúde UNIMED

VR/VA no Cartão Caju

Wellhub - Antigo Gympass

Refuturiza

MaisCare

Clube SESC

Bônus por metas anuais

Day-off no mês do seu aniversário

Cartão de TODOS

Auxílio leite e fralda

Via Recrutei
company-logo
Remoto

MAISTODOS

https://www.maistodos.com.br/

Não Informado

CLT ou PJ

Publicada há 1 hora

Compartilhar Vaga: