Especialista em SRE será fundamental para garantir a confiabilidade, escalabilidade e performance dos nossos sistemas e serviços de produção. Atuará na ponte entre as equipes de desenvolvimento e operações, aplicando princípios de engenharia de software para automatizar tarefas operacionais, otimizar processos, monitorar a saúde dos sistemas e responder a incidentes de forma eficiente. O objetivo principal é garantir a estabilidade e a alta disponibilidade dos nossos produtos, proporcionando uma excelente experiência aos nossos usuários.
Confiabilidade e Disponibilidade
• Projetar, implementar e manter sistemas e infraestrutura altamente confiáveis e disponíveis.
• Definir e monitorar Service Level Objectives (SLOs), Service Level Indicators (SLIs) e Service Level Agreements (SLAs).
• Analisar tendências de desempenho e disponibilidade para identificar e mitigar riscos proativamente.
• Participar ativamente nas gestões de crises e na análise de causa raiz de incidentes, implementando ações corretivas e preventivas.
Automação e Eficiência
• Identificar oportunidades de automação de tarefas repetitivas e processos operacionais.
• Desenvolver e manter scripts, ferramentas e frameworks de automação utilizando diversas linguagens e tecnologias.
• Otimizar processos de deploy, configuração e gerenciamento de infraestrutura.
• Contribuir para a cultura de "Infrastructure as Code" (IaC).
Monitoramento e Observabilidade
• Projetar, implementar e manter sistemas de monitoramento abrangentes para identificar gargalos, falhas e anomalias nos sistemas e aplicações.
• Configurar alertas eficazes e acionáveis para garantir respostas rápidas a problemas.
• Apoiar no desenvolvimento de dashboards e relatórios para visualização da saúde e performance dos sistemas.
Gerenciamento de Incidentes
• Participar ativamente na resposta a incidentes de produção, diagnosticando problemas e coordenando a resolução.
• Liderar ou participar de post-mortems de incidentes para identificar aprendizados e implementar melhorias.
• Desenvolver e manter planos de resposta a incidentes.
Gestão de Crises e Continuidade Operacional
• Atuar como ponto focal técnico durante situações críticas, organizando e conduzindo salas de crise com múltiplos stakeholders.
• Liderar ou colaborar com a equipe responsável pela gestão de crises, garantindo o cumprimento de processos de resposta, comunicação e resolução.
• Desenvolver, documentar e manter atualizados os processos de gestão de crise, incluindo classificação de severidade, fluxos de escalonamento e protocolos de resposta.
• Planejar e executar simulações regulares de incidentes críticos, testando a eficácia dos processos e capacitando os envolvidos.
• Facilitar a comunicação entre times técnicos e liderança executiva durante crises, fornecendo atualizações claras e frequentes.
• Conduzir post-mortems com foco técnico, organizacional e de processo, promovendo aprendizado e melhoria contínua.
• Gerenciar ferramentas de apoio à gestão de crises (salas virtuais, runbooks, sistemas de alerta).
Gestão de Fornecedores e Indicadores de Performance
• Atuar como ponto de contato técnico para fornecedores de serviços críticos, garantindo alinhamento com os padrões e expectativas de SRE.
• Acompanhar e validar KPIs (Key Performance Indicators), SLAs (Service Level Agreements) e OLAs (Operational Level Agreements) dos fornecedores, promovendo ações corretivas em casos de não conformidade.
• Participar de reuniões periódicas de performance com fornecedores para revisão de entregas, qualidade de serviço e planejamento de melhorias.
• Apoiar na definição de requisitos técnicos e operacionais em processos de contratação e renovação de contratos.
• Contribuir para o desenvolvimento de métricas que permitam avaliar o impacto de serviços terceirizados na confiabilidade do ambiente.
• Garantir que fornecedores críticos estejam integrados aos processos de gestão de incidentes, crise e continuidade.
Capacidade e Escalabilidade
• Participar do planejamento de capacidade para garantir que os sistemas possam lidar com o crescimento da demanda.
• Projetar e implementar soluções de escalabilidade horizontal e vertical.
• Realizar testes de carga e performance para identificar gargalos e garantir a resiliência dos sistemas.
Colaboração e Comunicação
• Trabalhar em estreita colaboração com equipes de desenvolvimento, operações e outras áreas da empresa.
• Comunicar de forma clara e eficaz informações técnicas para diferentes públicos.
• Compartilhar conhecimento e melhores práticas de SRE com a equipe.
• Participar de revisões de arquitetura e design para garantir a observabilidade e a confiabilidade dos sistemas.
• Cumprir o regulamento interno, os requisitos dos sistemas de gestão da qualidade, observação e cumprimento das regulamentações da ANS, bem como das normas e procedimentos de saúde, higiene e segurança do trabalho inerentes ao setor, a utilização de EPI's/EPC's (Equipamento de proteção individual/ Equipamento de proteção coletivo) quando a atividade assim o exigir.
• Desenvolver outras atividades inerentes ao cargo ou a critério de seu superior imediato, desde que habilitado e estejam de acordo com o seu conhecimento e experiência.
Aplicar-se a Vaga
inventCloud
https://Inventcloud.com.br
R$16000
Pessoa Jurídica
Publicada há 4 horas