Digisystem

Engenheiro de Dados - Sênior - (Especialização em IA / RAG)

Detalhes da Vaga:


Profissional de Engenharia de Dados Sênior, responsável por projetar, desenvolver e otimizar pipelines de dados escaláveis para ingestão, transformação e enriquecimento de dados estruturados e não estruturados, com foco no suporte a soluções de Inteligência Artificial, especialmente arquiteturas de Retrieval-Augmented Generation (RAG) e construção de base de conhecimento corporativa.


A atuação está aderente às responsabilidades contratuais de Engenharia de Dados, com aplicação das técnicas em cenários avançados de IA.


Atividades e Responsabilidades


Desenvolver e implementar pipelines de ingestão de dados provenientes de bancos de dados, APIs, logs e repositórios documentais corporativos (PDFs, HTML, documentos textuais).


Realizar processos avançados de limpeza, transformação, enriquecimento e versionamento de dados, garantindo integridade, rastreabilidade e qualidade.


Projetar e manter pipelines distribuídos em Apache Spark / PySpark, utilizando plataforma Databricks e arquitetura de dados escalável (Data Lake / Lakehouse).


Implementar estratégias de preparação de dados para IA, incluindo segmentação de documentos (chunking), enriquecimento semântico e integração com mecanismos de busca e indexação.


Apoiar times de Ciência de Dados e AI/ML na preparação de datasets voltados a modelos analíticos e generativos.


Monitorar e otimizar performance, volume e eficiência dos processos de processamento de dados.


Garantir aderência a boas práticas de governança, retenção, atualização e confiabilidade dos dados.


Conhecimentos Técnicos Obrigatórios


Experiência sólida em Engenharia de Dados


Python e/ou PySpark


Apache Spark (batch e/ou streaming)


Experiência com pipelines ETL/ELT


Modelagem de dados em ambientes Data Lake / Lakehouse


Experiência com consumo e integração de APIs


Vivência em ambientes de Cloud Computing (preferencialmente Azure)


Uso de controle de versão (Git)


Conhecimentos Desejáveis (Diferenciais Técnicos)


Experiência com dados não estruturados (texto e documentos)


Experiência com pipelines de dados para Inteligência Artificial


Conhecimento em estratégias de recuperação de informação (RAG)


Integração com mecanismos de busca e indexação semântica


Experiência com plataformas de IA generativa (OpenAI, Azure OpenAI ou equivalentes)


Nível de Senioridade


Perfil Sênior, com capacidade de:


Definir arquitetura de pipelines de dados


Propor melhorias de performance e qualidade


Atuar com autonomia técnica


Apoiar e orientar outros profissionais de dados

Certificações
Apresentar no mínimo 1 (uma) certificação exigida em contrato, devidamente comprovada no currículo.

  • Certified Data Management Professional (CDMP);
  • Cloudera Certified Data Engineer (CCDE);
  • AWS Certified Big Data;
  • Microsoft Certified - Azure Data Engineer Associate. 

Aplicar-se a Vaga
Via Recrutei
company-logo
Brasília (DF)

Digisystem

https://www.digisystem.com.br/

Não Informado

Pessoa Jurídica

Publicada há 48 minutos

Compartilhar Vaga: