Digisystem

Engenheiro de Dados - Sênior - (Especialização em IA / RAG)

Detalhes da Vaga:

Profissional de Engenharia de Dados Sênior, responsável por projetar, desenvolver e otimizar pipelines de dados escaláveis para ingestão, transformação e enriquecimento de dados estruturados e não estruturados, com foco no suporte a soluções de Inteligência Artificial, especialmente arquiteturas de Retrieval-Augmented Generation (RAG) e construção de base de conhecimento corporativa.

A atuação está aderente às responsabilidades contratuais de Engenharia de Dados, com aplicação das técnicas em cenários avançados de IA.

Atividades e Responsabilidades

Desenvolver e implementar pipelines de ingestão de dados provenientes de bancos de dados, APIs, logs e repositórios documentais corporativos (PDFs, HTML, documentos textuais).

Realizar processos avançados de limpeza, transformação, enriquecimento e versionamento de dados, garantindo integridade, rastreabilidade e qualidade.

Projetar e manter pipelines distribuídos em Apache Spark / PySpark, utilizando plataforma Databricks e arquitetura de dados escalável (Data Lake / Lakehouse).

Implementar estratégias de preparação de dados para IA, incluindo segmentação de documentos (chunking), enriquecimento semântico e integração com mecanismos de busca e indexação.

Apoiar times de Ciência de Dados e AI/ML na preparação de datasets voltados a modelos analíticos e generativos.

Monitorar e otimizar performance, volume e eficiência dos processos de processamento de dados.

Garantir aderência a boas práticas de governança, retenção, atualização e confiabilidade dos dados.

Conhecimentos Técnicos Obrigatórios

Experiência sólida em Engenharia de Dados

Python e/ou PySpark

Apache Spark (batch e/ou streaming)

Experiência com pipelines ETL/ELT

Modelagem de dados em ambientes Data Lake / Lakehouse

Experiência com consumo e integração de APIs

Vivência em ambientes de Cloud Computing (preferencialmente Azure)

Uso de controle de versão (Git)

Conhecimentos Desejáveis (Diferenciais Técnicos)

Experiência com dados não estruturados (texto e documentos)

Experiência com pipelines de dados para Inteligência Artificial

Conhecimento em estratégias de recuperação de informação (RAG)

Integração com mecanismos de busca e indexação semântica

Experiência com plataformas de IA generativa (OpenAI, Azure OpenAI ou equivalentes)

Nível de Senioridade

Perfil Sênior, com capacidade de:

Definir arquitetura de pipelines de dados

Propor melhorias de performance e qualidade

Atuar com autonomia técnica

Apoiar e orientar outros profissionais de dados

Certificações
Apresentar no mínimo 1 (uma) certificação exigida em contrato, devidamente comprovada no currículo.

Certified Data Management Professional (CDMP);
Cloudera Certified Data Engineer (CCDE);
AWS Certified Big Data;
Microsoft Certified - Azure Data Engineer Associate.

Aplicar-se a Vaga

Via Recrutei

Brasília (DF)

Digisystem

https://www.digisystem.com.br/

Não Informado

Pessoa Jurídica

Publicada há 48 minutos

Compartilhar Vaga:

Aplicar-se a Vaga