Profissional de Engenharia de Dados Sênior, responsável por projetar, desenvolver e otimizar pipelines de dados escaláveis para ingestão, transformação e enriquecimento de dados estruturados e não estruturados, com foco no suporte a soluções de Inteligência Artificial, especialmente arquiteturas de Retrieval-Augmented Generation (RAG) e construção de base de conhecimento corporativa.
A atuação está aderente às responsabilidades contratuais de Engenharia de Dados, com aplicação das técnicas em cenários avançados de IA.
Atividades e Responsabilidades
Desenvolver e implementar pipelines de ingestão de dados provenientes de bancos de dados, APIs, logs e repositórios documentais corporativos (PDFs, HTML, documentos textuais).
Realizar processos avançados de limpeza, transformação, enriquecimento e versionamento de dados, garantindo integridade, rastreabilidade e qualidade.
Projetar e manter pipelines distribuídos em Apache Spark / PySpark, utilizando plataforma Databricks e arquitetura de dados escalável (Data Lake / Lakehouse).
Implementar estratégias de preparação de dados para IA, incluindo segmentação de documentos (chunking), enriquecimento semântico e integração com mecanismos de busca e indexação.
Apoiar times de Ciência de Dados e AI/ML na preparação de datasets voltados a modelos analíticos e generativos.
Monitorar e otimizar performance, volume e eficiência dos processos de processamento de dados.
Garantir aderência a boas práticas de governança, retenção, atualização e confiabilidade dos dados.
Conhecimentos Técnicos Obrigatórios
Experiência sólida em Engenharia de Dados
Python e/ou PySpark
Apache Spark (batch e/ou streaming)
Experiência com pipelines ETL/ELT
Modelagem de dados em ambientes Data Lake / Lakehouse
Experiência com consumo e integração de APIs
Vivência em ambientes de Cloud Computing (preferencialmente Azure)
Uso de controle de versão (Git)
Conhecimentos Desejáveis (Diferenciais Técnicos)
Experiência com dados não estruturados (texto e documentos)
Experiência com pipelines de dados para Inteligência Artificial
Conhecimento em estratégias de recuperação de informação (RAG)
Integração com mecanismos de busca e indexação semântica
Experiência com plataformas de IA generativa (OpenAI, Azure OpenAI ou equivalentes)
Nível de Senioridade
Perfil Sênior, com capacidade de:
Definir arquitetura de pipelines de dados
Propor melhorias de performance e qualidade
Atuar com autonomia técnica
Apoiar e orientar outros profissionais de dados
Certificações
Apresentar no mínimo 1 (uma) certificação exigida em contrato, devidamente comprovada no currículo.
Digisystem
https://www.digisystem.com.br/
Não Informado
Pessoa Jurídica
Publicada há 48 minutos