Aprenda a estruturar um pipeline de ETL para coletar dados de despesas parlamentares via uma API pública e veja dicas para realizar esse processo
Você sabia que, segundo a Gartner, 85% dos projetos de dados falham? Uma das principais razões para que isso aconteça é a falta de um objetivo claro.
Esse é um dado que a ativista Lilian Boccia traz nesta aula, para mostrar a importância de definir um objetivo em projetos de dados. E isso não vale só para analistas de dados – para as pessoas engenheiras de dados também.
“Como a engenharia de dados é a primeira parte desse processo, é onde se captura os dados brutos e onde eles são transformados para gerar insights para outras áreas, ela é crucial. É comum as pessoas engenheiras receberem a demanda para capturar os dados de um ambiente específico, mas não saberem os objetivos desses dados para a companhia”, diz.
Por isso, ela traz uma metodologia de quatro passos para gerar mais efetividade nos projetos de dados – e coloca isso em prática para criar um processo de captura, transformação e carregamento (ETL) dos dados de despesas parlamentares e disponibilizá-los nas camadas de dados para que as áreas de negócio possam consumí-lo.
Lilian explica o processo de ETL e apresenta com detalhes o que é uma pipeline de dados e como essa estrutura funciona, explicando ainda os processos de governança que vão assegurar o acesso e a performance de processamento.
Ela faz uma demonstração prática de como automatizar a coleta, transformar e armazenar esses dados no Google Cloud. Ao final, ela dá dicas dos próximos passos para quem quiser continuar trabalhando em cima desses dados.
Veja o vídeo completo abaixo:
Autora Lilian Boccia é formada em Tecnologia Mecânica pelo SENAI-SP e graduanda em Ciências Sociais pela USP. Ativista pelos dados abertos e profissional da área de dados há oito anos, tem experiência em análise e engenharia de dados atuando em fintechs, empresas do mercado financeiro e e-commerces com operação no Brasil e na América Latina, tais como Magazine Luiza, Mercado Livre e Nubank. Revisora Stephanie Kim Abe é jornalista, formada pela Escola de Comunicações e Artes da Universidade de São Paulo (ECA-USP). Trabalha no terceiro setor, cobrindo Educação ou apoiando a comunicação de organizações da sociedade civil. Esteve nos primórdios da Programaria, mas testou as águas da programação e achou que não eram a sua praia.
Este conteúdo faz parte da PrograMaria Sprint IA e Dados.