Você chegou ao fim do PrograMaria Sprint IA e dados e quer continuar aprendendo? Veja as dicas da cientista de dados, consultora e pesquisadora Haydée Svab

Que bom que você chegou até aqui neste Sprint IA e Dados!

Eu sou a Haydée Svab, cientista de dados, consultora, diretora-executiva da Open Knowledge Brasil e novamente estou apoiando a PrograMaria como curadora, desta vez no Sprint IA e Dados . Eu também sou mãe de um menino incrível de 3 anos, o que mudou bastante minha vida, minha disponibilidade para estudos e minha forma de consumir conteúdo – agora ouço mais podcasts por ser mais prático para o meu momento de vida, como perceberá pelas minhas indicações ;-).

Fiquei com o desafio de dar um fecho e apontar caminhos para que você siga para além desse sprint, então te convido a revisitar esta jornada que traçamos juntas.

Área e carreira em dados

A Érica apresentou o bê-a-bá das carreiras de dados explicando a diferença entre analista de dados, cientista de dados, engenheira(o) de dados, engenheira(a) analítica e estrategista de dados. Além disso, ela apontou os primeiros passos do que é importante saber nessas carreiras. Aqui, recomendo conhecerem o podcast Let’s Data com destaque para o episódio que fala sobre as possíveis carreiras em dados, indo até MLOps, indicando algumas hardskills necessárias, mas sem esquecer as softskills, como raciocínio lógico e comunicação. Ressalto que não é só uma comunicação técnica que é desejável, mas conseguir expressar-se de uma forma objetiva, coerente e acessível tem o potencial de te colocar em posições-chave para construir pontes e soluções.

Aproveito que a Ana Cecília trouxe reflexões acerca da questão “O que Dados tem a ver com Produtos” para indicar a leitura do artigo “Data as a Product vs Data Products: What Are the Differences?” (em inglês) que explora a diferença entre tratar os próprios dados como um produto e construir produtos de dados. Ambas as perspectivas aproveitam dados para a criação de valor. A abordagem de “dados como um produto” trata os dados como um ativo a ser gerenciado e monetizado. Por outro lado, “produtos de dados” são aplicações ou ferramentas que utilizam dados para fornecer funcionalidades ou insights com foco na resolução de problemas específicos para os usuários finais. Aqui, eu não poderia deixar de recomendar o podcast Mulheres de Produto, com destaque para o episódio sobre a função de data product manager. A Anna Karoliny nos mostrou, em seu workshop, como materializar um produto de dados, trazendo conceitos de metodologias ágeis e, sobretudo, relembrando que é preciso que cultura, estrutura e processos tenham os dados no centro de suas operações e estratégias. Como leitura complementar, deixo este breve texto da MIT Technology Review sobre a cultura data-driven como indutora de transformação.

O Global Gender Gap Report 2024 (em inglês) aponta que, de modo geral, as proporções de mulheres na força de trabalho STEM e não-STEM aumentaram gradualmente desde 2016. No entanto, em 2024, as mulheres continuam a ter uma representação menor na força de trabalho STEM do que na força de trabalho não-STEM, com participações de 28% e 47%, respectivamente. Nas áreas de inteligência artificial, em específico, embora os homens ainda tenham uma representação substancialmente maior de talento, o aumento crescente da parcela de mulheres é um sinal positivo para melhorar a paridade de gênero. Frente a esse contexto, é fundamental que discutamos as carreiras de tecnologia considerando aspectos de gênero e, para além do riquíssimo material da própria PrograMaria, deixo aqui este episódio do podcast Data Hackers que debate mulheres na liderança em carreira de dados.

Inteligência artificial, ciência de dados, estatística e ética

Se inteligência artificial (IA) é o assunto do momento, também é um dos tópicos mais avançados na área de dados, como a Renata nos alertou no seu vídeo sobre IA Generativa. Com o vídeo Descomplicando a Estatística para analisar Dados, a Natália demonstrou a necessidade dos pés fincados nos fundamentos estatísticos para que sejamos bem sucedidas em qualquer carreira da área de dados. Portanto, minha maior recomendação sobre onde vale investir tempo de aprendizado é: nos fundamentos. A matemática, a estatística e a lógica (que depois evoluem para a programação) sempre serão boas companheiras, desde o início até a maturidade da sua carreira. Subscrevo todas as referências que ela indicou e acrescento o podcast Estatisticast, da Fernanda Maciel, e o livro “Manual de Análise de Dados: Estatística e Machine Learning com Excel, SPSS, Stata, R e Python”, de Luiz Paulo Fávero e Patrícia Belfiore. Caso você goste de ouvir podcasts em inglês (ou treinar seu inglês enquanto aprende estatística e dados), vale conhecer:

    • Significant Statistics, que aborda tópicos introdutórios para quem deseja estudos autônomos;
    • The Random Sample, iniciativa australiana que conta com histórias sobre matemática, estatística, ciência de dados;
    • More or Less: Behind the Stats, produzido pela BBC que fala das estatísticas cotidianas e que nos cercam;
    • Stats + Stories, que se propõe a apresentar as estatísticas por trás das histórias e as histórias por trás das estatísticas;
    • The Effective Statistician, que tem episódios com todos os níveis de profundidade e, embora voltado para o setor de saúde, traz tópicos importantes para a comunidade de cientistas de dados no geral.

Nessa toada de trabalhar bem as bases, o texto da Isabel é perfeito: explica didaticamente a diferença entre IA preditiva, prescritiva e a generativa, é riquíssimo em referências e também fala dos principais desafios éticos enfrentados. E é esta seara que quero explorar um pouco mais com vocês. Eu agruparia os principais desafios éticos relacionados a modelos em dois grandes grupos: aqueles relacionados à questões de governança e justiça algorítmica, e aqueles relacionados à sustentabilidade e justiça econômica.

Sobre o primeiro grupo, é importante ter em conta que o código nunca é neutro e que modelos matemáticos são abstrações que refletem e podem reforçar vieses que já temos buscado combater, mitigar e corrigir com estruturas sociais bastante complexas (leis, cultura, etc) há muito tempo. Os textos do Tarcízio Silva dão uma clara dimensão do que é racismo algorítmico e seus impactos negativos, com destaque para seu livro “Racismo algorítmico: inteligência artificial e discriminação nas redes digitais”. Outra publicação sobre racismo algorítmico, d’O Panóptico, traz uma leitura crítica muito bem fundamentada e com elementos conceituais do colonialismo digital. O Panóptico, inclusive, é uma fonte de informação de alta qualidade no que tange ao uso de tecnologia na segurança pública. Esses vieses algorítmicos também têm recorte de gênero. Um estudo recente do net.lab com a Escola de Comunicação da Universidade Federal do Rio de Janeiro aponta que 44% dos anúncios da Meta reforçam estereótipos de gênero em fotos, vídeos e textos, e que o corpo da mulher é o principal alvo da publicidade abusiva online.

À misoginia, soma-se a transfobia quando falamos de eleições municipais em 2024, é o que aponta o Monitora, projeto do Instituto AzMina com InternetLab e Núcleo Jornalismo que monitora a violência política e eleitoral contra candidatas(os) nas redes sociais. Enfim, as camadas de preconceitos e vieses, no mundo digital, são um entrelaçar de poder, vigilância e capitalismo de plataforma, o exato objeto de debate desta coletânea de artigos. Cientes desse cenário, nosso papel como tecnologistas é buscar mitigar e controlar vieses, além de sermos sempre permeáveis à críticas e sugestões acerca de nossos pontos cegos. Nesse sentido, e de forma complementar ao vídeo do Ian sobre preparação de base de dados com integridade ética, fica a dica deste vídeo da Gabriela de Queiroz para a Escola de Dados da Open Knowledge Brasil, que explora um pouco mais sobre as implicações da IA e como mitigar vieses com ferramentas open source.

Renata trouxe a história desde as redes neurais (1943), passando pelos Transformers, e chegando aos modelos LLMs atuais. Aqui é imprescindível a leitura do artigo “Attention is all you need”, em que é proposta uma nova arquitetura de rede simples, baseada em mecanismos de atenção, e que generaliza bem para outras tarefas. Além disso, ela apontou muito bem que usar, treinar e desenvolver IA generativa são coisas bem diferentes. Uso é o que qualquer pessoa faz ao inserir uma pergunta (ou prompt) num motor de GenIA (ChatGPT, Gemini, etc). Também é possível fazer treinos com dados do nosso negócio – este é o uso que a maior parte de cientistas de dados faz atualmente. Já desenvolver uma GenIA demanda muito recurso e somente empresas gigantes, como as big techs, têm essa capacidade econômica – não dá para “fazer na garagem de casa”.

Aqui entramos no segundo grande grupo de desafios: IA e sua cadeia produtiva associada: seus recursos, sua (in)disponibilidade e (não)distribuição. A atual concentração econômica implica muitos efeitos deletérios, inclusive para as democracias, como bem demonstra Evgeny Morozov no livro “Big Tech: A ascensão dos dados e a morte da política”. Mas não só. Em termos ambientais a conta é cada vez mais alta, e com efeitos que incidem de forma mais impetuosa sobre as populações mais vulneráveis. As emissões do Google aumentaram 48% em cinco anos, enquanto as da Microsoft cresceram 30% entre 2020 e 2023. Esse impacto não é um fato isolado, mas sim uma tendência: segundo estimativas do instituto de pesquisa SemiAnalysis, a IA fará com que os data centers usem 4,5% da geração global de energia até 2030 (daqui seis anos apenas). Contudo, as declarações de líderes de big techs beiram o negacionismo climático ao afirmar que o bem que a IA pode fazer ao mundo ultrapassará o seu impacto ambiental, ou ao dizer para governos não “exagerarem” nas preocupações com o uso de energia da IA.

Há três formas de calcular a pegada de carbono de um modelo de aprendizado de máquina: a do uso do modelo para fazer inferências, a do treinamento do modelo, e a que considera todo o ciclo de vida do modelo. No artigo “Power Hungry Processing: Watts Driving the Cost of AI Deployment?” (em inglês) Luccioni, Jernite e Strubell propõem uma comparação sistemática do custo de implantação (quantidade de energia e carbono) de várias categorias de sistemas de machine learning (ML), abrangendo tanto os modelos de objetivos específicos quanto os de objetivo geral, e concluem com o alerta sobre uma necessária consideração dos efeitos ambientais na produção de algoritmos, visão ainda escassa no mercado.

Além da pegada de carbono, ressalto a importância de também considerar a pegada hídrica ao tratar de impactos ambientais. Em 2027, estima-se que a demanda hídrica gerada pelos sistemas de IA sejam responsáveis por mais do que a captação anual total de água de metade do Reino Unido. Aqui deixo indicado o artigo “Making AI Less “Thirsty”: Uncovering and Addressing the Secret Water Footprint of AI Models” (em inglês), em que Li, Yang, Islam e Ren fornecem uma metodologia baseada em princípios para estimar a pegada hídrica dos modelos de IA, além de salientarem a necessidade de abordar holisticamente a pegada hídrica junto à pegada de carbono para permitir a busca por uma IA verdadeiramente sustentável. Fecho este tópico com a indicação do podcast Tech Won’t Save Us (em inglês), em especial o episódio Generative AI is a Climate Disaster, e com a seguinte pergunta-provocação, não só para quem está iniciando, mas também para quem trabalha todo dia com Dados e IA: você faz ideia do impacto ambiental gerado pelo fruto do seu trabalho?

Arquitetura, engenharia e gerenciamento de processos de dados

Bruna Gamito e Bruna Keppel desvendam o que são os diversos Ops e as possíveis carreiras. Retomando os princípios CALMS, reforço que o apoio de uma cultura DevOps é o principal, afinal DevOps não é cargo, metodologia e nem “bala de prata”. Complemento a indicação delas (“a bíblia” do assunto) com o livro finalista do Prêmio Jabuti Acadêmico 2024: “Como se faz DevOps – Organizando pessoas, dos silos aos times de plataforma”, de Leite, Meirelles e Kon, além do “Fundamentals of DevOps and Software Delivery”, de Yevgeniy Brikman, previsto para ser lançado em maio/2025. Como eu não poderia deixar de indicar um podcast, salva aí este episódio do Kubica em que a Isadora Ribeiro fala sobre a jornada em operações e destaca com assertividade as diferenças entre DevOps e SRE. Já para suplementar o artigo da Bárbara sobre DataOps, recomendo este texto da IBM, que aprofunda os conceitos, este episódio do Women in Data Science London, e este outro do Women in DevOps em que mulheres trazem suas experiências e falam sobre as tendências da área.

Falando em engenharia de dados, a Lilian mostrou como estruturar um pipeline de ETL para coletar dados de despesas parlamentares usando a API pública da Câmara dos Deputados – você tentou reproduzir o que ela apresentou? Se não, vai lá e põe mesmo a mão na massa, porque só assim a gente tem dúvidas e melhora nosso portfólio! Aqui indico episódios de podcasts sobre como é trabalhar com engenharia de dados na Apache Spark e na XP Inc. Do podcast Data Engineering, destaco este episódio sobre como a IA generativa está impactando times de engenharia de dados (em inglês). Afinal, mesmo quem não está diretamente lidando com GenIA será impactado por ela.

Evoluindo nosso papo para Engenharia de IA, deixo recomendação antecipada do livro “AI Engineering” (em inglês), da vietnamita Chip Huyen, cujo lançamento está previsto para dezembro/2024. É também dela o best-seller “Designing Machine Learning Systems: An Iterative Process for Production-Ready Applications” (em inglês), e uma entrevista bem humorada no episódio Designing Machine Learning Systems (em inglês), do podcast Super Data Science: ML & AI Podcast with Jon Krohn, em que ela partilha sua experiência na criação de aplicações de machine learning.

Débora nos traz um bom panorama sobre arquitetura de dados, desde o já tradicional ETL, passando por data warehouse e data marts, chegando em data fabric e data mesh. Este episódio do podcast Data Mesh Radio traz uma interessante discussão sobre a visão de arquitetura do data mesh. O data fabric, que vem com uma proposta de integração simplificada e governança automatizada de dados, e o data mesh, que é marcado pela arquitetura descentralizada, são movimentos das organizações em resposta a problemas (não tão novos), como silos e grande escala de dados. Ambas as tendências trazem consigo complexidades adicionais: gerenciamento e governança de dados (data mesh) ou zelo pela segurança e privacidade (data fabric). Este livro relaciona essas duas tendências com IA e também com com os Ops (DataOps de dados, MLOps, AIDevOps).

Por fim, um dos aspectos mais desafiadores que enxergo atualmente é conseguirmos desenvolver nossa generosidade e empatia. Nossa capacidade de compartilhar conhecimento existe, mas é pouco explorada e, nossa energia, pouco empenhada na redução de injustiças e desigualdades. Pacificarmos guerras, acabarmos com a fome e mitigarmos as mudanças climáticas nos assegurará um futuro – essa é uma missão genuinamente humana.

Espero que tenha chegado até aqui e aproveitado muito os conteúdos deste Sprint. Até a próxima!

CRÉDITOS

Autora

Haydée Svab é mãe da Zoé e do David, é sócia e cofundadora da ASK-AR (consultoria em análise de dados), atualmente, é membro do Conselho de Governança da Open Knowledge Brasil e coordenadora do capítulo RLadies-São Paulo. Foi membro do Conselho Deliberativo da AEAMESP (Associação dos Engenheiros e Arquitetos de Metrô) e da comunidade Transparência Hacker. Já trabalhou como consultora do BID, Banco Mundial e diversas organizações do terceiro setor e foi engenheira do Metrô-SP por quase 10 anos. É mestra em engenharia e planejamento de transportes (Poli-USP), especialista em democracia participativa, repúblicas e movimentos sociais (UFMG) e formada em engenharia civil e arquitetura pela USP (Programa Poli-FAU). Enfim, é uma feminista que quer usar dados e ciência para tornar as cidades melhores, mais acolhedoras, mais inteligentes e mais sustentáveis para todas, todos e todes.

Saiba mais no LinkedIn

Revisora

Jayne L. Oliveira, jornalista e produtora editorial.

Saiba mais no LinkedIn

Este conteúdo faz parte do PrograMaria Sprint IA e Dados.