Workshop de Ían Muliterno ensina como preparar uma base de dados mantendo padrões de ética, envolvendo anonimização, mitigação de viés e manejo responsável de dados
À medida que as empresas vêm usando cada vez mais dados, têm-se aumentado também os exemplos de mal uso deles.
Em 2018, tivemos o caso famoso do uso ilegal dos dados de usuários do Facebook pela Cambridge Analytica. Em 2020, o Google foi multado por fornecer dados sobre a localização dos usuários para anunciantes. Até 2014, a ferramenta Visão de Deus do Uber permitia que o time da companhia seguisse a localização de motoristas sem a devida permissão.
Por isso, é importante que as empresas e os seus times de dados atuem com base na LGPD e tenham uma governança de dados robusta, atentando-se aos dados especializados e sensíveis, à transparência, à segurança e muito mais.
Neste workshop, o cientista de dados Ían Muliterno ensina na prática como preparar conjuntos de dados mantendo padrões éticos. Ele usa como exemplo dados de um banco indiano para mostrar técnicas como anonimização, perturbação e uso de dados sintéticos. Nesse processo, ele encontra bug e vieses, e mostra, na prática, como assegurar esse manejo responsável dos dados.
O cientista de dados aborda também os conceitos da privacidade diferencial e maneiras de prevenir e mitigar a discriminação digital, seja garantindo um check em todas as fases, assegurando que o conjunto de treino não é enviesado ou pedindo feedback de uso.
“Nós, como programadores, cientistas, desenvolvedores, engenheiros, arquitetos de dados, estamos em uma posição de poder para promover a proteção das informações e a igualdade, para cuidar pra que os preconceitos da sociedade não sejam replicados e escalados por um modelo de machine learning que vai, por exemplo, dar um score de aprovação de crédito ou outro caso mais sério”, destaca.
Ele ainda recomenda:
“Como cientistas de dados, listem quais são as variáveis pessoais que podem acabar perpetuando preconceitos na sua base de dados, chequem se subgrupos estão bem representados. Se não estiverem, proponha para a(o) sua(seu) superior um processo de reamostragem, ou, se possível, considere melhorar ou enriquecer o seu conjunto de treino, para tratar isso na raiz, propondo um conjunto ético”.
Confira a seguir:
Autor Ían Muliterno é cientista de dados com formação em Estatística e oito anos de experiência em áreas como startups de fidelidade de clientes, setor bancário, Unilever e outras empresas. Atualmente, trabalha em uma provedora de serviços de TI como consultor, atendendo uma seguradora internacional. Já atuou como freelancer em projetos como previsão de vendas para e-commerce e NLP, além de ensinar programação básica. É entusiasta de Web3 e IA – temas que estuda e pratica atualmente. Revisora Stephanie Kim Abe é jornalista, formada pela Escola de Comunicações e Artes da Universidade de São Paulo (ECA-USP). Trabalha no terceiro setor, cobrindo Educação ou apoiando a comunicação de organizações da sociedade civil. Esteve nos primórdios da Programaria, mas testou as águas da programação e achou que não eram a sua praia.
Este conteúdo faz parte da PrograMaria Sprint IA e Dados.