Você já ouviu falar no “unicórnio” da ciência de dados? É a profissional mitológica que domina sozinha todas as habilidades necessárias para implantar e manter uma cultura de dados no ambiente de negócios. A famosa “faz tudo”. Mas ciência de dados é uma área melhor trabalhada em times plurais, onde cada pessoa se especializa em e possui um dos diferentes papéis e skills necessárias – e que você vai conhecer ao longo deste texto. 

 

O que é e quem faz a ciência de dados?

A ciência de dados se tornou uma área tão sedutora na indústria porque há benefícios em explorar os dados produzidos no dia a dia de uma instituição. Seja para realizar uma triagem inteligente no atendimento ao consumidor ou mapear epidemias de dengue para intervenções de saúde pública, modelar os acontecimentos passados para prever ocorrências futuras permite economizar tempo e dinheiro, e aumentar a efetividade de uma intervenção. 

Mas ainda é difícil definir a área de ciência de dados com poucas palavras de maneira objetiva, e muitas vezes recorremos a definições vagas como  “tomar decisões baseadas em dados” ou “extrair conhecimento dos dados”. No meio acadêmico, onde definições costumam ser bem importantes, temos artigos como o “50 Years of Data Science” (50 anos de ciência de dados), encarando o desafio de cruzar referências altamente contraditórias na busca por um consenso. 

Há uma excelente razão para definições vagas e referências contraditórias. Ciência de dados não é uma profissão desempenhada por uma pessoa só. É uma área muito abrangente, e igualmente abrangentes são as definições que fazem jus à dimensão dela. As tentativas de condensar a ciência de dados em uma única profissional acabam levando a reducionismos como “Pra que ciência de dados se já existe estatística?”.

Spoiler: não é só estatística. Aproveito pra deixar aqui meu reducionismo favorito da área, que veio direto do Twitter, a melhor fonte para boas definições (*sarcasmo*).

Por isso, vamos conhecer o dia a dia do trabalho com ciência de dados olhando para as principais subáreas que compõem esse time. Ao final de cada subárea, serão listadas algumas habilidades (skills) específicas esperadas da pessoa que exerce esse papel – mas vale lembrar: profissionais plurais enriquecem muito o ambiente de trabalho!

 

Engenharia de dados

Para realizar predições e análises a partir de dados, primeiro é preciso… ter os dados. Imagine uma empresa que ainda não possui um time de dados, e tem seus registros espalhados entre arquivos de texto, planilhas, imagens e outras inúmeras bases de dados. Integrar e consolidar esses dados de maneira eficiente e projetar mecanismos robustos de acesso é o papel dessa profissional. Em essência, ela irá desenvolver e manter a arquitetura que vai comportar os dados e torná-los acessíveis para o restante do time. 

Essa pessoa também participa de um dos processos mais essenciais de toda a área: limpeza de dados. Apesar de essa ser uma tarefa geralmente dividida com a pessoa cientista de dados, é preciso lidar com potenciais inconsistências de dados e toda a sorte de surpresas que o caos do mundo real pode proporcionar na hora de organizar e integrar bases. Em tempos de Big Data, onde a quantidade de dados pode ser massiva e sua complexidade desafiadora, engenharia de dados é um desafio de mão cheia. 

Habilidades gerais: Programação, bancos de dados (estruturados e não-estruturados), ferramentas de ETL (Extract-Transform-Load), sistemas distribuídos, serviços de cloud.

 

Ciência de dados 

Há quem tente estimar proporções (como a regra 80/20), mas o fato é que a maior parte do tempo dessa profissional é na famigerada limpeza de dados, desde modificações simples, como remover duplicatas, até decisões mais estratégicas, como o que fazer com dados faltantes. Pode parecer bobo, mas leva tempo! Dados reais podem ser caóticos de maneiras imprevisíveis. Além disso, é preciso muita cautela, afinal quanto mais interferências no dado original, mais você interfere nos resultados da análise.

Uma vez que os dados estão limpinhos e cheirosos, é hora de transformar, explorar e modelar! Aqui é que a palavra insight (conhecimento) começa a se destacar. A cientista precisa descobrir o que os dados têm a dizer e o que eles podem prever. Isso pode envolver transformações numéricas para evidenciar certas características do dado e dezenas de visualizações diferentes (e muitas horas olhando fixamente pra elas), além de análises estatísticas e projeção de modelos de aprendizado de máquina para que os padrões encontrados possam ser úteis em previsões futuras.  

Habilidades gerais: Programação, estatística, processamento de dados, visualização de dados, aprendizado de máquina.

 

Análise de negócios

A pessoa analista de negócios tem objetivos comuns à cientista de dados: produzir conhecimento útil (de preferência, preditivo) a partir dos dados disponíveis. Mas diferentemente da cientista, que se especializa no ferramental tecnológico capaz de gerar predições, a analista tem uma experiência de negócio inigualável, e sua especialidade está diretamente relacionada à atuação da instituição. Na área médica, por exemplo, a analista pode ser uma profissional da saúde; em uma instituição financeira, pode ser uma economista.

Suas habilidades e ferramentas utilizadas também podem ter muitas intersecções com a ciencia de dados. Planilhas, ferramentas interativas de visualização (como o Power BI e o Tableau) e linguagens de alto nível (como Python e R) são as melhores companheiras da pessoa analista de negócios. É considerada uma valiosa ponte entre a tecnologia e o negócio, facilitando a implementação da cultura de dados no ambiente de negócio.  

 Habilidades gerais: Conhecimento do negócio, estatística, ferramentas de visualização, habilidades interpessoais.

 

CRÉDITOS

Autora

Mila Laranjeira é doutoranda em Ciência da Computação na Universidade Federal de Minas Gerais (UFMG) e criadora do canal Peixe Babel no YouTube. Baiana engajada em popularizar conhecimento tecnológico com viés mais humano e social, é também professora no curso de Ciência da Computação na PUC Minas e instrutora na Alura Cursos Online.

Saiba mais no LinkedIn 

 

Revisora

Stephanie Kim Abe é jornalista, formada pela Escola de Comunicações e Artes da Universidade de São Paulo (ECA-USP). Trabalha na área de Educação e no terceiro setor. Esteve nos primórdios da Programaria, mas testou as águas da programação e achou que não era a sua praia. Mas isso foi antes do curso Eu Programo

Saiba mais no LinkedIn

 

Este conteúdo faz parte da PrograMaria Sprint Área de dados.

O que você achou deste conteúdo? Responda nosso feedback: