Veja como transformar dados em gráficos visuais que contribuem para a melhor compreensão das informações

A análise de dados (analytics) e a visualização de dados (dataviz) são ferramentas essenciais para insights e decisões estratégicas, conforme expresso por Peter Drucker: “Não se pode gerenciar o que não se pode medir”. Analytics envolve coleta, processamento e análise de dados, enquanto dataviz transforma dados em gráficos visuais para melhor compreensão.

 

Edward Tufte, autor de diversas máximas como “excelência gráfica é aquela que proporciona ao espectador o maior número de ideias no menor tempo possível, com a menor quantidade de tinta, no menor espaço” e “o design não pode resgatar conteúdo falho” e “se as estatísticas são chatas, você pegou os números errados”, enfatiza a importância de alinhar a visualização de dados ao seu conteúdo, não à sua estética. A beleza e o design não devem distorcer a informação apresentada. Analistas de Dataviz devem criar visualizações verdadeiras ao conteúdo dos dados, evitando elementos de design desnecessários que possam confundir o espectador.

 

Além disso, analistas de Dataviz devem trabalhar com os “números certos”, como Tufte aconselha, escolhendo estatísticas significativas e interessantes que ajudem a contar a história dos dados. Assim, suas visualizações de dados serão não apenas atraentes, mas, também, informativas e valiosas.

 

Apesar da importância do analytics e do dataviz, muitas empresas ainda lutam para usá-los efetivamente, possivelmente devido à falta de habilidades técnicas, compreensão dos dados ou uma estratégia clara de análise de dados.

 

 

A importância da visualização de dados na análise de dados

A visualização de dados é uma ferramenta essencial na análise de dados. Ela permite que analistas de dados interpretem e compreendam complexas estruturas de dados de maneira intuitiva e acessível.

 

Compreensão por meio de visualização

A visualização de dados funciona como uma ponte entre os dados técnicos e a interpretação humana. Como Alberto Cairo argumenta em “The Functional Art: An introduction to information graphics and visualization”, a visualização de dados é uma forma de arte funcional que permite que os dados sejam apresentados de maneira a facilitar a compreensão. A visualização de dados não é apenas sobre a criação de gráficos bonitos, mas sobre a apresentação de dados intuitiva e informativa.

 

Aplicação de analytics e dataviz na tomada de decisões

Como Jorge Camões argumenta em “Data at Work”, gráficos e visualizações de dados eficazes são ferramentas poderosas na tomada de decisões. No entanto, para que analytics e dataviz sejam eficazes na tomada de decisões, é crucial uma cultura orientada por dados.

Em “Data-Driven”, DJ Patil e Hilary Mason argumentam que criar uma cultura de dados envolve mais do que apenas ter as ferramentas e as técnicas certas. Também requer uma mentalidade que valoriza os dados e a evidência acima das suposições e intuições e está disposta a mudar de direção com base no que os dados mostram.

 

 

A necessidade de habilidades de visualização de dados

Nathan Yau, em “Visualize This: The FlowingData Guide to Design, Visualization, and Statistics”, destaca a importância de desenvolver habilidades de visualização de dados. Ele argumenta que a capacidade de visualizar dados é uma habilidade essencial no mundo moderno, onde os dados estão se tornando cada vez mais importantes. A visualização de dados permite que analistas de dados comuniquem efetivamente suas descobertas, tornando os dados acessíveis a uma audiência mais ampla.

 

A visualização de dados na tomada de decisões

A visualização de dados desempenha um papel crucial na tomada de decisões baseada em dados. Ela permite que tomadores de decisão vejam padrões, tendências e insights que podem não ser imediatamente aparentes em dados brutos. A visualização de dados pode ajudar a identificar áreas de interesse, destacar problemas potenciais e guiar a tomada de decisões estratégicas.

 

Ferramentas de visualização de dados para análise de dados

A visualização de dados é uma parte essencial da análise de dados. Ela permite que analistas de dados interpretem e compreendam complexas estruturas de dados de maneira intuitiva e acessível. Este artigo explora as ferramentas de visualização de dados usadas na análise de dados, com insights de livros sobre D3.js, Power BI e Python.

 

D3.js: visualização de dados com JavaScript

D3.js é uma biblioteca JavaScript que permite criar visualizações de dados interativas e dinâmicas na web. Os livros “D3.js in Action: Data visualization with Javascript”, de Elijah Meeks, e “Interactive Data Visualization for the Web: An Introduction to Designing with D3”, de Scott Murray, são excelentes recursos para aprender a usar D3.js para visualização de dados.

 

Power BI: uma ferramenta poderosa para visualização de dados

O Power BI é uma das ferramentas de visualização de dados mais populares usadas na análise de dados. Ele permite a criação de relatórios interativos e painéis de controle a partir de uma variedade de fontes de dados. A seguir, alguns dos melhores livros sobre o uso do Power BI em ciências de dados ou análise de dados:

  1. “The Definitive Guide to DAX: Business Intelligence for Microsoft Power BI, SQL Server Analysis Services, and Excel Second Edition”, de Marco Russo e Alberto Ferrari. Este livro é uma introdução completa à linguagem DAX para inteligência de negócios, modelagem de dados e análise.
  2. “Mastering Microsoft Power BI: Expert techniques for effective data analytics and business intelligence”, de Brett Powell. Este livro é destinado a profissionais de inteligência de negócios responsáveis pelo design e desenvolvimento de conteúdo do Power BI.
  3. “Microsoft Power BI Dashboards Step by Step”, de Errin O’Connor. Este livro é uma ótima introdução ao Power BI e ensina como criar painéis de controle de análise de negócios de classe mundial que dão vida aos dados.
  4. “Power Pivot and Power BI: The Excel User’s Guide to DAX, Power Query, Power BI & Power Pivot in Excel 2010-2016”, de Rob Collie e Avi Singh. Este livro dá uma visão geral do Power BI, Power Pivot e Power Query, e mergulha nas fórmulas DAX, a capacidade central do Power Pivot.
  5. “Supercharge Power BI: Power BI Is Better When You Learn to Write DAX”, de Matt Allington. Este livro ensina como o Power BI é melhor quando você aprende a escrever DAX.

 

Python: uma linguagem versátil para visualização de dados

Python é uma linguagem de programação amplamente usada na análise de dados devido à sua simplicidade e à variedade de bibliotecas disponíveis para análise de dados e visualização de dados. A seguir, alguns dos melhores livros para aprender Python para visualização de dados:

  1. “Python for Data Analysis”, de Wes McKinney. Este livro é uma introdução abrangente à análise de dados usando Python e a biblioteca Pandas.
  2. “Python Data Science Handbook”, de Jake VanderPlas. Este livro cobre as principais bibliotecas de ciência de dados em Python, incluindo NumPy, Pandas, Matplotlib e Scikit-Learn.
  3. ” Hands-on Matplotlib: Learn Plotting and Visualizations with Python 3″, de Ashwin Pajankar. Este livro oferece uma visão detalhada da biblioteca Matplotlib, uma das bibliotecas de visualização de dados mais usadas em Python.
  4. “Data Science for Dummies”, de Lillian Pierson. Embora não seja estritamente um livro de visualização de dados, oferece uma visão geral da ciência de dados em Python, incluindo a visualização de dados.

 

Outras ferramentas de visualização de dados

Além de D3.js, Power BI e Python, existem muitas outras ferramentas de visualização de dados que podem ser úteis na análise de dados. Aqui estão algumas delas:

  1. Tableau: ferramenta de visualização de dados interativa que permite criar painéis de controle e relatórios personalizados.
  2. QlikView: plataforma de análise de negócios que oferece visualizações de dados interativas e personalizáveis.
  3. Looker: plataforma de análise de dados que permite criar e compartilhar visualizações de dados.
  4. SAS Visual Analytics: solução de análise de dados que oferece visualização de dados, relatórios e análise preditiva.
  5. Google Data Studio: ferramenta gratuita do Google que permite criar relatórios e painéis de controle interativos a partir de uma variedade de fontes de dados.

A escolha da ferramenta de visualização de dados depende das necessidades específicas do projeto e das habilidades da pessoa analista de dados. É importante experimentar diferentes ferramentas e escolher a que melhor atende às suas necessidades.:

 

 

Usos de caso de Analytics com Data Viz

Para ilustrar como o analytics e o dataviz podem ser usados na prática, vamos olhar para alguns casos reais usando o Power BI.

Vamos analisar o consumo de pizza para gerar insights para o negócio.

https://www.kaggle.com/datasets/teocalvo/pizzaquery?resource=download

Aqui está como a modelagem dos dados foi realizada:

A análise temporal é uma das principais ferramentas:

 

A partir daqui já podemos ver dois problemas: não temos o mês inteiro de maio e temos pelo menos dois dias que parecem uma exceção à regra.

Do total de 1.106 pedidos de pizza, podemos enxergar que mais da metade veio da soma dos dias 23 e 24.

 

Vamos criar uma análise gráfica para enxergar melhor esse efeito:

Esse é o gráfico week over week (semana sobre semana). Podemos enxergar a falta de dados na primeira semana do mês e na última. Com ele, também já temos uma ideia melhor de que a quarta-feira não é o dia de maior consumo – pode ser quinta, sexta ou sábado.

 

Para descobrir qual o dia da semana de maior consumo, vamos verificar o percentual de variação entre a última semana e a semana anterior (WoW%):

 

Aqui percebemos que a variação da terça, quarta e quinta são mais do que o dobro das variações dos demais dias e, portanto, não apenas os dias 24 e 25 devem ser tratados como ruído, mas também o dia 23. Vamos excluir esses dias da nossa análise e trazer a média de consumo por dia da semana:

 

Veja que, mesmo após o expurgo dos três dias que estavam com uma variação muito grande, nossa média indica que os dias de maior consumo – segundo os dados que temos – são terça-feira, seguida de sexta-feira e quarta-feira. Desse gráfico, podemos gerar insights de negócios para estimular consumo nos dias de menor consumo, como promoções ou incentivos, ou, ainda, alterar o quadro de funcionários para otimizar o custo de pessoal de acordo com a demanda.

 

Esse caso mostra como o analytics e o dataviz podem ser usados para resolver problemas reais e tomar decisões melhores. Mas é importante lembrar que essas ferramentas são apenas isso: ferramentas. Elas não substituem o julgamento humano, a experiência ou a intuição! Se não tivéssemos analisado a fundo os dados, teríamos chegado à conclusão de que quarta-feira é o maior dia de consumo da semana e poderíamos gerar milhares de reais de prejuízo para a empresa.

 

Como o autor e especialista em dados Nate Silver escreveu em seu livro “The Signal and the Noise”: “os números não falam por si. Nós os interpretamos. Eles não se defendem. Quando alguém ‘entorta’ os números, eles não reclamam. Eles não voltam para você. Eles não te dizem que você está sendo injusto”.

 

Portanto, quando usamos o analytics e o dataviz para nos ajudar a tomar decisões, também devemos estar cientes de suas limitações e sempre questionar nossas próprias suposições e interpretações.

 

 

CAPÍTULO EXTRA

 

Representação gráfica do relacionamento entre dados categóricos: usos e aplicações

 

A representação gráfica de dados é uma ferramenta essencial na análise de dados, pois permite visualizar informações de maneira clara e intuitiva. Quando se trata de explorar o relacionamento entre dados categóricos, ou seja, dados que podem ser divididos em grupos ou categorias, existem várias técnicas de visualização que podem ser usadas para representar esses dados de maneira eficaz.

 

Os dados categóricos são comumente encontrados em muitos campos, incluindo pesquisa de mercado, ciências sociais e medicina. Eles podem ser nominais (sem ordem natural, como cores ou marcas de carros) ou ordinais (com uma ordem natural, como classificações ou níveis de educação).

 

Um dos gráficos mais comuns usados para representar o relacionamento entre dados categóricos é o gráfico de barras empilhadas. Este gráfico é útil para comparar a distribuição de uma categoria dentro de outra. Cada barra representa uma categoria, e a altura ou o comprimento da barra é dividido em segmentos que correspondem às subcategorias.

 

Outra ferramenta comum é o gráfico de mosaico, que é uma extensão do gráfico de barras empilhadas para duas ou mais variáveis categóricas. Cada retângulo no gráfico de mosaico representa uma combinação de categorias e o tamanho do retângulo é proporcional à frequência da combinação.

 

Para dados categóricos ordinais, um gráfico de barras agrupadas pode ser mais apropriado. Este gráfico é semelhante a um gráfico de barras regular, mas as barras são agrupadas por uma segunda variável categórica, permitindo comparar a distribuição de uma categoria dentro de diferentes grupos.

 

Além disso, para representar a associação entre duas variáveis categóricas, podemos usar o gráfico de contingência ou o gráfico de calor. Estes gráficos mostram a frequência conjunta de duas categorias, permitindo visualizar a relação entre elas.

 

Além das visualizações apresentadas acima, há o gráfico de Sankey, que detalho a seguir, pois merece destaque e é subutilizado, em grande medida pelo desconhecimento das pessoas.

 

Finalizando, vale reforçar que a representação gráfica do relacionamento entre dados categóricos é uma ferramenta poderosa para a análise de dados. No entanto, é importante escolher o gráfico certo para os dados e o objetivo da análise. Como o especialista em visualização de dados Edward Tufte disse: “Acima de tudo, mostre os dados”.

 

 

Representação gráfica do relacionamento entre dados categóricos: a importância do gráfico de Sankey

 

O gráfico de Sankey é uma ferramenta visual poderosa, frequentemente usada para representar o fluxo de informações ou recursos entre diferentes categorias.

 

Ele é especialmente útil quando se deseja visualizar a distribuição de uma determinada quantidade ao longo de várias etapas ou categorias. Cada fluxo no gráfico de Sankey é representado por uma seta, cuja largura é proporcional à quantidade do fluxo.

 

Vamos criar uma análise de comportamento de consumo:

 

Aqui vamos analisar o comportamento de consumo de sabores por bebida:

 

Quem bebe cerveja normalmente pede pepperoni.

Já quem bebe suco de laranja normalmente pede calabresa, bacon ou presunto.

 

Aqui não precisamos fazer nenhum tipo de algoritmo refinado de data mining para reconhecer essas associações.

 

O gráfico de Sankey é uma ferramenta valiosa na análise de dados categóricos devido à sua capacidade de representar visualmente fluxos complexos e interconexões. Como mencionado por Robert Kosara, um pesquisador sênior na Tableau Software e um dos principais especialistas em visualização de dados, “os gráficos de Sankey são uma das melhores maneiras de visualizar fluxos, desde energia até dinheiro”.

 

No entanto, apesar de sua utilidade, o gráfico de Sankey é muitas vezes subutilizado na análise de dados categóricos. Isso pode ser devido à falta de familiaridade com o gráfico ou à falta de ferramentas de visualização de dados que suportem a criação de gráficos de Sankey.

 

CRÉDITOS

Autora

Liz Alexandrita Barreto, Especialista em Projetos de Dados Especialista em dados, atua há 15 anos na área. Entusiasta de Ciências e Matemática, e ávida defensora de mais diversidade nessas áreas, especialmente no mundo corporativo. É mentora de mulheres em carreiras técnicas para formar as possíveis chefes da sua filha. Empreendedora, prestou serviços no mercado internacional e fortalece o mercado local com tecnologias e processos de ponta. É mãe e no tempo livre gosta de fazer castelo de areia, pintar quadros abstratos e cuidar do seu jardim. Saiba mais no LinkedIn

Revisora

Luciana Fleury, jornalista

Saiba mais no LinkedIn

Este conteúdo faz parte da PrograMaria Sprint Dados: ampliando as fronteiras.