Entenda o início da era de dados, os principais conceitos e a sua utilidade no mercado de trabalho atual e no seu cotidiano
Quando a gente ouve falar sobre dados, imaginamos algo como uma tela preta cheia de sinais como no filme Matrix. Mas a verdade é que tudo o que você anota, toda lista de compras ou de afazeres é um registro que, de forma informacional, acaba virando um dado sobre uma determinada situação.
Dentro do campo da informática, dados são valores, não necessariamente números, atribuídos a algo. Eles podem ser a união de todo e qualquer tipo de informação que tenha algum significado em um documento ou suporte físico.
Marcos históricos
Há três marcos históricos importantes para entender o universo dos dados. O primeiro é a consciência da utilidade desta ferramenta dentro do meio corporativo. Em 1865, um homem chamado Richard Millar Devens chamou a atenção ao apresentar o case de um bancário que lucrou horrores ao coletar, armazenar e tratar algumas informações do mercado antes dos seus concorrentes.
O segundo fator essencial surge quase um século depois, quando o engenheiro Arthur Samuel cria, em 1959, a Machine Learning (aprendizado de máquina, em português), para programar as inteligências artificiais a executar uma tarefa de previsão ou classificação por intermédio de dados que viram algoritmos matematicamente representados.
Por fim, em 1969, nasce a internet – principal fator para a composição do universo de dados. Originalmente criada para fins militares, o seu uso passou a ser comercial com a sua evolução e sua distribuição realizada por empresas provedoras deste serviço. Em 1992, o Laboratório Europeu de Física de Partículas (CERN) inventou a World Wide Web, que passou a ser utilizada para colocar informações ao alcance de qualquer pessoa usuária dessa tecnologia.
A digitalização de todo o universo tecnológico gerou um volume gigante de dados (tabelas, gráficos, músicas, vídeos, áudios, imagens etc) e uma necessidade ainda maior de uma forma de armazenamento. Todas as informações geradas pelo uso dessa tecnologia passaram a ser utilizadas matematicamente como algoritmos para nos fornecer uma cognição sobre qualquer coisa que queremos saber. Com esse tipo de tratamento, nasceu a ciência de dados para facilitar a compreensão de tudo o que estava sendo descoberto.
Essa união entre a ciência da computação com estatística se popularizou, pois antes o que era feito na mão passou a ser automatizado com o uso do aprendizado da máquina para a coleta de informações ou para gerar ações conforme a necessidade de quem o utiliza.
Mas, afinal, o que é banco de dados? Onde vivem? Como se comportam?
Banco de dados é a união organizada e estruturada das informações geradas pelos dados. Normalmente, são armazenados em dispositivos eletrônicos e, segundo o site da Oracle, se organizam em:
- Bancos de dados relacionais: são caracterizados pelo conjunto de tabelas com colunas e linhas. O seu uso fornece, de maneira eficiente e flexível, o acesso às informações estruturadas;
- Bancos de dados orientados a objetos: objetos são ideias computacionais que representam coisas, peças, utensílios, instrumentos e afins, com qualidades (atributos) e ações (métodos) que podem realizar. Este tipo de programação é utilizado para decodificar todo e qualquer tipo de objeto, para que seja utilizado como algoritmo, ou melhor, um dado;
- Bancos de dados distribuídos: consiste em dois ou mais arquivos localizados em websites diferentes;
- Data warehouses: é um “porão” central de dados, ou seja, é um tipo de banco de dados projetado especificamente para consultas e análises rápidas;
- Bancos de Dados NoSQL: um NoSQL, ou banco de dados não relacional, permite que dados não estruturados e semiestruturados (imagens, vídeos, áudios, emojis, stickers) sejam armazenados e manipulados – em contraste com um banco de dados relacional, que define como todos os dados inseridos nele devem ser compostos;
- Bancos de dados gráficos: armazena dados em termos de entidades (grupo de empresas público ou privada) e os relacionamentos entre elas;
- Bancos de dados OLTP: banco de dados rápido e analítico ideal para um grande número de transações realizadas por vários usuários.
É uma pedra? É um ouro? Não! É a mineração de dados
Dentro do setor empresarial, uma das formas que as empresas têm se utilizado dos recursos proporcionados pelos dados é por intermédio da mineração de dados, ou seja, da filtragem de informações relevantes para resolver um tipo específico de problema.
Para que isso aconteça, a equipe contratada por toda e qualquer empresa deve partir da pergunta direta sobre o que deseja saber. Definido o questionamento, o time de engenharia busca dentro do data lake (lago de dados, em português) – sistema ou repositório de dados armazenados em seu formato natural/bruto –, dados que possam ser utilizados como solução da pergunta inicial.
A partir daí, essas informações serão estudadas e analisadas para que seja criada uma programação que melhore o que a empresa deseja (melhor posicionamento no site de busca, melhor indicação de produtos/informação de acordo com o perfil selecionado etc). É nesse sistema que ocorre o que chamamos de mineração, pois essa busca pelos algoritmos que melhor se apliquem dentro dos programas e sites se associa ao processo de escavação em busca de um minério bruto.
Depois que a equipe de engenharia achou uma sequência de dados que pode ser a solução para o que a empresa deseja, toda essa informação é transmitida para o time de ciência e análise de dados, para que transformem tudo em informação mais compreensível. Geologicamente falando, essa é a parte em que a equipe transforma todo aquele mineral coletado em barras de ouro para que sejam lapidadas e transformadas em joia.
Em seguida, a possível solução para a pergunta realizada no início do processo é apresentada e colocada em prática e em análise no mercado, sendo observada para ver se está dando certo ou se a equipe deve se mobilizar novamente para fazer uma nova modificação.
Mineração na prática
Um exemplo prático desse processo é o que aconteceu com o Grupo Boticário, no case As tecnologias que levam beleza para todo o Brasil, apresentado em um dos encontros promovidos pela Programaria.
Neste case, a empresa de cosméticos passou a investir no uso da tecnologia dentro do setor de vendas ao digitalizar o ramo de venda direta. Antes de realizarem isso, todas as pessoas da equipe se depararam com uma certa dificuldade das consumidoras em saber mais sobre os produtos sem ter que sair de casa. Diante disso, a equipe de engenharia de dados passou a analisar algumas informações sobre como era feita a busca na internet, em quais meios ela era mais frequente e como ela poderia indicar e facilitar esse caminho para as pessoas consumidoras finais.
Após esse estudo, foi feita a mineração ou coleta de dados, e o que poderia ser a solução foi passado para o time de análise. Depois de tratadas todas essas informações, foi decidido que a utilização de um programador específico e a criação de um serviço com a pequena função de armazenar um banco de dados sobre os produtos poderiam ser o caminho para solucionar o caso em questão.
Sendo assim, foram produzidas, em forma de algoritmos, diversas categorias (marca, produto e preço) que, jogadas dentro do Elasticsearch, possibilitaram uma melhor busca para quem não tem conhecimento sobre determinado produto. O Elasticsearch, assim como o Google Analytics, é um programador não relacional e agregador de informações com o mecanismo de busca e análise de dados distribuído e aberto para todos os tipos de dados.
Outro caso ótimo de ser citado é o que foi realizado por Talita Correa, head de dados na Escale, uma startup de gerenciamento de negócios. Em entrevista à Programaria, ela conta que seu case de maior sucesso não estava diretamente relacionado a um produto ou a um tipo de valor gerado para a empresa, mas sim à coleta de todos os dados possíveis com o nível de cuidado necessário. Para que isso acontecesse, foi preciso passar por diversas fases e treinamentos voltados para públicos diferentes:
“Para o time que cria produtos, criamos treinamentos focados em estudos de casos, mostrando produtos de sucesso que usavam dados como forma de gerar valor e inteligência. Para o time de engenharia, demos treinamento sobre a importância de uma boa coleta de dados, qual era a responsabilidade deles sobre isso e como esses dados eram usados para gerar valor para o negócio.
Para as áreas funcionais, demos treinamento de como usar dados para tomada de decisão e como gerar seus próprios relatórios. O treinamento passava por processo de tomada de decisão, estatística e ferramentas de visualização de dados.”
Além disso, ela diz que, por intermédio do trakeamento ou rastreamento de dados, foi criada uma plataforma interna que permitia a transformação de grande volume dessas informações em tempo real, possibilitando assim que as pessoas desenvolvedoras trabalhassem de forma mais rápida na coleta e aplicação desses dados.
“Conseguimos descentralizar a responsabilidade pela ingestão dos dados no data lake, trazendo mais escala para o processo e tirando o time de dados como único responsável pelo processo, já que agora a responsabilidade de ingestão dos dados passava a ser do time de engenharia e produto. Isso agilizou o acesso aos dados por toda a empresa e nos ajudou a tirar valor mais rápido dessas informações”, diz Talita.
No mundo atual, muitas empresas não estão perdendo a chance de deixar os seus produtos mais inteligentes para agradar a sua clientela. Hoje, todas as nossas interações – como o uso do nosso cartão de crédito/débito, pesquisas na web, locais que nós vamos e até as nossas curtidas – estão sendo coletadas em tempo real e jogadas dentro desse fluxo sanguíneo tecnológico para ajudar as empresas a decifrarem a nossa identidade e os nossos rastros. O mercado que acaba não aproveitando essa oportunidade tende a permanecer desatualizado e invisibilizado. “As empresas que não souberem extrair todo o valor dos seus dados tendem a serem deixadas para trás”, afirma Talita.
Hoje, segundo o IDC (Internacional Data Corporation), o mercado de Big Data e Analytics movimenta US$ 208 bilhões por ano, com um crescimento anual estimado na faixa de 13%.
Enquanto isso, no mercado brasileiro…
A pesquisa State of Data, realizada no ano de 2021, pela Data Hackers com parceria da Bain & Company, apresentou uma grande mudança no mercado brasileiro e uma alta busca por profissionais na área de dados e TI.
O estudo realizado também apresenta que profissionais do Brasil possuem um alto nível de instrução formal, com alto índice de pessoas pós-graduadas no total de respondentes (50%). Hoje, a área de TI ainda é a principal origem de profissionais de dados no Brasil e a maioria dessas pessoas estão satisfeitas com seus empregos atuais (74,1%). A remuneração de profissionais de dados aumentou em média cerca de 40% entre 2019 e 2021, e este fator está diretamente relacionado à satisfação com a empresa. Enquanto 18,2% das pessoas satisfeitas ganham até R$ 4.000/mês, 33% delas acreditam que deveriam ganhar mais.
Entretanto, a disparidade salarial por gênero é negativa para o gênero feminino a partir do nível sênior de cargo: 28,7% do gênero feminino ganha mais de R$ 12 mil/mês, enquanto esse número é de 41,4% para o gênero masculino. Em cargos de gestão, 48,5% das profissionais de gênero feminino ganham mais de R$ 12 mil/mês, enquanto esse número aumenta para 56,8% para profissionais do gênero masculino.
Desafios e cuidados: o que os olhos não veem, o coração não sente
Com a criação e o uso das redes sociais e das ferramentas IoT (redes de objetos físicos capazes de reunir e transmitir dados), nós não só ficamos mais conectados como também nos tornamos mais vulneráveis em relação a coleta de nossos dados. Com isso, nos tornamos iscas fáceis não somente para a indústria do consumo, mas também para a indústria formadora de opinião.
A nossa vulnerabilidade foi escancarada quando os jornais The New York Times e The Guardian publicaram uma denúncia contra a empresa Cambridge Analytica, em 2018, alegando que ela teria comprado informações de usuários da rede Facebook para influenciar na campanha política presidencial de 2016 nos Estados Unidos.
Porém, não existe somente esse caso que prova o quão desprotegides estamos em relação aos bancos de dados gerados pelos aplicativos, pesquisas online, preenchimento de formulários via web e seus afins.
Talita Correa apresenta outros casos que evidenciam o quanto obter esses dados dá poder para quem os detém:
“Tem um exemplo bem antigo de uma grande rede de e-commerce que mandou um cupom de desconto com itens para bebê para casa de uma mulher porque conseguiu prever que ela estava grávida. O problema é que nem o pai dela sabia ainda disso e o episódio gerou vários desconfortos para ela com o pai”.
Ela chama atenção para outro assunto importante: a necessidade de discutir questões éticas de como esses dados podem ser usados e como podem ser prejudiciais em alguns casos.
“Por exemplo, a organização Algorithmic Justice League expôs que os algoritmos de reconhecimento facial mais usados falharam ao reconhecer rostos de pessoas pretas. Outro grande exemplo é como a China tem travado acesso a financiamento e meios de pagamento para pessoas com baixo score. O score é calculado baseado nos dados de seu comportamento coletados e pessoas que fogem do que o governo considera ‘correto’ têm seu acesso limitado – por exemplo, pessoas do grupo LGBTQIA+.” – Talita Correa, head de dados na Escale
Para que tudo isso seja feito da maneira mais segura, foi criada no Brasil a Lei Geral de Proteção de Dados (LGPD – Lei 13.709/2018). A sua implementação ainda está no início, o que tem gerado adaptações das diretrizes no universo tecnológico. Mas hoje já temos em prática a informação do uso de cookies em sites, por exemplo – que são protocolos de comunicação HTTP, ou seja, um pequeno arquivo de dados que é enviado para o navegador do usuário e que cria um pequeno arquivo com consentimento do internauta.
Fora o fato da possibilidade de vazão de dados, Talita ainda alerta para outra preocupação sobre o assunto:
“Hoje em dia, fala-se muito de machine learning e inteligência artificial, mas esses algoritmos precisam ser previamente treinados (ou ensinados) e, se não tomarmos cuidado, podemos continuar refletindo ações que rejeitam algum grupo por sua raça, cor, religião. Assim, nesse novo cenário, as pessoas precisam estar mais atentas com quem e qual dado compartilham. Se faz necessário uma grande educação sobre o impacto e o poder que esses dados possuem. Para as empresas, é necessária uma reflexão sobre como esses dados são usados e quanto respeitam a privacidade e vontade de cada pessoa. A LGPD vem tentar proteger os cidadãos do tipo de uso que pode ser prejudicial”.
Autora Heloise Pires é formada em jornalismo e pós-graduanda em Marketing Digital. Apaixonada por histórias, pela busca do conhecimento e por maquiagem, mantém o blog Pimenta Rosa, onde explora o universo feminino que acredita na necessidade da igualdade e na luta de gênero. Revisora Stephanie Kim Abe é jornalista, formada pela Escola de Comunicações e Artes da Universidade de São Paulo (ECA-USP). Trabalha na área de Educação e no terceiro setor. Esteve nos primórdios da Programaria, mas testou as águas da programação e achou que não era a sua praia. Mas isso foi antes do curso Eu Programo…
Este conteúdo faz parte da PrograMaria Sprint Área de dados.
O que você achou deste conteúdo? Responda nosso feedback:
Iniciativas coletivas tem o valor do (infinito).
Parabéns pelo conteúdo e obrigada! Para quem quiser conhecer a área de banco de dados, ler esse artigo dá um norte bem legal!
Matéria muito interessante.
bom texto, bem ilustrativo