Big Data: Fundamentos e Conceitos


Olá, pessoal !!

Com a popularização e crescimento das diversas mídias sociais e desenvolvimento de novas tecnologias, o número de dados gerados no mundo vem crescendo cada vez mais e a grande maioria desses são dados semi-estruturados ou não estruturados. Diante disso vem se falando muito em Big Data.

O assunto Big Data vem ganhando espaço tanto na literatura, quanto na sua implementação, seja em organizações privadas como também públicas e por consequência vem sendo cobrado em diversos editais para concursos públicos, uma vez que muitas organizações públicas estão fazendo uso de recursos tecnológicos relacionados à Big Data para diversos fins.

O uso da internet através de dispositivos móveis tem sido um dos maiores geradores de dados não estruturados e de grande valor para às organizações. São dados que surgem, por exemplo, do uso do Facebook, Whatsapp, Telegram, Youtube, Twitter, Instagram, dentre outras mídias sociais que existem na web.

É um mito dizer que o universo de dados que fazem parte do Big Data é composto apenas de dados não estruturados ou semi-estruturados, na verdade, os dados estruturados, que são oriundos de sistemas gerenciadores de banco de dados, arquivos xml, json ou outros tipos de arquivos que possuam dados definidos por título e conteúdo, também fazem parte deste universo.

Um dos grandes desafios do Big Data é tratar tanto dados estruturados, como não estruturados, como se fossem todos eles estruturados.

Quando falamos em dados não estruturados, estamos falando em arquivos de vídeo, arquivos de texto, planilhas, arquivos de slides, ou seja, qualquer fonte de dados originária capaz de gerar informação útil e até ajudar a prever situações futuras e assim facilitar a tomada de decisões ou aplicação de um determinado recurso ou investimento, ou contribuir para geração de estratégias de uma organização.

Dados podem ser caracterizados como uma descrição primária de objetos, eventos, atividades e transações que são gravados, classificados e armazenados, mas não chegam a ser organizados de forma a transmitir algum significado específico. Quando esse conjunto de registros sobre um determinado evento, fato, número, texto ou qualquer mídia que possa ser processada pelo computador, é agrupada, caracterizado e padronizado, transforma-se em informação.

“Big Data é um conjunto de tecnologias, processos e práticas que permitem às empresas analisarem dados a que antes não tinham acesso e tomar decisões ou mesmo gerenciar atividades de forma muito mais eficiente”.

Cezar Taurion – Big Data

As tecnologias que sustentam Big Data podem ser analisadas sob duas visões: a primeira está relacionada com as análises de dados de negócio, geralmente em ambientes analíticos, já a segunda tem relação com as tecnologias de infraestrutura que armazenam e processam os petabytes de dados, tendo como destaque os bancos de dados NoSQL.

É possível então perceber que o grande volume de dados gerados diariamente excede a capacidade das tecnologias atuais, as quais são geralmente baseadas em banco de dados relacionais.

De forma resumida, vimos até o momento que quando falamos em Big Data, estamos falando em grande volume de dados e grande variedade de formatos (estruturados e não estruturados), porem devemos levar em consideração algo de grande importância, que é a performance, pois estamos falando em alto volume e alta variedade, ou seja, isso irá requerer um alto poder de processamento dos equipamentos envolvidos.

As primeiras literaturas no assunto abordavam este contexto através dos 3Vs: Volume, Velocidade e Variedade, chamadas por alguns altores de dimensões do Big Data.

Volume: É o primeiro desafio que as organizações enfrentam ao lidar com Big Data. Corresponde à quantidade de dados armazenados, representados através do tamanho e da quantidade de registros/informações que um banco de dados possui. Quanto maior o volume, maiores os esforços na gestão de dados.

 

Velocidade: É o desafio de lidar com o tempo rápido de resposta com que os novos dados são criados e os dados existentes, modificados. Esses dados devem estar disponíveis imediatamente para operações de pesquisa e análise dos dados. Está relacionado com o alto fluxo de entrada de dados, levando em consideração a sua variedade.

 

Variedade: Consiste nas implementações de dados que requererem tratamento de vários formatos e tipos, incluindo dados estruturados e não estruturados. Os bancos de dados devem ser capazes de analisar todos estes tipos de dados e fundi-los para produzir resultados de pesquisa e análise que não poderiam ser alcançados anteriormente.

Apesar das dimensões acima descritas fazerem parte do núcleo Big Data, existem alguns pontos que precisam ser levados em consideração, pontos estes que são complementares aos 3Vs . O primeiro deles está relacionado com veracidade das informações obtidas, ou seja, como o volume e variedade são tão grandes, é comum (principalmente com os dados não estruturados) obter dados que geram informações não fidedignas com a realidade ou falsos positivos. O segundo, esta relacionado com o custo ou valor de retorno, ou seja, será que todo investimento na infraestrutura e softwares para Big Data está valendo a pena em relação às informações obtidas? Estes pontos fizeram com que vários altores incrementassem as dimensões do Big Data com mais 2Vs.

Veracidade: Consiste no grau de incerteza e inconsistência dos dados devido às ambiguidades, à baixa qualidade e a completeza dos dados. Está relacionado com a confiança no dado.

Valor: Corresponde ao valor financeiro ou não, que um determinado conjunto de dados fornece à organização. Só fará sentido o investimento em Big Data, se o valor da análise dos dados compensar o custo de sua coleta, armazenamento e processamento.

Até o momento os 5Vs acima são os que frequentemente aparecem descritos em diversas literaturas sobre o assunto Big Data, porém, como trata-se de um assunto muito explorado e difundido no mundo todo, possa ser que surjam dimensões complementares no futuro próximo.

No tocante aos investimentos feitos pelas organizações para manter uma estrutura Big Data, é possível observar que são altos os valores no tocante a equipamentos de alta performance e armazenamento, o que fez com que empresas do mercado de TI inovassem seus serviços o oferecessem infraestruturas em nuvem, as chamadas Cloud Computing (Computação em Nuvem), onde o cliente não precisaria ter que investir na aquisição de equipamentos, data centers, mão de obra especializada, passando apenas a investir no pagamento do uso de tudo isso em um data center na nuvem, por um custo em média mais em conta do que manter internamente na organização toda infraestrutura Big Data necessária para satisfazer os seus negócios.

Para fecharmos esta parte do artigo, deixo abaixo uma tabela do Bizu do Luis para fins de dirimir dúvidas quanto a comparação entre Big Data e Business Intelligence, pois é comum esta comparação em questões de concursos.

Business Intelligence (BI) Big Data
Decisões baseadas em dados passados Decisões baseadas em dados de tempo real
Foco na análise dos dados Foco na descoberta de tendências, correlações, aprender com os dados
Universo de dados limitado Universo ilimitado de dados
Análise intuitiva para ajudar a criação de diretrizes na organização Análise preditiva dos dados
Dados estruturados Vários tipos de dados, estruturados e não estruturados

Bom, mas como estes conceitos são cobrados em questões de concursos públicos? É o que vamos ver agora ! 🙂

Este artigo teve como objetivo introduzir o assunto Big Data, através de conceitos e fundamentos que são cobrados em editais de concursos. Fazendo um rápido mapeamento em alguns editais, trouxe abaixo a descrição dos tópicos cobrados para o nível de conceitos e fundamentos, em seguida veremos questões destes editais e então será possível perceber em que nível este assunto, até o momento abordado neste artigo, esta presente em provas de concursos.

EDITAL DE CONCURSOS TÓPICOS BIG DATA
TRIBUNAL DE CONTAS DO ESTADO DE RONDÔNIA – 2019
CARGOS DE ANALISTA DE TECNOLOGIA DA INFORMAÇÃO E DE AUDITOR DE CONTROLE EXTERNO
ANÁLISE DE INFORMAÇÃO: 5 Noções de Big Data. 5.1 Conceito, premissas e aplicação.
PRODEB-BA-2018
CARGO: ESPECIALISTA DE TIC – B.I.
Domínio em Business Analytics e Big Data.
TCU-2015
CARGO: AUDITOR FISCAL DE CONTROLE EXTERNO
ANÁLISE DE INFORMAÇÕES: 5 Noções de Big Data. 5.1 Conceito, premissas e aplicação.
PETROBRAS-2018
CARGO: ANALISTA DE SISTEMAS JÚNIOR – PROCESSOS DE NEGÓCIO
SISTEMAS DE INFORMAÇÕES GERENCIAIS E DE APOIO A DECISÃO: …. Conceitos de Big Data
TJSE-2014
CARGO: ANALISTA JUDICIÁRIO-BANCO DE DADOS
6 Técnicas e aplicações em Big Data.

Agora vamos ao que interessa, vamos resolver algumas questões de concurso, chega de “lero-lero”, vamos lá!

CESPE -TCE-RO – Auditor de Controle Externo – 2019

Com relação a fundamentos e conceitos de Big Data, julgue os itens a seguir:
I O volume de dados é uma característica importante de Big Data. (correto, é um dos Vs)

II Em Big Data, a qualidade do dado não tem importância, porque a transformação dos dados não impacta os negócios. (errado, a qualidade e a transformação do dados são importantes para garantir o V de Veracidade dado em uma infraestrutura big data)

III A característica de velocidade de entrada dos dados impacta o modelo de processamento e armazenamento. (correto, e junto com a variedade vai definir o investimento a ser feito em equipamentos de processamento e armazenamento)

IV A variedade dos dados não é característica intrínseca nos fundamentos de Big Data. (errado, vimos que é um dos Vs e que a grande variedade de tipos de dados é o que contribui a formar o conceito de big data)


Estão certos apenas os itens:

a) I e II.

b) I e III.

c) II e IV.

d) I, III e IV.

e) II, III e IV.

INSTITUTO AOCP – PRODEB – Especialista de TIC – B.I – 2018

Big Data se refere ao imenso volume de conjuntos de dados que alcançam elevadas ordens de magnitude. O valor real do Big Data está no insight que ele produz quando analisado — buscando padrões, derivando significado, tomando decisões e, por fim, respondendo ao mundo com inteligência. Referente ao Big Data, é correto afirmar que o termo variedade refere-se

a) a um conjunto de dados mais diversos, incluindo dados estruturados, semiestruturados e não estruturados. É heterogêneo e vem em muitos formatos, incluindo texto, documento, imagem, vídeo e outros. (Correto, é o gabarito da questão.)

b) a banco de dados homogêneo que trata de informações do mesmo tipo definindo padrões de segurança. (Errado, vimos que uma das características do big data é justamente a gama de tipos de dados variados que existem no mundo e em grande volume e isto está relacionado com a Variedade.)

c) a um conjunto de dados que são gerados em tempo real, o que requer a oferta imediata de informações úteis. (Errada, não apresenta relação com o termo variedade em big data)

d) aos data centers físicos que transformam os dados em informações pertinentes ao negócio. (Errada, não apresenta relação com o termo variedade em big data)

e) ao controle de dados semiestruturados de formatos definidos como texto e números. (Errada, não apresenta relação com o termo variedade em big data, lembrando que parte dos dados podem ser não estruturados e estruturados.)

CESPE – TCU – Auditor Federal de Controle Externo – 2015

No que concerne a data mining (mineração de dados) e big data, julgue o seguinte item.

Devido à quantidade de informações manipuladas, a (cloud computing) computação em nuvem torna-se inviável para soluções de big data.

Errado, a banca tenta induzir o candidato ao erro impondo o raciocínio de que como existe um grande volume de dados e em grande variedade em big data, haveria então melhor performance em uma infraestrutura local do que em nuvem e isso é um mito. O uso da computação em nuvem tem sido cada vez mais usada pelas organizações devido ao poder de processamento e baixo custo de investimento.

CESGRANRIO – Petrobras – Analista de Sistemas Júnior – 2018

A principal definição de Big Data parte de três características, conhecidas como 3 V do Big Data, a saber: velocidade, variedade e volume.

O termo velocidade refere-se, principalmente, à

a) necessidade das aplicações de gerar respostas rapidamente, a partir de grandes massas de dados. (Errado, a performance da aplicação que irá consumir os dados ofertados por uma infraestrutura em big data não guarda relação com a velocidade de entrada dos dados nesta infraestrutura, são coisas diferentes, em momentos diferentes.)

b) existência de um alto fluxo de dados na entrada. (Correto, é o gabarito da questão)

d) importância da facilidade de manipular cubos de visualização de dados, rapidamente.

c) necessidade de gerar aplicações rapidamente, em função da demanda do negócio. (Errado, o conceito de velocidade em big data não se aplica a este contexto. Big Data não tem relação com a geração de aplicações)

e) rapidez com que os dados se tornam inválidos com o tempo. (Errado, nenhuma relação com o conceito de velocidade aplicado a big data, alternativa apenas pra pegar candidato despreparado.)

CESPE – TJ-SE – Analista Judiciário – Banco de Dados – 2014

Julgue os itens que se seguem, no que se refere a Big Data.

Em soluções Big Data, a análise dos dados comumente precisa ser precedida de uma transformação de dados não estruturados em dados estruturados

Certo, esta necessidade se dá pelo fato de o dado estruturado facilita a análise e evita ou mitiga os falsos positivos decorrentes de dados redundantes ou ambíguos que vem da origem, garantindo a veracidade tanto do dado, quanto depois da informação gerada.

Bom pessoal, por hoje é só, novos artigos sobre Big Data serão feitos, evoluindo de acordo com o que é cobrado nas provas de concursos, esta foi apenas uma introdução.

Forte abraço e bons estudos, inté mais!

Luis Octavio Lima

 

3 comentários em “Big Data: Fundamentos e Conceitos

  1. Pingback: Especial: Big Data para Concursos | Professor Rogerão Araújo

  2. Pingback: Big Data e a Computação em nuvem | Professor Rogerão Araújo

  3. Pingback: Big Data: Fases do Processo de Análise | Professor Rogerão Araújo

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google

Você está comentando utilizando sua conta Google. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

%d blogueiros gostam disto: