[SOM] [SOM] Definição de Big Data. O que é Big Data? Big Data é banco de dados com milhões de registros? Big Data é software? Não. Big Data é conjunto de metodologias utilizadas para capturar, armazenar e processar volume imenso de informações de várias fontes, dados estruturados e não estruturados, com o objetivo de acelerar a tomada de decisão e trazer vantagem competitiva. Tipos de dados. Dado estruturado. Inicialmente, os modelos eram construídos com base informações armazenadas bancos de dados com dados estruturados. A tabela apresenta exemplo de dados estruturados. Com o avanço da tecnologia, uma quantidade maior de informação pode ser inserida na tomada de decisão. Além dos dados estruturados, dados semiestruturados e não estruturados, foram inseridos na tomada de decisão. [SOM] Dado semiestruturado. Exemplo de arquivo com dados semiestruturados é o arquivo XML. Neste caso, os dados são irregulares, com uma estrutura embutida. A estrutura dos dados é heterogênea. Sua principal característica é a facilidade de compartilhamento de informações pela internet. O arquivo Json também é formado por dados semiestruturados. Este arquivo possui o formato leve para o tráfego de informações, possui menos bytes que o arquivo XML, ele é relevante, quando é necessário trafegar milhares de registros. [SOM] Dado não estruturado. Dado não estruturado é dado sem uma estrutura pré-definida. Textos são exemplos de dados não estruturados. Os textos podem ser oriundos de várias fontes, como boletim de ocorrência, livros, relatórios, artigos científicos, redes sociais, como por exemplo, Linkedin, Twitter e Facebook, pesquisas realizadas no Google, e-mail, textos obtidos com base nos registros do serviço de atendimento ao cliente, SAC. Imagens, fotos e vídeos também são dados não estruturados. As imagens podem ser obtidas via satélite. Podem ser gerados com base nos resultados de exames médicos. As fotos podem vir do Facebook, Whatsapp, de revistas, jornais, arquivos policiais, ou cadastros. Os vídeos podem vir do Youtube, ou de circuito fechado de TV, por exemplo. A voz é dado não estruturado. A Polícia Federal utiliza análise de voz suas investigações. Pode-se analisar a voz do cliente para identificar o humor antes de realizar a oferta de produto novo. As informações de call center são importantes para atender às necessidades dos clientes. Desafio das empresas é extrair informação dos dados não estruturados. Necessidade de trabalhar com Big Data. Vivemos na era dos dados, devido ao grande volume de dados gerado pela humanidade e pelos dados que trafegam rapidamente no universo digital. Esse volume de informação que pode ser processada tempo real, está revolucionando a forma de tomada de decisão. A quantidade de informações gerada pela humanidade cresce rapidamente. A maior quantidade de informações geradas são dados não estruturados. As informações disponíveis redes sociais como Facebook e Linkedin e as informações geradas pelo sensores podem ser utilizadas para o aprimoramento de modelos. As informações disponíveis do Google, podem ser utilizadas diversas ações. As buscas feitas pela internet geram informações sobre os internautas e deixam o rastro digital a ser analisado. As pessoas vivem conectadas por meio de aplicativos e geram muitas informações que podem ser analisadas. Os consumidores adquirem produtos pela internet, possibilitando a detecção de seus hábitos de consumo. Empresas possuem dados sobre a utilização de seus produtos pelos clientes, podendo identificar hábitos de consumo e sugerir produtos e serviços sob medida. Existem muitos dispositivos que geram informações. Relógios com sensores, drone, óculos com câmera que podem ajudar a tomada de decisão, carros voadores, carros conectados, casas inteligentes, cidades inteligentes. As câmeras geram uma preciosa diversidade de informações que podem ser processadas pelo Big Data. As tecnologias de Big Data podem extrair informação e gerar negócios com base na análise de voz. As empresas devem se preparar para gerar negócios com base neste imenso fluxo de informação gerada pela humanidade diariamente. Essas informações são mais valiosas do que ouro e mais valiosa do que o petróleo. Da mesma forma que o petróleo, os dados devem ser localizados, armazenados, transformados, para gerar valor para a organização. A base de dados relacionada aos clientes possui grande valor. [SOM] Ambiente Favorável para o Big Data. Por que hoje é mais fácil trabalhar com o Big Data? Porque as empresas estão investindo e esses profissionais estão cada vez mais valorizados. Como estamos na era dos dados, a quantidade de informação gerada é muito grande e a tomada de decisão precisa ser feita muitas vezes tempo real. O ambiente é favorável para a extração de informação dos dados devido ao baixo custo de armazenamento dos dados, aumento do poder de processamento dos computadores e servidores, necessidade da rápida e assertiva tomada de decisão. O custo para armazenagem dos dados está cada vez menor. As informações também podem ser armazenadas empresas terceirizadas. Por exemplo, pode se armazenar dados na nuvem da Microsoft, da Amazon e de outras empresas. O baixo custo de armazenamento favorece a manipulação do volume de dados. O aumento de processamento, o grande volume de informação a ser processado, requer grande poder de processamento. Hoje, podemos processar muitas informações de forma rápida e com baixo custo. Muitas vezes, existe a necessidade da rápida tomada de decisão, da rápida e assertiva, não podemos perder tempo e o Big Data pode nos ajudar. Alguns casos a decisão precisa ser tomada tempo real. Por exemplo, na detecção de fraude e na oferta de produtos. Por que os projetos de Big Data fracassam? Será que todo o projeto dá sucesso? Será que todos os projetos prosperam? Não. Por que os projetos de Big Data fracassam? Devido a inviabilidade do projeto, falta de planejamento da equipe, falta de profissionais capacitados. É muito importante bom planejamento antes do início de projeto de Big Data. Neste bloco foi inserida a definição de Big Data. Agora vocês já sabem o que é Big Data, que não é software, é conjunto de metodologias para tomada de decisão. Sabemos que hoje temos ambiente super favorável ao Big Data. Temos custo baixo, temos velocidade de processamento e empresas terceirizadas. O que falta são profissionais altamente capacitados. No próximo bloco, vamos estudar os sete Vs do Big Data. [SOM]