O campo de Big Data exige cada vez mais clareza, por conta da variedade de termos utilizados para descrever esta tecnologia e por isso podemos até mesmo dizer que já existe um vocabulário básico do Big Data, próprio desta tecnologia. Este post lista todos os principais termos, direta ou indiretamente, envolvidas com Big Data, com uma explicação simples sobre cada uma deles.
Aqui vamos nós:
Algoritmo: uma fórmula matemática ou estatística executada por software para realizar uma análise de dados. Ele geralmente consiste de várias etapas de cálculos e pode ser usado para processar automaticamente os dados ou para resolver problemas.
Amazon Web Services (AWS): uma coleção de serviços de computação em nuvem oferecidos pela Amazon para ajudar as empresas a realizar operações de computação de grande escala (como grandes projetos de dados) sem ter que investir em seus próprios servidores e depósitos de armazenamento de dados. Essencialmente, espaço de armazenamento, poder de processamento e software de armazenamento são alugados ao invés de comprados e instalado a partir do zero.
Analytics: o processo de coleta de dados, processamento e análise para gerar insights e auxiliar a tomada de decisão baseada em fatos. Em muitos casos isto envolve a análise baseada em software utilizando algoritmos.
Big Table: sistema de armazenamento de dados de propriedade da Google, que é usado para sediar, entre outras coisas, seus serviços Gmail, Google Earth e YouTube. Ele também está disponível para uso público através do Google App Engine.
Biometria: usando a tecnologia e análise para identificar as pessoas por uma ou mais das suas características físicas, tais como reconhecimento de face, reconhecimento da íris, reconhecimento de impressões digitais, etc.
Cassandra: um sistema aberto de gerenciamento de banco de dados administrado pela Apache Software Foundation, que foi projetado para lidar com grandes volumes de dados em servidores distribuídos.
Cloud: Cloud computing, ou computação “na nuvem”, significa simplesmente software ou dados rodando em servidores remotos, em vez de localmente. Os dados armazenados “na nuvem” são normalmente acessíveis através da internet, em qualquer lugar do mundo.
Distributed File System: sistema de armazenamento de dados projetado para armazenar grandes volumes de dados através de múltiplos dispositivos de armazenamento (servidores muitas vezes baseados em nuvem), para diminuir o custo e a complexidade de armazenar grandes quantidades de dados.
Cientista de dados: termo usado para descrever um especialista em extrair insights e valor dos dados. Ele geralmente é alguém que tem habilidades em análise, ciência da computação, matemática, estatística, criatividade, visualização de dados e comunicação, bem como habilidades de negócios e estratégia.
Gamification: o processo de criação de um jogo de algo que normalmente não seria um jogo. Em termos de Big Data, gamification é muitas vezes uma forma poderosa de incentivar a coleta de dados.
Google App Engine: plataforma de computação em nuvem do Google, permitindo que as empresas possam desenvolver e hospedar seus próprios serviços dentro de servidores em nuvem do Google. Ao contrário de Web Services da Amazon, é livre para projetos de pequena escala.
HANA: aplicação analítica de alta performance – uma plataforma de software / hardware in-memory da SAP, projetado para transações de dados de alto volume e análises.
Hadoop: Apache Hadoop é um dos frameworks de software mais amplamente utilizado em Big Data. Ela é um conjunto de programas que permitem o armazenamento, a recuperação e análise de conjuntos muito grandes de dados utilizando hardware distribuído (permitindo que os dados sejam distribuídos por diversos dispositivos de armazenamento menores ao invés de um muito grande).
Internet das coisas: termo usado para descrever o fenômeno que mais e mais todos “coisas” (objetos, pessoas, aparelhos, carros, etc…) irão recolher, analisar e transmitir dados para aumentar a sua utilidade, por exemplo, carros que dirigem, geladeiras que se auto-abastecem, etc…
MapReduce: refere-se ao processo de dividir uma análise em pedaços que podem ser distribuídos em diferentes computadores. Ele distribui a primeira análise (mapa) e, em seguida, recolhe os resultados de volta em um relatório (reduzir). Várias empresas, incluindo Google e Apache fornecem ferramentas de MapReduce.
Processamento de linguagem natural: algoritmos de software projetados para permitir que os computadores possam entender a fala humana de forma mais precisa, o que nos permite interagir mais naturalmente e de forma eficiente com eles.
NoSQL: refere-se a sistemas de gerenciamento de banco de dados que não (ou não só) usam tabelas relacionais geralmente usados em sistemas de banco de dados tradicionais. Ele refere-se a sistemas de armazenamento e recuperação de dados que são projetados para lidar com grandes volumes de dados, mas sem categorização tabular (ou esquemas).
Predictive Analytics: um processo de utilização de análises para prever tendências futuras ou eventos de dados.
Linguagem R: um popular ambiente de software open source usado para análise.
RFID: Radio Frequency Identification. As etiquetas RFID usam tecnologia de identificação automática e captura de dados para permitir que informações sobre sua localização, direção de viagem ou proximidade uns dos outros para serem transmitidos aos sistemas de computador, permitindo que objetos do mundo real para ser seguidos em qualquer trajeto.
Software-as-a-Service (SaaS): a tendência crescente de produtores de software para fornecer seus programas sobre a nuvem – ou seja, os usuários pagam pelo tempo que passam a usá-lo (ou a quantidade de dados que eles acessam) ao invés de comprar software definitivamente.
Dados Estruturado vs Não-Estruturados: dados estruturados são basicamente qualquer coisa que pode ser colocada em uma tabela e organizado de tal forma que ele se relaciona com outros dados da mesma tabela. Dados não estruturados é tudo o que não pode – e-mails, mensagens de mídia social e gravação da voz humana, por exemplo.
David Matos
Ótimo artigo.