Glossário Big Data

Base de dados distribuída

Cassandra

Cassandra

É uma base de dados distribuída desenvolvida inicialmente por Facebook. Desenhada para manipular grandes quantidades de dados distribuídos através de servidores commodity, tem como características uma arquitetura do tipo "key/value", y não ter nenhum ounto único de falha (SPOF), um método de replicação de informação baseado em "gossip protocol" e a problemática "eventual consistency".

 Carregamento massiva de vários arquivos de texto dentro de umn Cluster Hadoop

Chukwa

Chukwa

É um sub-projeto dedicado ao carregamento massivo de vários arquivos de texto dentro de um cluster Hadoop (ETL). Chukwa se construi sob o sistema de arquivos distribuído (HDFS) e o marco MapReduce e herda a escalabilidade e robustez de Hadoop. Também inclui um conjunto de ferramentas flexiível e potente para a visualização e análise dos resultados.

Consultas interativas para a análise de dados aninhados

Dremel

Dremel

É um sistema de consultas interativo para a análise de dados aninhados em formado somente leitura. É uma solução ad-hoc escalável, que mediante a combinação de níveis múltiples árvores de execução e o desenho de colunas de dados, é capaz de executar consultas sobre tabelas de agregação de um bilhão de filas em segundos. O sistema escala a milhares de CPUs e petabytes de dados, e conta com milhares de usuários em Google.

Marco para adicionar dados a Hadoop

Flume

Flume

É um marco para adicionar dados a Hadoop. Os agentes estão povoados de toda as infra-estrutura de TI - dentro dos servidores web, servidores de aplicações e dispositivos móveis, para recolher esses dados e integrá-los em Hadoop.

Plataforma de computação distribuída

Hama

Hama

É uma plataforma de computação distribuída baseada em técnicas de computação paralela massiva para, por exemplo, cálculos científicos, matriz, gráfico e algorítmos de redes.

BBDD NoSQL de baixa latência.

HBase

HBase

É uma BBDD NoSQL de baixa latência. Se trata da versão java opensource de Hadoop da famosa BBDD NoSQL de Google: BigTable. Como principais características podemos destacar: dados armazenados em colunas, sistema de versioning dos dados, consistência das escrituras e leituras e recuperação automática em caso de falhas. Foi eleito por Facebook, dentre outras coisas, para armazenar todos os emails dos usuários da mesma plataforma.

Acesso fácil a qualquer arquivo em HDFS

HCatalog

HCatalog

Oferece uma camada de abstração de acesso aos dados. Permite aos usuários de Hive, Pig ou MapReduce acessar facilmente qualquer aquivos em HDFS sem se preocupar com o formato que pode ter este arquivos (seja CSV, SequenceFile, JSON etc). Se trata de um projeto inicialmente desenvolvido por Hortonworks.

Camada de armazenamento de Hadoop

HDFS

HDFS

(Hadoop Distributed File System), a camada de armazenamento de Hadoop, é um sistema de arquivos distribuído escrito em java, escalável, tolerante a falhas. Mesmo que Hadoop possa funcionar com vários sistemas de arquivos (sistema de arquivos locais de Linux, GlusterFS, S3 de Amazon...) HDFS se desmarca de ellos por ser totalmente compatível com MapReduce e oferecer a otimização de "localidade dos dados", o qual o converte na solução "natural" de Hadoop.

Sistema de BBDD NoSQL orientado a documentos de código aberto

MongoDB

MongoDB

É um sistema de BBDD NoSQL orientado a documentos de código aberto. Por ser de tipo documentos, as estruturas de dados se guardam em documentos con um esquema dinâmico pero seguindo a notação de JSON, estas estruturas dinâmicas que são denominadas por MongoDB como BSON, o que implica que não exista um esquema pré-definido, podendo um documento não ter todos os campos definidos para esse documento o que faz com que a integração dos dados em certas aplicações seja mais fácil e rápida.

Base de dados para gráficos de código aberto

Neo4j

Neo4j

É uma base de dados de gráficos, de código aberto suportada por Neo Technology. Neo4j armazena os dados nos nodos conectados por relações dirigidas e tipificadas, com as propiedades de ambos, também conhecidas como Gráfico de Propiedade (Property Graph).

Sistema de gestão de WorkFlows

Oozie

Oozie

É um sistema de gestão de WorkFlows (fluxos de trabalho) que permite aos usuários definir uma série de trabajos escritos en varios linguagenss, como MapReduce, Pig e Hive, criando entre elhes um fluxo de processos (jobs) com lógica. Oozie permite aos usuários especificar, por exemplo, que uma determinada consulta só deva iniciar depois de determinados trabalhos prévios nos que se baseia para recoger dados tenham sido completados.

Desenvolvido por Yahoo! para facilitar a programação de MapReduce

Pig

Pig

É um linguagem de programação de alto nível desenvolvida por Yahoo! para facilitar a programação de MapReduce sobre Hadoop. É relativamente fácil de aprender (pois é muito expressivo e legível)e é  eficiente diante de grandes fluxos de dados.

Ambiente para computação e gráficos estatísticos

R

R

É uma linguagem e um ambiente para computação e gráficos estatísticos. É um projeto GNU, que é similar a linguagem S. R oferece uma grande variedade de estatísticas (modelos lineais e não lineais, testes estatísticos clássicos, análises de séries de tempo, classificação, clustering, ...) e as técnicas gráficas. Além disso é altamente extensível.

BBDD NoSQL inspirada em Dynamo

Riak

Riak

É uma BBDD NoSQL inspirada em Dynamo, de código aberto, distribuída e que conta com uma versão comercial. BBDD chave-valor com alguns metadados, sem esquema de armazenamento, tipo de dados agnósticos, linguagem agnóstico que suporta através de uma api REST e PBC31 vários tipos de linguagem (Eralng, Javascript, Java, PHP, Python, Ruby...), masterless já que todos os nodos são iguais, escaláveis, eventualmente consistente e utiliza map/reduce e “link”. Riak está desenhado para resolver uma nova classe de problemas de gestão de dados, específicamente os relacionados com a captura, armazenamento e processamento de dados dentro de entornos TI distribuídos e modernos como a nuvem.

Ferramenta de conectividaed para mover dados de Hadoop

Sqoop

Sqoop

É uma ferramenta de conectividade para mover dados de Hadoop, tais como bases de dados relacionais e armazéns de dados. Permite aos usuários especificar a localização de destino dentro de Hadoop e instruir Sqoop para mover dados de Oracle, Teradata ou outras bases de dados relacionais para cumplir o objetivo marcado.

Sistema de computação distribuída em tempo real

Storm

Storm

É um sistema de computação distribuída em tempo real, livre e de código aberto, nascido no seio do Twitter. Storm torna fácil processar de maneira confiável fluxos não estruturados de dados, fazendo no âmbito de processamento em tempo real, o que fez Hadoop para o processamento por lotes.

Sistema de armazenamento distribuído baseado em key-value

Voldemort

Voldemort

É um sistema de armazenamento distribuído baseado em key-value. Se utiliza em LinkedIn para certos problemas de armazenamento de alta escalabilidade onde a partição funcional simples não é suficiente.

Software da Apache Software Foundation

ZooKeeper

ZooKeeper

É um projeto de software da Apache Software Foundation, que fornece um serviço de configuração centralizada e registro de nomes de códigos abertos para grandes sistemas distribuídos. ZooKeeper é um sub-projeto de Hadoop.