Blog | Pragsis Bidoop

Que o MapR como uma das distribuições Hadoop tem que oferecer

Que o MapR como uma das distribuições Hadoop tem que oferecer

Nem todas as distribuições Hadoop são criados iguais. Além das alegações de marketing, existem diferenças reais que afetam a linha de fundo ao mesmo tempo que fazem as operações de TI mais fácil.Alta disponibilidade MapR tem uma abordagem holística para alta disponibilidade. Arquitetura MapR distribui metadados do NameNode em todos os nós do cluster de trabalho proporcionando auto-cura de várias falhas sem a necessidade de configuração ou hardware adicional. MapR permite recuperação instantânea...
Tags: Big Data, MapR

Como instalar Hadoop em 3 passos

Este guia mostra como instalar um ambiente de teste de Apache Hadoop, o qual permitirá executar comandos básicos. O guia está planejado para dar um primeiro contacto com Apache Hadoop, e não para estabelecer um ambiente de pré-produção ou produção. Nesse guia trabalharemos com um tarball simplificado de Hadoop, criado e hospedado por Pragsis, o qual se pode obter da web aqui. RequisitosPara poder utilizar nosso tarball corretamente, os seguintes requisitos deven ser cumpridos:O...
Tags: Hadoop

Hadoop para Todos: dentro de Cloudera Search

CDH, a distribuição 100% opensource de Cloudera agrupando Apache Hadoop e os projetos relacionados, permitiu com sucesso o processamento Big Data durante muitos anos. O uso típico é insertar um grande conjunto de dados em HDFS ou em Apache HBase para ter um armazenamento barato, flexível, eficaz e com uma capacidade de processamento escalável. Com o tempo nasceram várias ferramentas que permitem um acesso mais fácil, de tal forma que é possível agora interagir com Hadoop através de vários...
Algoritmos que todo Data Scientist deveria conhecer: Reservoir Sampling

Algoritmos que todo Data Scientist deveria conhecer: Reservoir Sampling

Artigo Original Algorithms Every Data Scientist Should Know: Reservoir Samplingpor Josh Wills, April 23, 2013Os Cientistas de Dados, essa peculiar mistura entre engenheiro de software e estatístico, são notavelmente difíceis de entrevistar. Uma aproximação que foi usada ao longo dos anos é imaginar um problema que requeira uma mistura de estatística e desenho de algoritmos para encontrar a respuesta. Aqui mostramos um exemplo desse tipo de perguntas que foi muito popular no Silicon...