Blog | Pragsis Bidoop

Valor de negocio del análisis de textos

Como ya hemos comentado en otras ocasiones, Pragsis Bidoop ha desarrollado una solución análisis de sentimiento (sentiment analysis) sobre Big Data denominada Pragsis Sentiment, que incorpora un motor de análisis del lenguaje natural que está en constante evolución con el fin de mejorar su eficacia y dar una respuesta cada vez más completa a las necesidades de sus usuarios, entre los que se encuentra servicio de Salud de Castilla la Mancha (SESCAM).En relación con este producto y su...

Cómo instalar Hadoop con 3 comandos

Esta guía muestra cómo instalar un entorno de prueba Apache Hadoop, el cual permitirá ejecutar comandos básicos. La guía está planeada para tener un primer contacto con Apache Hadoop, y no para establecer un entorno de pre-producción o producción. Durante esta guía trabajaremos con un tarball simplificado de Hadoop, creado y hosteado por Pragsis, el cual se puede obtener de la web aquí. RequisitosPara poder utilizar nuestro tarball correctamente, los siguientes requisitos deben...
Tags: Hadoop

Hadoop para Todos: dentro de Cloudera Search

CDH, la distribución 100% opensource de Cloudera agrupando Apache Hadoop y los proyectos relacionados, ha permitido con éxito el procesamiento Big Data durante muchos años. El uso típico es insertar un gran conjunto de datos en HDFS o en Apache HBase para tener un almacenamiento barrato, flexible, eficaz y con una capacidad de procesamiento escalable. Con el tiempo han nacido varias herramientas que permiten un acceso más fácil, de tal forma que puedes ahora interactura con Hadoop a través de...
Algoritmos que todo Data Scientist debería conocer: Reservoir Sampling

Algoritmos que todo Data Scientist debería conocer: Reservoir Sampling

Artículo Original Algorithms Every Data Scientist Should Know: Reservoir Samplingpor Josh Wills, April 23, 2013Los Científicos de Datos, esa peculiar mezcla entre ingeniero de software y estadístico, son notablemente difíciles de entrevistar. Una aproximación que he usado a lo largo de los años es plantear un problema que requiera de una mezcla de estadística y diseño de algoritmos para encontrar la respuesta. Aquí estun ejemplo de este tipo de preguntas que ha sido popular en Silicon...