Hadoop
Hadoop
Hadoop
MapReduce
HADOOP
Hadoop es una estructura de software de código
abierto para almacenar datos y ejecutar aplicaciones en
clústeres de hardware comercial. Proporciona almacenamiento
masivo para cualquier tipo de datos, enorme
poder de procesamiento y la capacidad de procesar tareas o
trabajos concurrentes virtualmente ilimitados.
Características
•Capacidad para almacenar y procesar cantidades grandes de cualquier tipo de datos, y además de forma
rápida: Con volúmenes y variedades de datos en constante aumento, especialmente desde las redes sociales y el Internet de
las cosas (IoT), esa es una consideración clave.
•Cuenta con Poder computacional: El modelo de computación distribuida de Hadoop es capaz de procesar grandes
cantidades de datos rápidamente. Cuantos más nodos de computación use, más poder de procesamiento tendrá.
•Tolerante a fallos: El procesamiento de aplicaciones y datos está protegido contra fallas del hardware. Si un nodo se cae,
los trabajos se redirigen de forma automática a otros nodos para asegurarse de que la informática distribuida no falle. Varias
copias de todos los datos se almacenan automáticamente.
•Es muy Flexible: A diferencia de las bases de datos tradicionales, no es necesario procesar previamente los datos antes de
almacenarlos. Puede almacenar tantos datos como usted guste y decidir cómo usarlos más adelante. Eso incluye datos no
estructurados como imágenes, textos o vídeos.
•Es de bajo costo: El marco de código abierto es totalmente gratuito y utiliza hardware básico para almacenar grandes
cantidades de datos.
•Es escalable: Puede hacer crecer fácilmente su sistema para manejar más datos simplemente agregando nodos. Se requiere
poca administración.
MapReduce
Es un software escrito en Java que se utiliza para crear aplicaciones que pueden
procesar grandes cantidades de datos. Aunque está escrito en Java, hay otros idiomas
disponibles para escribir una aplicación MapReduce. Al igual que con HDFS, está
diseñado para ser tolerante a fallas y para trabajar en entornos de clúster a gran
escala. El marco tiene la capacidad de dividir los datos de entrada en tareas más
pequeñas (tareas de mapeo) que se pueden ejecutar en procesos paralelos. La salida de
las tareas del mapa se reduce (reduce la tarea) y generalmente se guarda en el sistema
de archivos.
Para el siguiente ejemplo tomaremos un archivo de texto como entrada, el programa
“WordCount” lo divide en partes más pequeñas y luego cuenta cada palabra y genera un
archivo con un recuento de todas las palabras dentro del archivo.
Iniciamos los servicios
Consola
Creamos directorio
Creamos un directorio en el sistema de archivos hadoop
Copiamos el archivo de prueba
Se muestra el
contenido
del archivo
de resultados
donde se
verá el Resultado
conteo de
palabras.
Flujo MapReduce (WordCount)
Código del archivo hadoop-mapreduce-examples-3.2.1.jar
Código
Archivos generados
Directorio de archivos
Archivos
GRACIAS