Crear Cluster Google Cloud Storage
Crear Cluster Google Cloud Storage
Crear Cluster Google Cloud Storage
El propósito de esta guía es proporcionar un paso a paso detallado para crear un clúster Hadoop en
la plataforma de Google y llevar a cabo operaciones con PySpark y HDFS sobre él. Se mostrará
cómo crear un bucket en Google Cloud Storage, activar la API necesaria, crear el clúster Hadoop,
cargar un archivo CSV, verificar los productos de administración del clúster y finalmente ejecutar
algunos comandos en HDFS. Se utilizará la prueba gratuita ofrecida por Google, lo que nos
permitirá realizar pruebas iniciales y de concepto sin costo.
1- Crear el Bucket
Inicialmente seleccionamos la opción data storage, del menú lateral:
3 – Crear Clúster
Una vez surgidos los pasos anteriores se procede a crear el clúster, para que exista concordancia con
la guía de la actividad se generará con la consola de Google, y un script predeterminado.
Inicialmente debemos tener claro los detalles del proyecto sobre el cual estamos generando la
actividad según se observa:
Luego se activa la consola de Google mediante la opción de la esquina superior derecha:
Una vez en la consola se procede a ejecutar el script anterior tomando en cuenta: el nombre del
clúster, el nombre del Bucket y el id del proyecto:
Una vez ejecutada la acción se observará el clúster “En ejecución”:
Sobre el clúster mencionado pueden observarse las diferentes opciones de monitoreo y gestión,
como son:
DASHBOARD GENERAL:
DETALLE DE LOS NODOS:
HDFS NAMENODE
HDFS BROWSE FILESYSTEM
JUPYTER
JUPYTER LAB
4- CARGUE DE ARCHIVOS AL CLÚSTER
Una vez en jupyterlab se procede a cargar la información en el clúster, utilizando las opciones
mostradas:
Es posible que al cargar el archivo csv, debido al tamaño del mismo se generen errores de cargue,
por tal razón se recomienda el cargue de manera comprimida (archivo .zip)
Para descomprimir el archivo de clic en la opción “terminal” el cual es el shell del entorno de
trabajo del clúster:
Genere la descompresión del archivo .zip, utilizando el comando “unzip” del linux:
No olvidar que pese a que ella archivo csv ya se encuentra en el clúster aun no ha sido incorporado
al Hdfs, lo cual deberá realizarse mediante las ordenes especificas de Hdfs (ayuda: ver uso del
comando “put”)