Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Crear Cluster Google Cloud Storage

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 10

Creación de Bucket Google Cloud Storage

Wilder Ramírez Delgado

El propósito de esta guía es proporcionar un paso a paso detallado para crear un clúster Hadoop en
la plataforma de Google y llevar a cabo operaciones con PySpark y HDFS sobre él. Se mostrará
cómo crear un bucket en Google Cloud Storage, activar la API necesaria, crear el clúster Hadoop,
cargar un archivo CSV, verificar los productos de administración del clúster y finalmente ejecutar
algunos comandos en HDFS. Se utilizará la prueba gratuita ofrecida por Google, lo que nos
permitirá realizar pruebas iniciales y de concepto sin costo.

1- Crear el Bucket
Inicialmente seleccionamos la opción data storage, del menú lateral:

Seleccionamos la opción “Crear” lo despliega la interfaz de captura de datos del Bucket:


Una vez finalizada esta componente ya se cuenta con un Bucket para almacenar los datos del
proyecto

2 - Activar la API dataproc


Para activar los servicios de Google, es necesario realizar la activación de la API correspondiente.
Para ello, nos dirigimos a la sección "APIs & Servicios" y procedemos con la activación. Al
completar el proceso, debería visualizarse de la siguiente manera:

3 – Crear Clúster
Una vez surgidos los pasos anteriores se procede a crear el clúster, para que exista concordancia con
la guía de la actividad se generará con la consola de Google, y un script predeterminado.
Inicialmente debemos tener claro los detalles del proyecto sobre el cual estamos generando la
actividad según se observa:
Luego se activa la consola de Google mediante la opción de la esquina superior derecha:

Con mas detalle:

El script que va a utilizarse para el proceso es el siguiente:

gcloud beta dataproc clusters create unircluster \


--enable-component-gateway \
--bucket unirbucket-01 \
--region europe-west1 \
--zone europe-west1-c \
--master-machine-type n1-standard-1 \
--master-boot-disk-size 500 \
--num-workers 2 \
--worker-machine-type n1-standard-1 \
--worker-boot-disk-size 500 \
--image-version 1.4-debian10 \
--properties spark:spark.jars.packages=org.apache.spark:spark-sql-kafka-0-
10_2.11:2.4.0 \
--optional-components ANACONDA,JUPYTER,ZOOKEEPER \
--max-age 14400s \
--project unirproject-418920

Una vez en la consola se procede a ejecutar el script anterior tomando en cuenta: el nombre del
clúster, el nombre del Bucket y el id del proyecto:
Una vez ejecutada la acción se observará el clúster “En ejecución”:

Sobre el clúster mencionado pueden observarse las diferentes opciones de monitoreo y gestión,
como son:

DASHBOARD GENERAL:
DETALLE DE LOS NODOS:

DETALLES GENERALES DEL CLÚSTER:


INTERFACES WEB:

YARN RESOURCE MANAGER

MAPREDUCE JOB HISTORY

SPARK HISTORY SERVER

HDFS NAMENODE
HDFS BROWSE FILESYSTEM

JUPYTER

JUPYTER LAB
4- CARGUE DE ARCHIVOS AL CLÚSTER
Una vez en jupyterlab se procede a cargar la información en el clúster, utilizando las opciones
mostradas:

Es posible que al cargar el archivo csv, debido al tamaño del mismo se generen errores de cargue,
por tal razón se recomienda el cargue de manera comprimida (archivo .zip)

Para descomprimir el archivo de clic en la opción “terminal” el cual es el shell del entorno de
trabajo del clúster:

Genere la descompresión del archivo .zip, utilizando el comando “unzip” del linux:
No olvidar que pese a que ella archivo csv ya se encuentra en el clúster aun no ha sido incorporado
al Hdfs, lo cual deberá realizarse mediante las ordenes especificas de Hdfs (ayuda: ver uso del
comando “put”)

De igual manera realice el cargue del Notebook en el clúster:

5 - ejemplos de comandos Hdfs


Reporte HDFS:
Listado de archivos del clúster:

Búsqueda recursiva de archivos:

También podría gustarte