Entregable 3 - Lorena Sánchez

DESARROLLO DE LA ACTIVIDAD
UNIDAD 2 - ETAPA 3 - COMPONENTE PRÁCTICO - PRÁCTICAS SIMULADAS
LORENA SÁNCHEZ FERNÁNDEZ
Grupo:
Análisis de datos 202016908_45
Tutor
LUIS ERNESTO BONILLA
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA-UNAD

ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERÍA (ECBTI)
INGENIERÍA DE SISTEMAS
TULUÁ, VALLE DEL CAUCA
2023
1
DESARROLLO DE LA ACTIVIDAD
Listado de las siguientes definiciones
1. Datos de Train, Validation y Test:
a. Datos de Train: Conjunto de datos utilizado para entrenar y ajustar un modelo de
Machine Learning. Este conjunto permite que el modelo aprenda patrones y
relaciones en los datos.
b. Datos de Validation: Conjunto de datos utilizado para evaluar y ajustar
hiperparámetros del modelo durante el proceso de entrenamiento. Permite medir el
rendimiento del modelo y evitar el sobreajuste.
c. Datos de Test: Conjunto de datos utilizado para evaluar el rendimiento final del
modelo de Machine Learning después de que ha sido entrenado y validado. Este
conjunto debe ser independiente de los conjuntos de entrenamiento y validación.
2. Gradient Descent: Es un algoritmo de optimización utilizado para minimizar una
función objetivo (por ejemplo, la función de pérdida) ajustando iterativamente sus
parámetros. En el contexto de Machine Learning, el descenso de gradiente se utiliza
para encontrar los parámetros del modelo que minimizan el error en la predicción.
3. Machine Learning Losses: Las funciones de pérdida en Machine Learning son
métricas que miden la discrepancia entre las predicciones realizadas por el modelo y
los valores reales (objetivo). Estas funciones son utilizadas durante el proceso de
entrenamiento para ajustar los parámetros del modelo y mejorar su rendimiento.
Algunos ejemplos comunes incluyen Mean Squared Error (MSE) para problemas de
regresión y Cross-Entropy Loss para problemas de clasificación.

2
4. Cross-Validation: Es una técnica de validación utilizada en Machine Learning para
evaluar el rendimiento y generalización de un modelo. La idea es dividir el conjunto
de datos en k subconjuntos (folds) y realizar k iteraciones de entrenamiento y
validación. En cada iteración, se entrena el modelo en k-1 subconjuntos y se valida
en el subconjunto restante. El rendimiento del modelo se calcula como el promedio
de los resultados de las k iteraciones. La validación cruzada es útil para evitar el
sobreajuste y seleccionar los mejores hiperparámetros para el modelo.
Práctica simulada:
Carga el archivo de Train y revisar los primeros registros
Revisar los valores nulos del dataset

3
Se puede ver que las columnas de cabina y edad son los que más datos nulos se tienen,
por lo que se debe definir una estrategia para rellenar los campos.
Edad
El conjunto de entrenamiento contiene 177 edades nulas por lo que se calcula el valor
promedio de la edad de los demás valores y se rellena en los NA.
Cabin
4
Las cabinas corresponden a las posiciones de las habitaciones, las cabinas más altas son
las cabinas de la letra A, y los números identifican la habitación en el piso. Por otra
parte las cabinas más bajas son la letra F y G.
5
El conjunto de entrenamiento contiene 687 registros que no tiene datos de la cabina, como
la cabina es un valor relacionado a la clase, ya que las cabinas más altas corresponden a las
de mayor clase, y las cabinas más bajas las de mejor clase. por lo que se puede rellenar los
valores nulos dependiendo de la clase.
PClass 1 -> Cabina B
PClass 2 -> Cabina D
PClass 3 -> Cabina F
Para la Columna de cabina se puede realizar una transformación, eliminando el número de

la cabina y solo dejando la letra, ya que esta es la importante, que es la que significa el
nivel del piso en el cual se encontraba la persona.
6
La cabina T no existe, por lo que se revisa el registro y se realiza el reemplazo necesario.
Cómo este registro tiene clase 1, puede que la cabina sea una de las cabinas superiores, por
lo que se reemplazará por B.
Como la Columna de cabina es de tipo string y estos valores se deben cambiar a valores
numéricos para que lo modelos trabajen, se puede convertir a columnas dummy.
7
PassengerId - Name – Ticket
Estas columnas son columnas que son diferentes para cada registro, por lo que se pueden
eliminar, ya que no serviran para entrenar un modelo.
8
Sex
Para la columna se sexo se puede realizar una conversión, donde
1 = female
0 = male
Embarked
9
Para esta columna se puede realizar la misma idea que con la cabina, convirtiendo los datos en
columnas dummy, donde cada columna representa una categoría de la columna.
10
Después de esta última transformación, todos los tipos de datos ya son numéricos, y no se
tienen valores nulos.
Gráficas Exploratorias
Clase Vs Sobrevivió
11
Se identifica que las personas de clases más altas, son los que más sobrevivieron.
Sexo Vs Sobrevivió
12
Se identifica que la mayoría de las personas que sobrevivió fueron mujeres.
Edad Vs Sobrevivió
13
Se agruparon las edades en tres grupos, y se evidencia que los menores de 18 años tuvieron
un mayor porcentaje de sobrevivir en cambio los adultos tuvieron el mayor porcentaje de
muerte.
Cabina Vs Sobrevivió
Aunque los de las cabinas altas eran menos personas los porcentajes de personas que
sobrevivieron fue alto.
14
REFERENCIAS BIBLIOGRÁFICAS
Julian, D. (2016). Designing Machine Learning Systems with Python.
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT press.
Giuseppe Bonaccorso. (2018). Machine Learning Algorithms : Popular Algorithms for Data
Science and Machine Learning, 2nd Edition: Vol. 2nd ed.
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning: Data
mining, inference, and prediction. Springer Science & Business Media.
15

Entregable 3 - Lorena Sánchez

Cargado por

Copyright:

Formatos disponibles

Entregable 3 - Lorena Sánchez

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Entregable 3 - Lorena Sánchez

Cargado por

Copyright:

Formatos disponibles

DESARROLLO DE LA ACTIVIDAD

UNIDAD 2 - ETAPA 3 - COMPONENTE PRÁCTICO - PRÁCTICAS SIMULADAS

LORENA SÁNCHEZ FERNÁNDEZ

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA-UNAD

Listado de las siguientes definiciones

1. Datos de Train, Validation y Test:

a. Datos de Train: Conjunto de datos utilizado para entrenar y ajustar un modelo de

Machine Learning. Este conjunto permite que el modelo aprenda patrones y

relaciones en los datos.

b. Datos de Validation: Conjunto de datos utilizado para evaluar y ajustar

hiperparámetros del modelo durante el proceso de entrenamiento. Permite medir el

rendimiento del modelo y evitar el sobreajuste.

modelo de Machine Learning después de que ha sido entrenado y validado. Este

conjunto debe ser independiente de los conjuntos de entrenamiento y validación.

2. Gradient Descent: Es un algoritmo de optimización utilizado para minimizar una

función objetivo (por ejemplo, la función de pérdida) ajustando iterativamente sus

parámetros. En el contexto de Machine Learning, el descenso de gradiente se utiliza

3. Machine Learning Losses: Las funciones de pérdida en Machine Learning son

entrenamiento para ajustar los parámetros del modelo y mejorar su rendimiento.

regresión y Cross-Entropy Loss para problemas de clasificación.

evaluar el rendimiento y generalización de un modelo. La idea es dividir el conjunto

de datos en k subconjuntos (folds) y realizar k iteraciones de entrenamiento y

validación. En cada iteración, se entrena el modelo en k-1 subconjuntos y se valida

en el subconjunto restante. El rendimiento del modelo se calcula como el promedio

de los resultados de las k iteraciones. La validación cruzada es útil para evitar el

sobreajuste y seleccionar los mejores hiperparámetros para el modelo.

Carga el archivo de Train y revisar los primeros registros

Revisar los valores nulos del dataset

promedio de la edad de los demás valores y se rellena en los NA.

parte las cabinas más bajas son la letra F y G.

Para la Columna de cabina se puede realizar una transformación, eliminando el número de

Julian, D. (2016). Designing Machine Learning Systems with Python.

Science and Machine Learning, 2nd Edition: Vol. 2nd ed.

mining, inference, and prediction. Springer Science & Business Media.

También podría gustarte