Entregable 3 - Lorena Sánchez
Entregable 3 - Lorena Sánchez
Entregable 3 - Lorena Sánchez
Grupo:
Análisis de datos 202016908_45
Tutor
LUIS ERNESTO BONILLA
1
DESARROLLO DE LA ACTIVIDAD
c. Datos de Test: Conjunto de datos utilizado para evaluar el rendimiento final del
para encontrar los parámetros del modelo que minimizan el error en la predicción.
métricas que miden la discrepancia entre las predicciones realizadas por el modelo y
los valores reales (objetivo). Estas funciones son utilizadas durante el proceso de
Algunos ejemplos comunes incluyen Mean Squared Error (MSE) para problemas de
Práctica simulada:
por lo que se debe definir una estrategia para rellenar los campos.
Edad
El conjunto de entrenamiento contiene 177 edades nulas por lo que se calcula el valor
Cabin
4
Las cabinas corresponden a las posiciones de las habitaciones, las cabinas más altas son
las cabinas de la letra A, y los números identifican la habitación en el piso. Por otra
5
El conjunto de entrenamiento contiene 687 registros que no tiene datos de la cabina, como
la cabina es un valor relacionado a la clase, ya que las cabinas más altas corresponden a las
de mayor clase, y las cabinas más bajas las de mejor clase. por lo que se puede rellenar los
valores nulos dependiendo de la clase.
PClass 1 -> Cabina B
PClass 2 -> Cabina D
PClass 3 -> Cabina F
6
La cabina T no existe, por lo que se revisa el registro y se realiza el reemplazo necesario.
Cómo este registro tiene clase 1, puede que la cabina sea una de las cabinas superiores, por
lo que se reemplazará por B.
Como la Columna de cabina es de tipo string y estos valores se deben cambiar a valores
numéricos para que lo modelos trabajen, se puede convertir a columnas dummy.
7
PassengerId - Name – Ticket
Estas columnas son columnas que son diferentes para cada registro, por lo que se pueden
eliminar, ya que no serviran para entrenar un modelo.
8
Sex
Para la columna se sexo se puede realizar una conversión, donde
1 = female
0 = male
Embarked
9
Para esta columna se puede realizar la misma idea que con la cabina, convirtiendo los datos en
columnas dummy, donde cada columna representa una categoría de la columna.
10
Después de esta última transformación, todos los tipos de datos ya son numéricos, y no se
tienen valores nulos.
Gráficas Exploratorias
Clase Vs Sobrevivió
11
Se identifica que las personas de clases más altas, son los que más sobrevivieron.
Sexo Vs Sobrevivió
12
Se identifica que la mayoría de las personas que sobrevivió fueron mujeres.
Edad Vs Sobrevivió
13
Se agruparon las edades en tres grupos, y se evidencia que los menores de 18 años tuvieron
un mayor porcentaje de sobrevivir en cambio los adultos tuvieron el mayor porcentaje de
muerte.
Cabina Vs Sobrevivió
Aunque los de las cabinas altas eran menos personas los porcentajes de personas que
sobrevivieron fue alto.
14
REFERENCIAS BIBLIOGRÁFICAS
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT press.
Giuseppe Bonaccorso. (2018). Machine Learning Algorithms : Popular Algorithms for Data
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning: Data
15