Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Entregable 3 - Lorena Sánchez

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 15

DESARROLLO DE LA ACTIVIDAD

UNIDAD 2 - ETAPA 3 - COMPONENTE PRÁCTICO - PRÁCTICAS SIMULADAS

LORENA SÁNCHEZ FERNÁNDEZ

Grupo:
Análisis de datos 202016908_45

Tutor
LUIS ERNESTO BONILLA

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA-UNAD


ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERÍA (ECBTI)
INGENIERÍA DE SISTEMAS
TULUÁ, VALLE DEL CAUCA
2023

1
DESARROLLO DE LA ACTIVIDAD

Listado de las siguientes definiciones

1. Datos de Train, Validation y Test:

a. Datos de Train: Conjunto de datos utilizado para entrenar y ajustar un modelo de

Machine Learning. Este conjunto permite que el modelo aprenda patrones y

relaciones en los datos.

b. Datos de Validation: Conjunto de datos utilizado para evaluar y ajustar

hiperparámetros del modelo durante el proceso de entrenamiento. Permite medir el

rendimiento del modelo y evitar el sobreajuste.

c. Datos de Test: Conjunto de datos utilizado para evaluar el rendimiento final del

modelo de Machine Learning después de que ha sido entrenado y validado. Este

conjunto debe ser independiente de los conjuntos de entrenamiento y validación.

2. Gradient Descent: Es un algoritmo de optimización utilizado para minimizar una

función objetivo (por ejemplo, la función de pérdida) ajustando iterativamente sus

parámetros. En el contexto de Machine Learning, el descenso de gradiente se utiliza

para encontrar los parámetros del modelo que minimizan el error en la predicción.

3. Machine Learning Losses: Las funciones de pérdida en Machine Learning son

métricas que miden la discrepancia entre las predicciones realizadas por el modelo y

los valores reales (objetivo). Estas funciones son utilizadas durante el proceso de

entrenamiento para ajustar los parámetros del modelo y mejorar su rendimiento.

Algunos ejemplos comunes incluyen Mean Squared Error (MSE) para problemas de

regresión y Cross-Entropy Loss para problemas de clasificación.


2
4. Cross-Validation: Es una técnica de validación utilizada en Machine Learning para

evaluar el rendimiento y generalización de un modelo. La idea es dividir el conjunto

de datos en k subconjuntos (folds) y realizar k iteraciones de entrenamiento y

validación. En cada iteración, se entrena el modelo en k-1 subconjuntos y se valida

en el subconjunto restante. El rendimiento del modelo se calcula como el promedio

de los resultados de las k iteraciones. La validación cruzada es útil para evitar el

sobreajuste y seleccionar los mejores hiperparámetros para el modelo.

Práctica simulada:

Carga el archivo de Train y revisar los primeros registros

Revisar los valores nulos del dataset


3
Se puede ver que las columnas de cabina y edad son los que más datos nulos se tienen,

por lo que se debe definir una estrategia para rellenar los campos.

Edad

El conjunto de entrenamiento contiene 177 edades nulas por lo que se calcula el valor

promedio de la edad de los demás valores y se rellena en los NA.

Cabin

4
Las cabinas corresponden a las posiciones de las habitaciones, las cabinas más altas son

las cabinas de la letra A, y los números identifican la habitación en el piso. Por otra

parte las cabinas más bajas son la letra F y G.

5
El conjunto de entrenamiento contiene 687 registros que no tiene datos de la cabina, como
la cabina es un valor relacionado a la clase, ya que las cabinas más altas corresponden a las
de mayor clase, y las cabinas más bajas las de mejor clase. por lo que se puede rellenar los
valores nulos dependiendo de la clase.
PClass 1 -> Cabina B
PClass 2 -> Cabina D
PClass 3 -> Cabina F

Para la Columna de cabina se puede realizar una transformación, eliminando el número de


la cabina y solo dejando la letra, ya que esta es la importante, que es la que significa el
nivel del piso en el cual se encontraba la persona.

6
La cabina T no existe, por lo que se revisa el registro y se realiza el reemplazo necesario.

Cómo este registro tiene clase 1, puede que la cabina sea una de las cabinas superiores, por
lo que se reemplazará por B.

Como la Columna de cabina es de tipo string y estos valores se deben cambiar a valores
numéricos para que lo modelos trabajen, se puede convertir a columnas dummy.

7
PassengerId - Name – Ticket

Estas columnas son columnas que son diferentes para cada registro, por lo que se pueden
eliminar, ya que no serviran para entrenar un modelo.

8
Sex
Para la columna se sexo se puede realizar una conversión, donde
1 = female
0 = male

Embarked

9
Para esta columna se puede realizar la misma idea que con la cabina, convirtiendo los datos en
columnas dummy, donde cada columna representa una categoría de la columna.

10
Después de esta última transformación, todos los tipos de datos ya son numéricos, y no se
tienen valores nulos.
Gráficas Exploratorias
Clase Vs Sobrevivió

11
Se identifica que las personas de clases más altas, son los que más sobrevivieron.
Sexo Vs Sobrevivió

12
Se identifica que la mayoría de las personas que sobrevivió fueron mujeres.
Edad Vs Sobrevivió

13
Se agruparon las edades en tres grupos, y se evidencia que los menores de 18 años tuvieron
un mayor porcentaje de sobrevivir en cambio los adultos tuvieron el mayor porcentaje de
muerte.

Cabina Vs Sobrevivió

Aunque los de las cabinas altas eran menos personas los porcentajes de personas que
sobrevivieron fue alto.

14
REFERENCIAS BIBLIOGRÁFICAS

Julian, D. (2016). Designing Machine Learning Systems with Python.

Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT press.

Giuseppe Bonaccorso. (2018). Machine Learning Algorithms : Popular Algorithms for Data

Science and Machine Learning, 2nd Edition: Vol. 2nd ed.

Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning: Data

mining, inference, and prediction. Springer Science & Business Media.

15

También podría gustarte