Ds2 g1 Tarea Titanic Knime 10set21
Ds2 g1 Tarea Titanic Knime 10set21
Ds2 g1 Tarea Titanic Knime 10set21
E. Cada integrante del equipo debe hacer al menos una estadística y al menos un
gráfico.
Intrucciones:
o Ingresar a Kaggle y revisar el overview: https://www.kaggle.com/c/titanic/data
o Crearse un usuario
o Descargar la base de datos:
o Titanic - Machine Learning from Disaster | Kaggle
Modelo usado en KNIME:
• Nodo 1: adquisición de datos
• Nodos 3, 7, 8, 10, 11: manejar, preparar y limpiar los datos
• Nodo 12: aprendizaje de máquina 1
• Nodo 13: predictor asociado al aprendizaje de máquina 1
• Nodo 5: Scorer asociado al aprendizaje de máquina 1
• Nodo 2: aprendizaje de máquina 2
• Nodo 4: predictor asociado al aprendizaje de máquina 2
• Nodo 14: Scorer asociado al aprendizaje de máquina 2
Resumen
El conjunto de pruebas debe utilizarse para comprobar el rendimiento de su modelo con datos
no vistos. Para el conjunto de pruebas, no proporcionamos la "verdad básica (ground truth)"
para cada pasajero. Es su trabajo predecir los resultados. Para cada pasajero del conjunto de
prueba, utiliza el modelo que has entrenado para predecir si sobrevivieron o no al hundimiento
del Titanic.
Diccionario de Datos
Nota sobre las variables
El cuaderno nos guía a través de un flujo de trabajo típico para resolver concursos de ciencia de
datos en sitios como Kaggle.
Hay varios cuadernos excelentes para estudiar las entradas de las competiciones de ciencia de
datos. Sin embargo, muchos se saltarán parte de la explicación sobre cómo se desarrolla la
solución, ya que estos cuadernos están desarrollados por expertos para expertos. El objetivo de
este cuaderno es seguir un flujo de trabajo paso a paso, explicando cada paso y la justificación
de cada decisión que tomamos durante el desarrollo de la solución.
El flujo de trabajo indica la secuencia general de cómo cada etapa puede seguir a la otra. Sin
embargo, hay casos de uso con excepciones.
• Podemos combinar múltiples etapas del flujo de trabajo. Podemos analizar visualizando
los datos.
• Realizar una etapa antes de lo indicado. Podemos analizar los datos antes y después de la
gestión.
• Realizar una etapa varias veces en nuestro flujo de trabajo. La etapa de visualización
puede ser utilizada varias veces.
• Dejar de lado una etapa. Es posible que no necesitemos la etapa de suministro para
producir o habilitar nuestro conjunto de datos para un concurso.
También es posible que queramos desarrollar algún tipo de conocimiento previo sobre el
dominio de nuestro problema. Esto se describe en la página de descripción del concurso de
Kaggle aquí. Aquí están los aspectos más destacados a tener en cuenta.
Clasificar. Es posible que queramos clasificar o categorizar nuestras muestras. También podemos
querer entender las implicaciones o la correlación de las diferentes clases con nuestro objetivo
de solución.
Conversión. Para la etapa de modelización, hay que preparar los datos. Dependiendo de la
elección del algoritmo del modelo, puede ser necesario convertir todas las características en
valores numéricos equivalentes. Por ejemplo, convertir los valores categóricos del texto en
valores numéricos.
Completar. La preparación de los datos también puede requerir que estimemos los valores que
faltan en una característica. Los algoritmos de los modelos pueden funcionar mejor cuando no
hay valores perdidos.
Refactorización 2017-Jan-29
Estamos refactorizando significativamente el cuaderno en base a (a) los comentarios recibidos
por los lectores, (b) los problemas en la portación del cuaderno desde el kernel de Jupyter (2.7)
al kernel de Kaggle (3.5), y (c) la revisión de algunos kernels más de mejores prácticas.
Problemas de portabilidad:
• Especificar las dimensiones del gráfico, llevar la leyenda al gráfico.
Mejores prácticas:
• Realizar el análisis de correlación de características al principio del proyecto.
• Utilizar múltiples gráficos en lugar de superposiciones para facilitar la lectura.
FUENTE 3: https://www.kaggle.com/alexisbcook/titanic-tutorial