Actividad 2 - Multivariado
Actividad 2 - Multivariado
Actividad 2 - Multivariado
Análisis Multivariado
Jamer José Diaz Portilla
Aspirante a especialista en Estadística Aplicada
Actividad 2
2. Realice una exploración rápida del conjunto de datos e identifique las variables
cualitativas.
En los siguientes screen shots, se muestra el conjunto toal de variables que componen a la base de
datos, adicionalmente en la gráfica que se ve negra, se detallan los datos faltantes.
3. Realice un filtro para las variables cualitativas y realice un análisis estadístico descriptivo
bivariado de las variables cualitativas.
En el siguiente pantallazo se ve el código para filtrar las variables cuantitativas de las cualitativas, y
luego una impresión de la base de datos con solo variables cualitativas. Ahora con estas variables
procedemos a hacer un análisis, tomando como variable dependiente al fraude (fraud_reported).
En las siguientes gráficas se ve la relación entre los hobbies o actividades lúdicas de los implicados
en accidentes, y si se cometió fraude; el hobbie está en color azul y el fraude en naranja; se puede
decir que los practicantes de “Ajedrez”, y de “Crossfit”, son los que más muestran fraude en
accidentes de tránsito.
En la gráfica del medio, se muestra el fraude por tipo de accidente; si el accidente fue entre
vehículos, si fue con algún implicado estando parqueado, si fue un solo vehículo que colisionó, o si
fue un vehículo robado.
Y en la tercera gráfica se ve el fraude por nivel de educación, pero no hay diferencias en la cantidad
de fraudes entre niveles de educación.
4. Seleccione las variables más importantes para un posible estudio de análisis de
correspondencia.
En el pantallazo adjunto se
encuentran todas las variables
categóricas. En Colaboratory
(Colab), podemos ver si son de tipo
string, integer, booleans, object,
etc; en este caso solo dejamos las
“objects”, ya que son las variables
cualitativas de la base de datos, y
las que nos permiten desarrollar el
ANÁLISIS DE CORRESPONDENCIA.
Con nuestras variables Cualitativas ya filtradas, se procede a descargar una nueva base de datos, con
solo variables Cualitativas, con el siguiente código:
Colab nos crea una nueva base de datos, la cual llamamos “datos_cualitativos.csv”, subrayado en el
pantallazo inferior, con la cual nos dirigimos a Restudio para hacer el Análisis de Correspondencia.
6. Cargue la base de datos en R
En esta gráfica se ve la correlación entre las variables y las dimensiones principales (1 y2 ). Así
mismo se puede decir que la severidad del accidente aporta bastante en ambas dimensiones; el
tipo de incidente (cerca al eje X, a la derecha), aporta bastante a la dimensión 1; el reporte de
fraude aporta bastante a la dimensión 2 (cerca al eje Y, en la parte de arriba); como también se ve
un grupo de variables cercanas al origen de ambas dimensiones, de las cuales podemos decir que
no aportan demasiado en el Análisis de Correspondencia, y se podría prescindir de ellas.
Coordenadas de categorías
En el siguiente gráfico se observan las categorías entre las dos dimensiones, ya se ve un poco más
despejado que el biplot, en donde se graficaban tanto las categorías como los individuos. En esta
gráfica, se ven las categorías, y como se asocian por ejemplo en la parte superior izquierda, los
practicantes de ajedrez, de cross-fit y los reportes de fraude cercanos a la dimensión 2. Y en el
extremo derecho cercano al eje horizontal (dimensión 1), están asociadas las variables de daños
triviales, automóvil parqueado y vehículo robado; de lo anterior podemos nuevamente sacar
conclusiones como las anteriores, además podemos ir haciendo asociaciones de categorías y
variables cercanas.
La siguiente gráfica está en concordancia con el gráfico anterior, matriz de correlación visual, en
donde las mismas variables que se mencionaron, son las mismas que muestran mayor aporte a las
dimensiones 1 y 2.