Segunda Entrega Reqwuerida
Segunda Entrega Reqwuerida
Segunda Entrega Reqwuerida
Descripción:
Dada la poca cantidad de variables cuantitativas que presenta la base es que hemos
decidido trabajar solo con las binarias, es decir las que cumplirán con lo mencionado (a las
que asignaremos el valor 1) y las que no cumplen (a quienes les daremos el valor 0).
Algunas que pueden agruparse, por ejemplo el tipo de alcohol, en donde podríamos juntar
los distintos tipos en el número 1, y las respuestas sin alcohol con el valor 0. Solo
consideraremos las variables cualitativas que podamos transformar a binarias, ya que
algunas que se presentan tienen infinidad de posibles respuestas, por lo que no tendría
sentido categorizar, esto para variables como id, nombre de la calle, nombre del
restaurante, estado, entre otras más. Finalmente estas serán las variables a transformar
en binarias:
Acá agruparemos loud y very loud y faltantes en 1, mientras que average y quiet en 0,
para la variable ruido
La variable atuendo dejaremos 1 para casual y faltantes, mientras que dressy y formal
colocaremos 0
Como en esta parte del trabajo utilizaremos solo las binarias, no tenemos la necesidad de
transformarlas, ni estandarizarlas, dado que están en la misma escala, al ver el número de
cluster óptimos para nuestras variables vemos lo siguiente:
Se aprecia que hasta el 4° codo hay cambios bruscos, mientras que luego de este se
estabiliza, por lo que realizaremos 4 clusters.
CLUSPLOT( caso3.1 )
30
20
Component 2
10
0
Component 1
These two components explain 75.81 % of the point variability.
Podemos ver los 4 grupos, aunque hay dos claramente definidos (los que están
encerrados en azul y rosado).
Vemos que en todos la distribución de los datos es más menos la misma que la definida
para los 4 cluster, y vemos dos cluster relevantes, los inferiores que están perfectamente
divididos entre ellos.
Seguimos con las mismas cuntitativas, R no permite arar los vectores con la base asociada
YELPdata, esto debido a la gran cantidad de valores que tiene como para armar los grupos.
Podemos ver una clara diferenciación entre los 4 grupos, mediante c-means.
5. Dado todos los clusters generados en las preguntas previas, ¿qué método
recomendaría para el análisis de estos datos? ¿Qué información relevante detectó de
los clusters generados?
Recomendaría k-means, dado que se puede ver de una mejor manera y más amigable, los
grupos formados, también gracias al gráfico de codos generados se aprecia cuantos
cluster son los ideales, aunque viendo en detalle el gráfico podemos identificar 2 grandes
grupos en vez de los 4 que se mencionan en el gráfico de codos.
Ind corresponde a la nota individual. Dado que cada integrante estará a cargo de un
modelo en particular, esta nota corresponde a la selección de variables, aplicación del
modelo, conclusiones personales, y el código respectivo de su modelo.
Descripción:
La nota final Los grupos se componen de cuatro estudiantes. La nota del proyecto es una
combinación de nota grupal y nota individual, determinada por:
Ind corresponde a la nota individual. Dado que cada integrante estará a cargo de un
modelo en particular, esta nota corresponde al punto 3, y el código respectivo de su
modelo.