U2S6
U2S6
U2S6
Desarrollo de la Actividad
1. Un entusiasta de las caminatas tiene una nueva aplicación para su teléfono inteligente que
resume sus caminatas usando un dispositivo GPS. Veamos la distancia recorrida (en km)
y la altitud máxima (en m) durante las últimas 10 caminatas:
Distancia 12,5 29,9 14,8 18,7 7,6 16,2 16,5 27,4 12,1 17,5
Altitud 342 1245 502 555 398 670 796 912 238 466
a) Calcule la media aritmética y la mediana tanto para la distancia como para la altitud.
b) Determine el primer y tercer cuartiles para las variables de distancia y altitud.
c) Analice la forma de la distribución dados los resultados de (a) y (b).
d) Calcule el rango intercuartílico, la desviación media absoluta y la desviación estándar
para ambas variables. ¿Cuál es su conclusión sobre la variabilidad de los datos?
e) Un metro corresponde a aproximadamente 3.28 pies. ¿Cual es la altitud promedio cuando
se mide en pies en lugar de metros?
f) ) Dibuje e interprete el diagrama de caja tanto para la distancia como para la altitud.
Universidad Politécnica Salesiana
2. El conjunto rankingconstruccion.csv contiene los datos del an˜o 2018 de las empresas que
se dedican al sector de la construcción. La revista Vistazo elabora cada año un ranking
de las empresas por cada sector de la producción al que pertenecen las empresas y un
ranking general. Investigue el uso de la función top n y con la ayuda de esta función
seleccione las primeras 500 empresas de acuerdo a la utilidad, almacene estos resultados
en el un conjunto llamado rank500 construcción y de este conjunto de datos, realice los
siguientes ejercicios:
3. En el ejercicio anterior se elaboró´ el ranking de las empresas del sector construcción, la revista
Vistazo publica además un ranking de las mejores 500 empresas de todos los sectores de acuerdo
a su utilidad. Elabore el ranking de las 500 mejores empresas utilizando los archivos de valores
separados por comas (csv) rankingagricultura, rankingcomercio, rankingconstruccion,
rankinginmobiliaria y rankingmanufactura. El flujo de trabajo recomendado para esta actividad
es:
a) Cargar cada conjunto de datos por separado, almacenando cada conjunto en una variable
que usted decida.
b) Unir los conjuntos de datos en un solo conjunto, para esto debe utilizar la función rbind( ).
Investigue el uso de esta función y utilícela para formar un único conjunto de datos.
c) Con ayuda de la función top n( ) seleccione las primeras 500 empresas de acuerdo a la
utilidad. Guarde este ranking en un conjunto llamado ranking2018todos. Con el conjunto
ranking2018todos se pide:
1) Calcular las medidas de tendencia central y dispersión por sector de las utilidades.
2) Determinar los deciles de las utilidades para todas las empresas.
3) Determinar los deciles de las utilidades por sector.
4) Elaborar tablas de contingencia relacionando el sector y el tamaño de las empresas.
5) ¿De qué ciudad son la mayoría de empresas del ranking? Elabore una tabla de
frecuencia de las empresas por ciudad.
6) ¿a qué sector productivo pertenecen la mayoría de empresas del ranking?
4. Los datos de entrega de pizzas (pizza delivery.csv) son un conjunto de datos simulados. Los datos
se refieren a un restaurante que ofrece pizza a domicilio. Contiene los pedidos recibidos durante
un periodo de un mes: mayo de 2014. Hay tres sucursales del restaurante. La entrega de pizzas se
gestiona de forma centralizada: un operador recibe una llamada telefónica y reenvía el pedido a
la sucursal ma´s cercana a la dirección del cliente. Uno de los cinco conductores (dos de los cuales
solo trabajan a tiempo parcial los fines de semana) entrega el pedido. El conjunto de datos captura
la cantidad de pizzas ordenadas, así como la factura final, que también puede incluir bebidas,
ensaladas y platos de pasta. El dueño del negocio observó un mayor número de quejas,
principalmente porque las pizzas llegan demasiado tarde y demasiado frías. Para mejorar la
calidad del servicio de su negocio, el propietario quiere medir (i) el tiempo desde la llamada hasta
la entrega
y (ii) la temperatura de la pizza a la llegada (lo que se puede hacer con un dispositivo especial).
Idealmente, una pizza llega dentro de los 30 minutos posteriores a la llamada; si tarda ma´s de
40 minutos, se promete a los clientes una botella de vino gratis (aunque no siempre se entrega).
La temperatura de la pizza debe estar por encima de los 65 ◦ en el momento de la entrega. El
análisis de los datos tiene como objetivo determinar los factores que influyen en el tiempo de
entrega y la temperatura de las pizzas.
a) Calcule la media, la mediana, el mínimo, el máximo, el primer cuartil y el tercer cuartil para
todas las variables cuantitativas.
b) Determine e interprete el percentil 99 para el tiempo de entrega y la temperatura.
c) Grafique un diagrama de caja para el tiempo de entrega y la temperatura.
d) Construya una tabla de frecuencias para el tiempo de entrega.
e) Construya una tabla de frecuencias para la temperatura