Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

EST TallerFinal UnidadIV 202401

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 3

Estadística - Taller Final (20 %)

Unidad IV. Inferencia estadística


Escuela Ambiental. Facultad de Ingeniería. Universidad de Antioquia.
Mayo 2024

Instrucciones y recomendaciones generales:

Lea cuidadosamente todo el taller y cumpla con las instrucciones dadas a lo largo del documento.

El taller debe ser realizado en las parejas propuestas por los estudiantes.

Justifique cada uno de los procedimientos. Respuesta sin justificación no se tendrá en cuenta en
la calificación.

Si se identifica que la solución es tomada textualmente de alguna referencia o es copia de otra


pareja el punto es invalidado.

Realice los numerales siguiendo los conceptos vistos en clase y en el taller práctico en R.

Para la entrega tenga en cuenta lo siguiente:

• Los archivos solicitados en el taller deben ser enviados al correo laura.ortizg@udea.edu.co.


• La fecha máxima de entrega es el día jueves 06 de junio a las 11:59 p.m. Posterior a esta
fecha y hora NO se reciben archivos para su calificación.
• El asunto del correo debe ser Estadística. Taller final y el nombre completo de los estudiantes
que conforman la pareja.

Pruebas de hipótesis:
Para el desarrollo de las pruebas de hipótesis utilice el archivo denominado Informacion_Automoviles.csv.
Allí encontrará información de una muestra de automóviles para los cuales se monitoreó el consumo de
combustible (FUEL_CONSUMPTION).

Utilice el lenguaje de programación R para el procesamiento de la información y siga las siguientes


indicaciones:

1. Crear un código en R para la lectura y procesamiento de los datos. El nombre del código debe
corresponder con el primer apellido de los integrantes de la pareja, Apellido1_Apellido2.R. No
olvide incluir una descripción que contenga los nombres de los integrantes de la pareja, objetivos
del taller y fecha de realización. Adicionalmente, realice comentarios descriptivos a lo largo de
todo el código justificando sus procedimientos.

2. Realice la lectura del archivo de datos. No olvide llamar las librerías requeridas. A continuación se
muestra la línea de código para leer archivos csv :

datos <- read.csv(file=file.choose(), header=T, sep=“,”)

3. Realice el histograma de frecuencias y el gráfico de densidad de la variable de interés para obtener


una apreciación visual de los datos y su distribución. Explique las figuras obtenidas.

4. En el último estudio realizado por la industria automotriz del país, se afirma que el consumo de
combustible presenta una variabilidad superior a 8.5. Compruebe esta afirmación a partir de una
prueba de hipótesis, utilizando el valor p en su conclusión y un nivel de significancia del 5 %.

5. Un fabricante de vehículos afirma que los autos compactos presentan un consumo promedio de
combustible de 10.5 o menos. Plantee una prueba de hipótesis con esta afirmación utilizando un
nivel de significancia del 1 %.

1
Para llevar a cabo esta prueba de hipótesis, seleccione el subconjunto de datos correspondiente
a los autos compactos, filtrando la columna del dataframe VEHICLE.CLASS en la categoría
COMPACT, por ejemplo:

datos_compact <- datos[datos$VEHICLE.CLASS == “COMPACT” , c(5)]

El argumento c(5) representa la columna del dataframe que se desea seleccionar, en este caso, la
columna 5 que contiene la variable FUEL_CONSUMPTION, modifíquela o incluya otras columnas
si lo considera necesario.

6. Los fabricantes de los carros de las marcas ford y dodge afirman que no existen diferencias
entre el consumo promedio de combustible de estos dos tipos de vehículos. Para un nivel de
significancia del 5 %, compruebe la afirmación de los fabricantes (prueba de hipótesis para dos
poblaciones).
En este caso, debe seleccionar los subconjuntos de datos correspondientes a las marcas ford y
dodge, filtrando la columna del dataframe MAKE en las respectivas categorías, por ejemplo:

datos_ford <- datos[datos$MAKE == “FORD”, c(5)]

Para elegir el estadístico de prueba, tenga en cuenta lo siguiente:

Revisar si las varianzas poblacionales son conocidas o desconocidas.


Verificar si las varianzas son iguales o diferentes (prueba de hipótesis para las varianzas de
dos muestras de poblaciones normales).

7. Para cada una de las pruebas de hipótesis realizadas, calcule los intervalos de confianza del 95 %
y 99 % y complemente sus conclusiones sobre los resultados obtenidos previamente.

Para cada prueba de hipótesis se solicita:

Verificar la normalidad de los datos. En caso de que los datos no sigan una distribución normal
realice una transformación de potencia hasta cumplir la normalidad, justifique sus procedimientos.

Definir claramente cada uno de los pasos llevados a cabo en la prueba de hipótesis.

Definir el valor de referencia de la prueba en cada caso para el planteamiento de las hipótesis.

Especificar las conclusiones obtenidas en las pruebas de hipótesis realizadas.

Especificar los límites de los intervalos de confianza obtenidos en cada prueba de hipótesis e
interpretar los resultados.

Análisis de regresión lineal:


Para el desarrollo del análisis de regresión lineal, adicional a la información de consumo de combustible
(FUEL_CONSUMPTION), utilice la variable que representa las emisiones de dióxido de carbono - CO2
generadas por los automóviles (CO2_EMISSIONS). A partir de estos datos es posible encontrar un
modelo de regresión lineal que permita estimar las emisiones de CO2 en función del consumo de
combustible.

Considerando las dos variables de interés realice un análisis de regresión lineal simple. Tenga en cuenta:

1. Defina la variable dependiente e independiente.

2. Estime el modelo de regresión lineal simple (encuentre la pendiente y el intercepto e interprete


ambos coeficientes).

3. Realice un gráfico de dispersión de los datos con la recta de regresión estimada y explique sus
resultados.

2
4. Calcule e interprete el coeficiente de determinación y el coeficiente de correlación (Pearson).

5. Estime la significancia de la correlación y explique.

6. Seleccione una de las mediciones disponibles en la serie de datos (un dato en específico) y realice
esa misma estimación con el modelo de regresión lineal obtenido. Determine cuál es el error
residual del modelo.

Tenga en cuenta:

Consigne sus principales resultados y conclusiones en una presentación (diapositivas).

Los integrantes de la pareja deben realizar una grabación en la cual expongan la presentación del
taller. Se debe demostrar el dominio en el manejo de los conceptos vistos en la cuarta unidad del
curso y de los procedimientos desarrollados en R. Considere:

• Los dos integrantes de la pareja deben participar de la exposición (las cámaras deben estar
encendidas obligatoriamente).
• La presentación debe demostrar su dominio del tema, mostrando fluidez y claridad en sus
explicaciones.
• La grabación debe durar entre 10 y 12 minutos (como máximo).
• Para la calificación se hará especial énfasis en el análisis de los resultados. La presentación
no es para explicar el código, sino para analizar y concluir sobre los resultados
obtenidos.
• La grabación puede realizarse en plataformas como Zoom, Teams, YouTube y pueden
compartir el enlace de acceso (verifique que este enlace funcione correctamente).

Como resultado del ejercicio deben enviarse al correo los siguientes archivos:

1. Código en R con el desarrollo del taller (Apellido1_Apellido2.R).

2. Presentación en formato pdf que recopila los resultados y análisis requeridos


(Pres_Apellido1_Apellido2.pdf ).

3. Enlace con la grabación de la presentación.

También podría gustarte