Análisis de Correlación y de Regresión Simple (675 - 686) PDF
Análisis de Correlación y de Regresión Simple (675 - 686) PDF
Análisis de Correlación y de Regresión Simple (675 - 686) PDF
Texto completo:
Análisis de correlación
Técnica estadística usada para medir la cercanía de la relación lineal entre dos o más variables en
una escala de intervalo.
Análisis de regresión
Técnica estadística usada para derivar una ecuación que relacciona una variable de criterio con
una o más variables de predicción; cuando se usa sólo una variable de predicción, es el análisis de
regresión simple, y si se utilizan dos o más, es el análisis de regresión múltiple.
Es totalmente válido medir la cercanía de la relación entre variables sin derivar una ecuación
estimada. De igual manera, puede entenderse el análisis de regresión sin investigar la cercanía de
la relación de las variables. Empero, es común derivar la ecuación y estudiar tal cercanía, por lo que
el conjunto de estas técnicas, no una u otra, suele denominarse análisis de regresión o correlación.
En cuanto a éste, debe comentarse también la distinción entre correlación y causalidad. El uso de
los términos variable dependiente (de criterio) y variable independiente (de predicción) para
referirse a las mediciones en el análisis de correlación se deriva de la relación matemática funcional
entre las variables y no tiene nada que ver con la dependencia de una variable con respecto de otra
en sentido causal. Por ejemplo, las técnicas podrían mostrar cierta correlación del ingreso alto con
la tendencia a tomar vacaciones invernales en islas caribeñas, si bien sería un error suponer que el
ingreso alto es causa de que una persona viaje al sur cuando se desploman las temperaturas
ambientales.
https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 1/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple
El National Fluid Milk Processors Promotion Board tiene a su cargo los anuncios de bigotes de leche
de celebridades. Una de sus promociones actuales es un “Milk Mustache Celebrity Calendar Event”
anual, en que se envían calendarios a diversos hogares. El consejo mencionado está interesado en
averiguar la correlación de su presentación de calendaríos de celebridades con las ventas de leche
en galones. Según información de Nielsen Homescan Data, las ventas de leche en galones
aumentaron 3.6%, en relación con las de un año atrás, en los hogares que recibieron el Calendario
de 1997, además de incrementos de 9.7% de las mismas ventas en hogares con niños de 6-12 años
de edad.Kroger no es ajeno a los beneficios del Milk Mustache Celebrity Calendar Event. Para
quienes gustan de los números, Nielsen Homescan Data reportó un aumento de 3.6% en las ventas
de leche en galón, contra las de un año atrás, en los hogares que recibieron el calendario 1999.
Además, otro de 9.7% en las ventas de un año antes en los hogares con niños de 6 a 12 años. Los
desplegados publicitarios acerca del producto, como éste, son una manera certera de impulsar la
compra de galones de leche y mover el lechímetro. ¿Desea el Celebrity Calendar 2000? Escríbame.
https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 2/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple
Página 676
A manera de ejemplo, en el análisis de los resultados de una encuesta que patrocinó Bank Network
News, sacó conclusiones de la forma en que sus editores entendían el comportamiento y
tendencias de los consumidores en el giro bancario. El estudio reveló que el uso mensual de
cajeros
Página 677
El tema de los análisis de regresión y correlación se analiza a la luz de un ejemplo. Así, considere
que un fabricante nacional de bolígrafos está interesado en investigar la eficacia de sus actividades
de mercadotecnia. La compañía usa mayoristas para distribuir los bolígrafos y complementa sus
esfuerzos con representantes de ventas y anuncios televisivos. La empresa planea usar las ventas
anuales por territorio como medición de eficacia. Esos datos y la información del número de
representantes de ventas que atienden un territorio están disponibles ya en los registros de la
compañía. Son más difíciles de determinar las otras características, con las cuales el fabricante
busca relacionar las ventas: anuncios televisivos y eficiencia de los mayoristas. A efecto de obtener
información sobre los anuncios televisivos en un territorio, los investigadores deben analizar las
cédulas de publicidad y la cobertura de área de estudio por canal, a fin de determinar a cuáles
áreas llegan los canales televisivos. Evaluar la eficiencia de los mayoristas requiere calificarlos en
diversos criterios y sumar las calificaciones en una medición global, en que 4 es sobresaliente, 3 es
bueno, 2 es promedio y 1 es deficiente. El tiempo y gastos necesarios para generar datos de estas
características de publicidad y distribución ha hecho que la compañía decida analizar sólo una
muestra de los territorios de ventas. Los datos de una muestra aleatoria simple de 40 territorios se
presentan en el anexo 21.1.
El efecto de cada una de las variables de la mezcla de mercadotecnia en las ventas puede
estudiarse de diversas maneras. Una más bien evidente sería granear las ventas como función de
cada una de las variables. En la figura 21.1 se muestran las gráficas, llamadas diagramas de
dispersión. La parte A hace suponer que las ventas se incrementan cuando aumenta el número de
anuncios televisivos mensuales, y la parte B, que aumentan con el número de representantes de
ventas que atiende el territorio. Por último, la parte C indica que existe poca relación entre las
ventas de un territorio y la eficiencia del mayorista que los atiende.
https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 3/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple
Un vistazo más cercano a las partes A y B también refleja que sería posible resumir la relación
entre las ventas y cada una de las variables de predicción si simplemente se traza una recta por los
puntos de datos. Una forma de generar la relación de las ventas con los anuncios televisivos por
número de representantes sería “imaginarla”, es decir, trazar visualmente una recta que pase por
los puntos de las gráficas. Esa recta correspondería a la línea de la relación “promedio” e indicaría
el valor promedio de la variable de criterio, las ventas, con los valores dados de cualquiera de las
variables de predicción, anuncios televisivos o número de representantes. Luego, podría añadirse a
las gráficas, por ejemplo, el número de anuncios televisivos en el territorio y leer el valor promedio
de ventas esperadas en el territorio mismo. La dificultad del enfoque gráfico es que dos analistas
podrían generar rectas distintas para describir la relación. Ello hace surgir la pregunta de cuál sería
la recta más correcta o cuál de ellas encajaría mejor en los datos.
Un enfoque alterno es generar matemáticamente una recta que una los datos. La ecuación general
de una recta es y = α + βX, donde α es la intersección Y, y β el coeficiente de la pendiente. En este
caso de Y ventas y X1 anuncios televisivos, la ecuación podría escribirse como Y= α1 + β1X1,
mientras que la relación entre las Y ventas y los X2 representantes de ventas se representaría como
Y = α2 + β2X2, donde el subíndice corresponde a la variable de predicción que se considera. Tal
como está escrito, cada uno de estos es un modelo determinista. Cuando se sustituye el valor de la
variable de predicción en la ecuación con los valores especificados de α y β, se determina un valor
único de Y, sin considerar un margen de error.
En la investigación de fenómenos sociales pocas veces, si acaso, el error es cero. Así, podría
sustituirse el modelo determinista por un modelo probabilístico, que debería incluir algunos
supuestos acerca del error. Por ejemplo, para trabajar con la relación de las ventas y el número de
anuncios televisivos, considere el modelo:
Yi = α1 + β1Xi1 + εi
Página 678
https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 5/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple
Página 679
FIGURA 21.1 Diagramas de dispersión de ventas contra las variables de la mezcla de mercadotecnia
https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 7/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple
Y no está determinado de manera unívoca por un valor dado de Xi En vez de ello, lo único
determinado por este último valor es el “valor promedio” de Y. Cabe esperar que sus valores
fluctúen en torno a ese promedio.
La solución matemática para encontrar la línea de ajuste óptimo del modelo probabilistic requiere
de ciertos supuestos acerca de la distribución del término de error. La recta de ajuste óptima
podría definirse de maneras diversas. Es habitual considerar que es la línea que minimiza la suma
de desviaciones al cuadrado alrededor de la línea (la solución de cuadrados mínimos). Considere la
figura 21.2 y suponga que la línea trazada en la figura es una ecuación estimada. Use el acento
circunflejo (^) para indicar un valor estimado y el error en la observación z-ésima es la diferencia
entre el valor real de
Página 680
Y, Yi, con el valor estimado de Y, Ŷi, es decir, ei = Y – Ŷi. La solución de cuadrados mínimos se basa
en el principio de que la suma de estos errores al cuadrado debe ser tan pequeña como resulte
posible, es decir, que se debe minimizar
Son tres los supuestos simplificadores del término de error en la solución de cuadrados mínimos:
https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 8/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple
Dados estos supuestos, es posible despejar fórmulas para obtener estimaciones seguras de los
parámetros poblacionales â1 la intersección, y β la pendiente, pero es más usual calcularlos
mediante computadora.6
Si se usan los datos del anexo 21.1 respecto de ventas (Y) y anuncios televisivos mensuales (X1), las
estimaciones de â1 y β serían 135.4 y 25.3, respectivamente.7 La ecuación se representa
gráficamente en la figura 21.3. La pendiente de la recta está dada por β1. El valor de ésta, 25.3,
hace suponer que las ventas aumentan en 25 300 dólares por cada unidad de aumento en los
anuncios televisivos. Como se mencionó, se trata del estimado de una condición poblacional
verdadera basada en una muestra específica de 40 observaciones. Sin duda alguna, otra muestra
distinta generaría un estimado diferente. Por añadidura, todavía no se ha planteado si se trata de
un resultado estadísticamente significativo o que podría haber ocurrido al azar. No obstante, es un
elemento de información de suma importancia, que ayuda a determinar si el gasto en publicidad
vale su rendimiento esperado. El estimado del parámetro de intersección es â1 = 135.4, lo cual
indica dónde cruza la recta al eje Y, puesto que se trata del valor estimado de Y cuando la variable
de predicción es igual a cero.
FIGURA 21.3 Gráfica de la ecuación que relaciona las ventas con los anuncios televisivos
https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 9/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple
Página 681
En forma similar, suponga que sY/X2 es una estimación sin sesgo de la varianza poblacional
alrededor de la recta de regresión, σY/X2. Ahora bien, puede demostrarse que la estimación de la
muestra de la varianza alrededor de la recta de regresión se relaciona con la suma de los errores al
cuadrado; de manera específica, es igual a:
donde n es nuevamente el tamaño de la muestra, y sY/X2, el estimador sin sesgo de σY/X2, con Yi y Ŷi
como valores observado Y estimado de Y para la observación i-ésima. La raíz cuadrada de esa
cantidad, sY/X, se llama frecuentemente error estándar de la estimación, si bien es más descriptivo
el término desviación estándar de la regresión.
Página 682
el supuesto de sY/X constante sin importar el valor de Xi1 produce bandas paralelas en torno a la
recta de bandas paralelas en torno a la recta de regresión.
Cuanto menor sea el error estándar de la estimación, mayor será la coincidencia de la recta con los
datos. En el caso de la recta relacionada con las ventas y los anuncios televisivos se trata de sY/X =
59.6.
https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 11/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple
Responder a dicha pregunta requiere un supuesto adicional, a saber, que los errores se distribuyen
de manera normal, no rectangular, como se había pensado. Empero, antes de continuar debe
resaltarse que los estimadores de cuadrados mínimos de los parámetros de la población original
son los mejores estimadores lineales sin sesgo de los parámetros poblacionales verdaderos, sin
importar la forma de la distribución del término de error. Basta que se satisfagan los supuestos
previos. Éste es un resultado notable del teorema de Gauss-Markov. Se requieren supuestos de
errores con distribución normal sólo si se pretende elaborar inferencias estadísticas acerca de los
coeficientes de regresión.
Puede demostrarse que si ∊1 son variables aleatorias de distribución normal, entonces β̂1 también
tiene distribución normal. En otras palabras, si se seleccionan muestras repetidas de la población
de territorios de ventas y se calcula un valor de β̂1 para cada muestra, la distribución de estas
estimaciones seria normal y centrada en el parámetro poblacional verdadero β1. Por añadidura, es
posible demostrar que la varianza de la distribución de los valores β̂1 o σβ̂12, es igual a:
Puesto que es desconocida la población (σY/X2, tampoco se conoce σβ̂2 y se precisa estimarla. Esta
estimación, que se denota como sβ̂2, se genera al sustituir σY/X con el error estándar de la
estimación sY/X:
Hasta este punto, la situación es la siguiente: dado el supuesto de errores de distribución normal,
β̂1 también tiene distribución normal, con media β1, y varianza a σβ̂2 desconocida. Puesto que se
carece de la varianza de la distribución de la muestra, es necesario usar un procedimiento similar al
utilizado cuando se derivó una inferencia de la media con desconocimiento de la varianza
poblacional. Ese conjunto de condiciones requiere una prueba t para examinar la significancia
estadística. La prueba de significancia de β1 tiene un requisito similar. La hipótesis nula consiste en
la ausencia de relación lineal entre las variables y la hipótesis alternativa, si existe tal relación, es
decir:
H0: β1 =0
Hα β1 ≠ 0
https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 12/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple
Página 683
¿Qué pasa si no se rechaza la hipótesis nula? Como se señaló, β̂1 es la pendiente de la recta
supuesta sobre la región de observación e indica el cambio lineal en Y con el cambio de una unidad
en X1. Que no se rechace la hipótesis nula, de que β̂1 = 0, no significa que sea inexistente la relación
de Y y X1. Son dos las posibilidades. En primer término, simplemente podría ser que se cometa un
error de tipo II al no rechazar una hipótesis nula falsa. En segundo lugar, sería factible que Y y X1
tengan una relación curvilínea perfecta y que se haya escogido el modelo incorrecto para describir
la situación verdadera.
Coeficiente de correlación
Hasta este punto, se ha analizado la relación funcional de Y con X. Suponga que también interesa la
intensidad de la relación lineal entre esas dos variables, lo cual lleva al concepto de coeficiente de
correlación. Se partió de dos supuestos adicionales al analizar el modelo de correlación. El
primero, que Xi es una variable aleatoria. Una observación de muestra permite obtener valores de
https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 13/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple
Xi y Yi. El segundo, que las observaciones provienen de una distribución normal de dos variables, es
decir, una en que la variable X tiene distribución normal, al igual que la variable Y.
Coeficiente de correlación
Término usado en el análisis de regresión para designar la fuerza de la relación lineal entre las
variables de criterio y predictivas.
Página 684
la dispersión de puntos que se presenta en la figura 21.5 y divida la figura en cuatro cuadrantes,
que se forman al trazar líneas perpendiculares a los ejes x̄ y ȳ.
Considere las desviaciones de estos bisectores. Tome cualquier punto P con coordenadas (Xi, Yi) y
defina las desviaciones:
xi = Xi – x̄
yi = Yi – ȳ
https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 14/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple
donde las minúsculas indican desviaciones en torno a una media. Está claro, con la observación de
la figura 21.5, que el producto Xiyi es:
Si la relación es positiva, de modo que gran parte de los puntos se sitúa en los cuadrantes I y
III,
tiene dos defectos como medida de la relación lineal entre Xy Y. El primero, que se puede
incrementar arbitrariamente con la inclusión de más observaciones, es decir, al incrementar el
tamaño de la muestra. El segundo, que también puede recibir influencia arbitraria del cambio en la
unidad de medición de X, Y o ambas, por ejemplo, al cambiar de metros a centímetros. Estos
defectos pueden eliminarse al hacer que la medición de la fuerza de la relación lineal sea una
cantidad sin dimensiones y dividir entre n. El resultado es el coeficiente de correlación pear-
soniano o de producto-momento, a saber:
https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 15/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple
Página 685
https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 16/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple
Coeficiente de determinación
Término usado en el análisis de regresión para denotar la proporción relativa de la variación total
en la variable de criterio que puede explicarse mediante la ecuación de regresión ajustada.
es decir, r2 = 1 menos el error estándar del estimado al cuadrado, dividido entre la varianza de la
muestra de la variable de criterio. A falta de variable de predicción, el mejor estimado de la variable
de criterio sería la media de la muestra. Si hubiera poca variabilidad en las muestras de un
territorio a otro, la media de la muestra sería un buen estimado de las ventas esperadas en
cualquier territorio. Empero, la variabilidad considerable haría que fuese una estimación deficiente.
Así, la varianza de las muestras, sY 2, es una medición del grado de “deficiencia” de ese
procedimiento de estimación. La introducción de la covariable X podría mejorar los estimados de
las ventas por territorio. Ello depende
Página 686
de cuan bien se adecué la ecuación a los datos. Puesto que sY/X 2 mide la dispersión de los puntos
en tomo a la recta de regresión, puede considerarse que es una medición de cuan “deficiente” es
un procedimiento de estimación que toma en cuenta la covariable. Ahora bien, si sY/X2 es de poca
cuantía en relación con sY/X 2, sería factible afirmar que añadir la covariable mediante la ecuación
de regresión mejora sustantivamente las predicciones de la variable de criterio, las ventas. A la
inversa, cuando sY/x2 es aproximadamente igual a sY/X 2, se consideraría que agregar la covariable
X no sirve para mejorar las predicciones de Y. Por tanto, la proporción sY/X 2/sY 2 se conceptuaría
como la proporción de la variación que no se explica con la recta de regresión dividida entre la
variación total, es decir:
El miembro derecho de esta ecuación puede combinarse en una sola fracción, de modo que se
tenga:
https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 17/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple
donde se entiende que la variación total se mide con la varianza de Y. En el ejemplo de las ventas y
anuncios televisivos, r2 = 0.77. Ello significa que 77% de la variación en las ventas de un territorio a
otro se explica con la variación de la publicidad televisiva entre territorios. Por consiguiente, la
estimación de las ventas en un territorio es mejor si se toman en cuenta los anuncios televisivos
que al hacer caso omiso de esa actividad publicitaria.
https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 18/18