Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Análisis de Correlación y de Regresión Simple (675 - 686) PDF

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 18

30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple

Análisis de Correlación y de Regresión Simple


Fecha: 1999
From: Investigación de mercados(4th ed.)
Publisher: Cengage Learning Mexico
Tipo de documento: Topic overview
Páginas: 12
Content Level: (Level 5)

Texto completo: 

Análisis de Correlación y de Regresión Simple


Los análisis de correlación y de regresión son de uso frecuente entre los investigadores de
mercados para estudiar la relación entre dos o más variables. Aunque es común el uso indistinto
de estos términos, existe una diferencia en su propósito. El análisis de correlación mide la cercanía
de la relación entre dos o más variables (véase el ejemplo del anuncio de leche), considerando la
variación conjunta de las dos mediciones, ninguna de las cuales está sujeta a restricción por el
experimentador. Por su parte, el análisis de regresión se usa para derivar una ecuación que
relaciona la variable de criterio con una o más variables de predicción. En ello se considera la
distribución de frecuencias de la variable de criterio cuando se mantienen fijas en diversos valores
una o más de las variables de predicción.2

Análisis de correlación

Técnica estadística usada para medir la cercanía de la relación lineal entre dos o más variables en
una escala de intervalo.
Análisis de regresión

Técnica estadística usada para derivar una ecuación que relacciona una variable de criterio con
una o más variables de predicción; cuando se usa sólo una variable de predicción, es el análisis de
regresión simple, y si se utilizan dos o más, es el análisis de regresión múltiple.

Es totalmente válido medir la cercanía de la relación entre variables sin derivar una ecuación
estimada. De igual manera, puede entenderse el análisis de regresión sin investigar la cercanía de
la relación de las variables. Empero, es común derivar la ecuación y estudiar tal cercanía, por lo que
el conjunto de estas técnicas, no una u otra, suele denominarse análisis de regresión o correlación.

En cuanto a éste, debe comentarse también la distinción entre correlación y causalidad. El uso de
los términos variable dependiente (de criterio) y variable independiente (de predicción) para
referirse a las mediciones en el análisis de correlación se deriva de la relación matemática funcional
entre las variables y no tiene nada que ver con la dependencia de una variable con respecto de otra
en sentido causal. Por ejemplo, las técnicas podrían mostrar cierta correlación del ingreso alto con
la tendencia a tomar vacaciones invernales en islas caribeñas, si bien sería un error suponer que el
ingreso alto es causa de que una persona viaje al sur cuando se desploman las temperaturas
ambientales.

https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 1/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple

No existe nada en el análisis de correlación ni en ningún otro procedimiento matemático que


pueda usarse para establecer la causalidad. Lo único para lo que sirven estos procedimientos es
para

El National Fluid Milk Processors Promotion Board tiene a su cargo los anuncios de bigotes de leche
de celebridades. Una de sus promociones actuales es un “Milk Mustache Celebrity Calendar Event”
anual, en que se envían calendarios a diversos hogares. El consejo mencionado está interesado en
averiguar la correlación de su presentación de calendaríos de celebridades con las ventas de leche
en galones. Según información de Nielsen Homescan Data, las ventas de leche en galones
aumentaron 3.6%, en relación con las de un año atrás, en los hogares que recibieron el Calendario
de 1997, además de incrementos de 9.7% de las mismas ventas en hogares con niños de 6-12 años
de edad.Kroger no es ajeno a los beneficios del Milk Mustache Celebrity Calendar Event. Para
quienes gustan de los números, Nielsen Homescan Data reportó un aumento de 3.6% en las ventas
de leche en galón, contra las de un año atrás, en los hogares que recibieron el calendario 1999.
Además, otro de 9.7% en las ventas de un año antes en los hogares con niños de 6 a 12 años. Los
desplegados publicitarios acerca del producto, como éste, son una manera certera de impulsar la
compra de galones de leche y mover el lechímetro. ¿Desea el Celebrity Calendar 2000? Escríbame.

https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 2/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple

Página 676 

medir la naturaleza y grado de relación o covarianza de las variables. Las afirmaciones de


causalidad deben provenir de los conocimientos y teorías del fenómeno que se investiga. De
ninguna manera se originan en las matemáticas.3 En la Ventana de investigación 21.1, el exdirector
de investigación de mercados de General Mills insta a que los investigadores vean más allá de los
datos a cuya recopilación dedican sus energías y consideren la teoría que rige los estudios de
mercados. Las matemáticas son inútiles sin una teoría que las sustente.

A manera de ejemplo, en el análisis de los resultados de una encuesta que patrocinó Bank Network
News, sacó conclusiones de la forma en que sus editores entendían el comportamiento y
tendencias de los consumidores en el giro bancario. El estudio reveló que el uso mensual de
cajeros

Página 677 

automáticos disminuyó durante el periodo estudiado. Al mismo tiempo, las transacciones en


puntos de venta con tarjetas de débito (es decir, pagar con tarjetas de débito en las cajas
registradoras) aumentaron en un sorprendente 35%. Los editores atribuyeron esta correlación
inversa al desagrado de los consumidores con los cargos por servicios en los cajeros automáticos.
Señalaron que muchos establecimientos minoristas no sólo permiten que sus clientes paguen las
compras con tarjetas de débito, sino que también les permiten hacer retiros de efectivo. Además,
los minoristas, a diferencia de una porción creciente de cadenas de cajeros automáticos, no cobran
ese servicio.4

El tema de los análisis de regresión y correlación se analiza a la luz de un ejemplo. Así, considere
que un fabricante nacional de bolígrafos está interesado en investigar la eficacia de sus actividades
de mercadotecnia. La compañía usa mayoristas para distribuir los bolígrafos y complementa sus
esfuerzos con representantes de ventas y anuncios televisivos. La empresa planea usar las ventas
anuales por territorio como medición de eficacia. Esos datos y la información del número de
representantes de ventas que atienden un territorio están disponibles ya en los registros de la
compañía. Son más difíciles de determinar las otras características, con las cuales el fabricante
busca relacionar las ventas: anuncios televisivos y eficiencia de los mayoristas. A efecto de obtener
información sobre los anuncios televisivos en un territorio, los investigadores deben analizar las
cédulas de publicidad y la cobertura de área de estudio por canal, a fin de determinar a cuáles
áreas llegan los canales televisivos. Evaluar la eficiencia de los mayoristas requiere calificarlos en
diversos criterios y sumar las calificaciones en una medición global, en que 4 es sobresaliente, 3 es
bueno, 2 es promedio y 1 es deficiente. El tiempo y gastos necesarios para generar datos de estas
características de publicidad y distribución ha hecho que la compañía decida analizar sólo una
muestra de los territorios de ventas. Los datos de una muestra aleatoria simple de 40 territorios se
presentan en el anexo 21.1.

El efecto de cada una de las variables de la mezcla de mercadotecnia en las ventas puede
estudiarse de diversas maneras. Una más bien evidente sería granear las ventas como función de
cada una de las variables. En la figura 21.1 se muestran las gráficas, llamadas diagramas de
dispersión. La parte A hace suponer que las ventas se incrementan cuando aumenta el número de
anuncios televisivos mensuales, y la parte B, que aumentan con el número de representantes de
ventas que atiende el territorio. Por último, la parte C indica que existe poca relación entre las
ventas de un territorio y la eficiencia del mayorista que los atiende.

https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 3/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple

Un vistazo más cercano a las partes A y B también refleja que sería posible resumir la relación
entre las ventas y cada una de las variables de predicción si simplemente se traza una recta por los
puntos de datos. Una forma de generar la relación de las ventas con los anuncios televisivos por
número de representantes sería “imaginarla”, es decir, trazar visualmente una recta que pase por
los puntos de las gráficas. Esa recta correspondería a la línea de la relación “promedio” e indicaría
el valor promedio de la variable de criterio, las ventas, con los valores dados de cualquiera de las
variables de predicción, anuncios televisivos o número de representantes. Luego, podría añadirse a
las gráficas, por ejemplo, el número de anuncios televisivos en el territorio y leer el valor promedio
de ventas esperadas en el territorio mismo. La dificultad del enfoque gráfico es que dos analistas
podrían generar rectas distintas para describir la relación. Ello hace surgir la pregunta de cuál sería
la recta más correcta o cuál de ellas encajaría mejor en los datos.

Un enfoque alterno es generar matemáticamente una recta que una los datos. La ecuación general
de una recta es y = α + βX, donde α es la intersección Y, y β el coeficiente de la pendiente. En este
caso de Y ventas y X1 anuncios televisivos, la ecuación podría escribirse como Y= α1 + β1X1,
mientras que la relación entre las Y ventas y los X2 representantes de ventas se representaría como
Y = α2 + β2X2, donde el subíndice corresponde a la variable de predicción que se considera. Tal
como está escrito, cada uno de estos es un modelo determinista. Cuando se sustituye el valor de la
variable de predicción en la ecuación con los valores especificados de α y β, se determina un valor
único de Y, sin considerar un margen de error.

En la investigación de fenómenos sociales pocas veces, si acaso, el error es cero. Así, podría
sustituirse el modelo determinista por un modelo probabilístico, que debería incluir algunos
supuestos acerca del error. Por ejemplo, para trabajar con la relación de las ventas y el número de
anuncios televisivos, considere el modelo:

Yi = α1 + β1Xi1 + εi

Página 678 

ANEXO 21.1 Datos de territorios de ventas de los bolígrafos


Territorio Ventas (en Publicidad (anuncios Número de Índice de eficiencia de
miles), Y televisivos por mes) X1 representantes de mayoristas X3
ventas X2
005 260.3 5 3 4
019 286.1 7 5 2
033 279.4 6 3 3
039 410.8 9 4 4
061 438.2 12 6 1
082 315.3 8 3 4
091 565.1 11 7 3
101 570.0 16 8 2
115 426.1 12 4 3
118 315.3 7 3 4
133 403.6 10 6 1
149 220.5 4 4 1
162 343.6 9 4 3
https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 4/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple

ANEXO 21.1 Datos de territorios de ventas de los bolígrafos


Territorio Ventas (en Publicidad (anuncios Número de Índice de eficiencia de
miles), Y televisivos por mes) X1 representantes de mayoristas X3
ventas X2
164 644.6 7 8 4
178 520.4 19 7 2
187 220.5 9 3 2
189 426.0 11 6 4
205 343.2 8 3 3
222 520.4 13 5 4
237 421.8 14 5 2
242 245.6 7 4 4
205 503.3 18 6 3
260 375.7 9 5 3
266 265.5 5 3 3
279 245.6 18 6 4
298 503.3 18 5 3
306 270.1 5 3 2
332 368.0 7 6 2
347 556.1 12 7 1
358 450.5 13 6 4
306 318.5 8 4 3
370 260.2 6 3 2
391 667.0 16 8 2
408 618.3 19 8 2
412 525.3 17 7 8
370 332.2 10 4 3
442 393.2 12 5 3
467 283.5 8 3 3
412 376.2 10 5 4
488 481.8 12 5 2

https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 5/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple

ANEXO 21.1 Datos de territorios de ventas de los bolígrafos

donde Yi es el valor de ventas en el territorio i-ésimo, Xi1 es la intensidad de la publicidad en ese


mismo territorio y ɛi es el error relacionado con la observación i-ésima. Ésta es la forma del modelo
que se usa en el análisis de regresión. El término de error es parte del modelo. Representa el hecho
de no incluir todos los factores en el modelo, que hay un elemento impredecible en el
https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 6/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple

comportamiento humano y que ocurren errores de medición.5 El modelo probabilístico considera


el hecho de que el valor

Página 679 

FIGURA 21.1 Diagramas de dispersión de ventas contra las variables de la mezcla de mercadotecnia

https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 7/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple

FIGURA 21.2 Relación entre Yy X1 en el modelo probabilistic

Y no está determinado de manera unívoca por un valor dado de Xi En vez de ello, lo único
determinado por este último valor es el “valor promedio” de Y. Cabe esperar que sus valores
fluctúen en torno a ese promedio.

La solución matemática para encontrar la línea de ajuste óptimo del modelo probabilistic requiere
de ciertos supuestos acerca de la distribución del término de error. La recta de ajuste óptima
podría definirse de maneras diversas. Es habitual considerar que es la línea que minimiza la suma
de desviaciones al cuadrado alrededor de la línea (la solución de cuadrados mínimos). Considere la
figura 21.2 y suponga que la línea trazada en la figura es una ecuación estimada. Use el acento
circunflejo (^) para indicar un valor estimado y el error en la observación z-ésima es la diferencia
entre el valor real de

Página 680 

Y, Yi, con el valor estimado de Y, Ŷi, es decir, ei = Y – Ŷi. La solución de cuadrados mínimos se basa
en el principio de que la suma de estos errores al cuadrado debe ser tan pequeña como resulte
posible, es decir, que se debe minimizar

Las estimaciones de muestras â1 y β̂1 de los parámetros poblacionales verdaderos â1 y β1 se


determinan para satisfacer esta condición.

Son tres los supuestos simplificadores del término de error en la solución de cuadrados mínimos:

1. La media o valor promedio del término de error es cero.

https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 8/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple

2. La varianza del término de error es constante e independiente de los valores de la variable de


predicción.
3. Los valores del término de error son independientes entre sí.

Dados estos supuestos, es posible despejar fórmulas para obtener estimaciones seguras de los
parámetros poblacionales â1 la intersección, y β la pendiente, pero es más usual calcularlos
mediante computadora.6

Si se usan los datos del anexo 21.1 respecto de ventas (Y) y anuncios televisivos mensuales (X1), las
estimaciones de â1 y β serían 135.4 y 25.3, respectivamente.7 La ecuación se representa
gráficamente en la figura 21.3. La pendiente de la recta está dada por β1. El valor de ésta, 25.3,
hace suponer que las ventas aumentan en 25 300 dólares por cada unidad de aumento en los
anuncios televisivos. Como se mencionó, se trata del estimado de una condición poblacional
verdadera basada en una muestra específica de 40 observaciones. Sin duda alguna, otra muestra
distinta generaría un estimado diferente. Por añadidura, todavía no se ha planteado si se trata de
un resultado estadísticamente significativo o que podría haber ocurrido al azar. No obstante, es un
elemento de información de suma importancia, que ayuda a determinar si el gasto en publicidad
vale su rendimiento esperado. El estimado del parámetro de intersección es â1 = 135.4, lo cual
indica dónde cruza la recta al eje Y, puesto que se trata del valor estimado de Y cuando la variable
de predicción es igual a cero.

FIGURA 21.3 Gráfica de la ecuación que relaciona las ventas con los anuncios televisivos
https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 9/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple

Página 681 

Error estándar de la estimación


El examen de la figura 21.3 muestra que, a pesar de que la línea parece encajar razonablemente
bien en los puntos, todavía existe desviación de éstos en torno a ella. La magnitud de su desviación
mide el ajuste. Es posible calcular una medición numérica de la variación de los puntos alrededor
de la línea, de manera similar al cálculo de la desviación estándar de una distribución de
frecuencias. Al igual que la media de la muestra es una estimación de la media verdadera de la
población original, la recta dada por Ŷi = â1 + β1Xi1 + ei es una estimación de la recta de regresión
verdadera, Yi = â1 + β1Xi1 + ∊i. Considere la varianza del error aleatorio ∊ en torno a la recta de
regresión verdadera σ2∊ es decir, σY/X2. Cuando se desconoce la varianza poblacional σ2, una
estimación sin sesgo está dada por la raíz cuadrada de la desviación estándar de la muestra, ŝ, a
saber:

En forma similar, suponga que sY/X2 es una estimación sin sesgo de la varianza poblacional
alrededor de la recta de regresión, σY/X2. Ahora bien, puede demostrarse que la estimación de la
muestra de la varianza alrededor de la recta de regresión se relaciona con la suma de los errores al
cuadrado; de manera específica, es igual a:

donde n es nuevamente el tamaño de la muestra, y sY/X2, el estimador sin sesgo de σY/X2, con Yi y Ŷi
como valores observado Y estimado de Y para la observación i-ésima. La raíz cuadrada de esa
cantidad, sY/X, se llama frecuentemente error estándar de la estimación, si bien es más descriptivo
el término desviación estándar de la regresión.

Error estándar de la estimación

Término usado en el análisis de regresión para referirse al valor absoluto de la variación en la


variable de criterio, que se deja sin explicación, o que no cuenta, en la ecuación de regresión
ajustada.
https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 10/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple

La interpretación del error estándar de la estimación guarda paralelismo con el de la desviación


estándar. Considere un valor Xiy. El error estándar de la estimación significa que Yi (ventas) tiende a
distribuirse en torno al valor Ŷi correspondiente –el punto en la recta– con desviación estándar
igual al error estándar de la estimación, con cualquier valor dado Xi1 de anuncios televisivos.
Además, la variación en torno a la línea es la misma en toda la longitud de la recta. La media
aritmética, que es el punto en la recta, cambia al hacerlo Xi1; pero la distribución de los valores Yi
alrededor de la línea no se modifica con el número de anuncios televisivos. En la figura 21.4 se
muestra la situación en el supuesto de que el término de error tiene distribución rectangular, por
dar un ejemplo.8 Note que

FIGURA 21.4 Distribución rectangular del término de error

Página 682 

el supuesto de sY/X constante sin importar el valor de Xi1 produce bandas paralelas en torno a la
recta de bandas paralelas en torno a la recta de regresión.

Cuanto menor sea el error estándar de la estimación, mayor será la coincidencia de la recta con los
datos. En el caso de la recta relacionada con las ventas y los anuncios televisivos se trata de sY/X =
59.6.

Inferencias acerca del coeficiente de pendiente


Se calculó anteriormente que el valor del coeficiente de pendiente β̂1 era 25.3. En dicho momento,
no se planteó la pregunta de si el resultado era estadísticamente significativo o aleatorio.

https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 11/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple

Responder a dicha pregunta requiere un supuesto adicional, a saber, que los errores se distribuyen
de manera normal, no rectangular, como se había pensado. Empero, antes de continuar debe
resaltarse que los estimadores de cuadrados mínimos de los parámetros de la población original
son los mejores estimadores lineales sin sesgo de los parámetros poblacionales verdaderos, sin
importar la forma de la distribución del término de error. Basta que se satisfagan los supuestos
previos. Éste es un resultado notable del teorema de Gauss-Markov. Se requieren supuestos de
errores con distribución normal sólo si se pretende elaborar inferencias estadísticas acerca de los
coeficientes de regresión.

Puede demostrarse que si ∊1 son variables aleatorias de distribución normal, entonces β̂1 también
tiene distribución normal. En otras palabras, si se seleccionan muestras repetidas de la población
de territorios de ventas y se calcula un valor de β̂1 para cada muestra, la distribución de estas
estimaciones seria normal y centrada en el parámetro poblacional verdadero β1. Por añadidura, es
posible demostrar que la varianza de la distribución de los valores β̂1 o σβ̂12, es igual a:

Puesto que es desconocida la población (σY/X2, tampoco se conoce σβ̂2 y se precisa estimarla. Esta
estimación, que se denota como sβ̂2, se genera al sustituir σY/X con el error estándar de la
estimación sY/X:

Hasta este punto, la situación es la siguiente: dado el supuesto de errores de distribución normal,
β̂1 también tiene distribución normal, con media β1, y varianza a σβ̂2 desconocida. Puesto que se
carece de la varianza de la distribución de la muestra, es necesario usar un procedimiento similar al
utilizado cuando se derivó una inferencia de la media con desconocimiento de la varianza
poblacional. Ese conjunto de condiciones requiere una prueba t para examinar la significancia
estadística. La prueba de significancia de β1 tiene un requisito similar. La hipótesis nula consiste en
la ausencia de relación lineal entre las variables y la hipótesis alternativa, si existe tal relación, es
decir:

H0: β1 =0

Hα β1 ≠ 0

https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 12/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple

El estadístico de prueba es t = (β̂1 – β̂1)/sβ̂1, es decir, la pendiente estimada a partir de la muestra


menos la pendiente hipotética, resultado que se divide entre el error estándar de la estimación que
tiene distribución t con n – 2 grados de libertad. En el ejemplo:

Página 683 

Con un nivel de significancia de 0.05, el valor de t en tablas con v = n - 2 = 38 grados de libertad es


2.02. Puesto que el valor calculado de t excede su valor crítico, se rechaza la hipótesis nula; β̂1
difiere de cero en grado suficiente para justificar el supuesto de la relación lineal entre las ventas y
anuncios televisivos. Ahora bien, ello no significa que esa relación en verdad sea necesariamente
lineal, sino sólo que la evidencia indica que Y (ventas) cambia al hacerlo X1 (anuncios televisivos) y
que si se usan X1y la ecuación lineal podría tenerse una predicción de Y mejor que en caso de
simplemente omitir X1.

¿Qué pasa si no se rechaza la hipótesis nula? Como se señaló, β̂1 es la pendiente de la recta
supuesta sobre la región de observación e indica el cambio lineal en Y con el cambio de una unidad
en X1. Que no se rechace la hipótesis nula, de que β̂1 = 0, no significa que sea inexistente la relación
de Y y X1. Son dos las posibilidades. En primer término, simplemente podría ser que se cometa un
error de tipo II al no rechazar una hipótesis nula falsa. En segundo lugar, sería factible que Y y X1
tengan una relación curvilínea perfecta y que se haya escogido el modelo incorrecto para describir
la situación verdadera.

Coeficiente de correlación
Hasta este punto, se ha analizado la relación funcional de Y con X. Suponga que también interesa la
intensidad de la relación lineal entre esas dos variables, lo cual lleva al concepto de coeficiente de
correlación. Se partió de dos supuestos adicionales al analizar el modelo de correlación. El
primero, que Xi es una variable aleatoria. Una observación de muestra permite obtener valores de

https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 13/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple

Xi y Yi. El segundo, que las observaciones provienen de una distribución normal de dos variables, es
decir, una en que la variable X tiene distribución normal, al igual que la variable Y.

Coeficiente de correlación

Término usado en el análisis de regresión para designar la fuerza de la relación lineal entre las
variables de criterio y predictivas.

Ahora bien, considere la representación gráfica de una muestra de n observaciones, de una


distribución normal de dos variables. Sea p la fuerza de la relación lineal entre dos variables en la
población original, y r la estimación de la muestra de p. Suponga también que la muestra de n
observaciones genera

FIGURA 2 1.5 Dispersión de puntos de una muestra de n observaciones

Página 684 

la dispersión de puntos que se presenta en la figura 21.5 y divida la figura en cuatro cuadrantes,
que se forman al trazar líneas perpendiculares a los ejes x̄ y ȳ.

Considere las desviaciones de estos bisectores. Tome cualquier punto P con coordenadas (Xi, Yi) y
defina las desviaciones:

xi = Xi – x̄

yi = Yi – ȳ

https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 14/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple

donde las minúsculas indican desviaciones en torno a una media. Está claro, con la observación de
la figura 21.5, que el producto Xiyi es:

Positivo en cualquier punto del cuadrante I


Negativo en cualquier punto del cuadrante II
Positivo en cualquier punto del cuadrante III
Negativo en cualquier punto del cuadrante IV

Por ende, parecería que es factible usar la cantidad

como medición de la relación lineal entre X y Y, y:

Si la relación es positiva, de modo que gran parte de los puntos se sitúa en los cuadrantes I y
III,

tiende a ser positiva.


Si la relación es negativa, con muchos de los puntos en los cuadrantes II y III,

tiende a ser negativa.


Si no existe relación entre Xy Y, los puntos se dispersan en los cuatro cuadrantes y

tiende a ser muy pequeña.

No obstante lo anterior, la cantidad

tiene dos defectos como medida de la relación lineal entre Xy Y. El primero, que se puede
incrementar arbitrariamente con la inclusión de más observaciones, es decir, al incrementar el
tamaño de la muestra. El segundo, que también puede recibir influencia arbitraria del cambio en la
unidad de medición de X, Y o ambas, por ejemplo, al cambiar de metros a centímetros. Estos
defectos pueden eliminarse al hacer que la medición de la fuerza de la relación lineal sea una
cantidad sin dimensiones y dividir entre n. El resultado es el coeficiente de correlación pear-
soniano o de producto-momento, a saber:

https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 15/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple

donde sX es la desviación estándar de la variable X, y sy, la desviación estándar de la variable Y.

El coeficiente de correlación calculado a partir de los datos de la muestra es un estimado del


parámetro de la población original p, y una parte del trabajo del investigador es usar r para poner a
prueba hipótesis acerca de p. Ello resulta innecesario en el ejemplo, ya que la prueba de la
hipótesis nula Ho: β1 = 0 es equivalente a la prueba de la hipótesis nula Ho: β = 0. En virtud de que
ya se realizó esta última prueba, la evidencia de la muestra lleva al rechazo de la hipótesis de que
no existe relación lineal entre las ventas y los anuncios televisivos, es decir, al rechazo de Ho: p = 0.

El coeficiente de correlación de producto-momento puede variar de – 1 a +1. La correlación positiva


perfecta, en que un aumento dado de X determina con exactitud otro de Y, tiene coeficiente +1. La
correlación negativa perfecta, en que un incremento de X determina exactamente una disminución
de Y, produce un coeficiente –1. En la figura 21.6 se ilustran estas situaciones y otros diagramas de
dispersión y sus coeficientes de correlación respectivos. El examen de estos diagramas brinda
cierta apreciación de la magnitud del coeficiente de correlación relacionado con un grado de
dispersión específico.

Página 685 

https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 16/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple

FIGURA 21.6 Ejemplos de diagramas de dispersión y sus coeficientes de correlaciónFuente: Ronald.


E. Frank, Alfred A. Kuehn y William F. Massy, Quantitative Techniques in Marketing Analysis,
Homewood, IL., Richard D. Irwin, 1962, p. 71. Reproducido con autorización.

El cuadrado del coeficiente de correlación es el coeficiente de determinación. Ciertas


manipulaciones algebraicas permiten demostrar que es igual a:

Coeficiente de determinación

Término usado en el análisis de regresión para denotar la proporción relativa de la variación total
en la variable de criterio que puede explicarse mediante la ecuación de regresión ajustada.

es decir, r2 = 1 menos el error estándar del estimado al cuadrado, dividido entre la varianza de la
muestra de la variable de criterio. A falta de variable de predicción, el mejor estimado de la variable
de criterio sería la media de la muestra. Si hubiera poca variabilidad en las muestras de un
territorio a otro, la media de la muestra sería un buen estimado de las ventas esperadas en
cualquier territorio. Empero, la variabilidad considerable haría que fuese una estimación deficiente.
Así, la varianza de las muestras, sY 2, es una medición del grado de “deficiencia” de ese
procedimiento de estimación. La introducción de la covariable X podría mejorar los estimados de
las ventas por territorio. Ello depende

Página 686 

de cuan bien se adecué la ecuación a los datos. Puesto que sY/X 2 mide la dispersión de los puntos
en tomo a la recta de regresión, puede considerarse que es una medición de cuan “deficiente” es
un procedimiento de estimación que toma en cuenta la covariable. Ahora bien, si sY/X2 es de poca
cuantía en relación con sY/X 2, sería factible afirmar que añadir la covariable mediante la ecuación
de regresión mejora sustantivamente las predicciones de la variable de criterio, las ventas. A la
inversa, cuando sY/x2 es aproximadamente igual a sY/X 2, se consideraría que agregar la covariable
X no sirve para mejorar las predicciones de Y. Por tanto, la proporción sY/X 2/sY 2 se conceptuaría
como la proporción de la variación que no se explica con la recta de regresión dividida entre la
variación total, es decir:

El miembro derecho de esta ecuación puede combinarse en una sola fracción, de modo que se
tenga:

https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 17/18
30/4/2020 Gale eBooks - Documento - Análisis de Correlación y de Regresión Simple

Al restar la variación inexplicada de la variación total, queda la “variación explicada”, o sea, la


variación de Y que se explica con la inclusión de X. De tal suerte, puede considerarse que el
coeficiente de determinación es igual a:

donde se entiende que la variación total se mide con la varianza de Y. En el ejemplo de las ventas y
anuncios televisivos, r2 = 0.77. Ello significa que 77% de la variación en las ventas de un territorio a
otro se explica con la variación de la publicidad televisiva entre territorios. Por consiguiente, la
estimación de las ventas en un territorio es mejor si se toman en cuenta los anuncios televisivos
que al hacer caso omiso de esa actividad publicitaria.

Texto completo: COPYRIGHT 2003 International Cengage Editores, S.A. de C.V.


Cita de fuente (MLA 8)   
Churchill, Gilbert6 A., Jr. "Análisis de Correlación y de Regresión Simple." Investigación de mercados,
4th ed., Cengage Learning, 1999, pp. 675-686. Gale eBooks,
https://link.gale.com/apps/doc/CX4058900232/GVRL?u=unad&sid=GVRL&xid=a2479593.
Accessed 30 Apr. 2020.

Número de documento de Gale: GALE|CX4058900232

https://go.gale.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41 18/18

También podría gustarte