Metinvsoccua Cap3-9a2016
Metinvsoccua Cap3-9a2016
Metinvsoccua Cap3-9a2016
INVESTIGACIÓN
SOCIAL
CUANTITATIVA
Pedro López-Roldán
Sandra Fachelli
METODOLOGÍA DE LA
INVESTIGACIÓN
SOCIAL
CUANTITATIVA
Pedro López-Roldán
Sandra Fachelli
Pedro López-Roldán
Centre d'Estudis Sociològics sobre la Vida Quotidiana i el Treball (http://quit.uab.cat)
Institut d’Estudis del Treball (http://iet.uab.cat/)
Departament de Sociologia. Universitat Autònoma de Barcelona
pedro.lopez.roldan@uab.cat
Sandra Fachelli
Departament de Sociologia i Anàlisi de les Organitzacions
Universitat de Barcelona
Grup de Recerca en Eduació i Treball (http://grupsderecerca.uab.cat/gret)
Departament de Sociologia. Universitat Autònoma de Barcelona
sandra.fachelli@ub.edu
PRESENTACIÓN
PARTE I. METODOLOGÍA
I.1. FUNDAMENTOS METODOLÓGICOS
I.2. EL PROCESO DE INVESTIGACIÓN
I.3. PERSPECTIVAS METODOLÓGICAS Y DISEÑOS MIXTOS
I.4. CLASIFICACIÓN DE LAS TÉCNICAS DE INVESTIGACIÓN
Pedro López-Roldán
Sandra Fachelli
Capítulo III.9
Análisis de regresión
Capítulo 9
Análisis de regresión
E
l análisis de regresión, o el llamado modelo lineal de la regresión, es un método
estadístico basado en el estudio de la relación entre variables medidas con una
escala cuantitativa. La relación que se establece es de dependencia, así, por un
lado tenemos las llamadas variables criterio, dependientes o explicadas, de
otro, las variables predictivas, independientes o explicativas1. El objetivo de esta
técnica consiste en determinar la contribución de la variable independiente (análisis de
regresión simple) o las variables independientes (análisis de regresión múltiple) en la
explicación de la variable dependiente a través de un coeficiente para cada variable que
indica la importancia relativa de cada una en la explicación de la variabilidad de la
variable dependiente, como suma de efectos que se expresa en la ecuación general de
un modelo lineal de la forma siguiente:
Yi 1 X 1 2 X 2 p X p Ecuación 1
Variables independientes
Variable Error
dependiente
Constante
En este sentido es una técnica que razona de forma similar al análisis de varianza que
vimos en capítulo anterior, si bien en el ANOVA las variables independientes son
cualitativas. Con variables cuantitativas, la formalización de las relaciones entre las
variables se establece a partir del concepto central de correlación (lineal), una medida
que cuantifica el grado de relación (lineal) que se da entre las variables.
1 También veremos cómo el análisis de regresión se puede realizar con variables independientes cualitativas.
6 | III. Análisis
2 Con hemos destacado en otra ocasiones en este manual la causalidad no se deriva necesariamente de distinguir y
formalizar relaciones entre una variable dependiente y una o más independientes. Hablamos de dependencia y de
factores que son determinantes de una variable de respuesta entendiendo que existe una relación funcional (la
ecuación de regresión) que establece el vínculo estadístico entre ellas sin que ello presuponga establecer una relación
de causalidad. Para ello debemos sustentarnos en una teoría que así lo razone y en un diseño de análisis que así lo
establezca.
El modelo algebraico que adoptamos es de la relación lineal, la que tiene una imagen
gráfica de línea como se comenta a continuación y que denominamos recta de
regresión. A partir de la consideración de dos variables, una dependiente y una
independiente, la relación entre ambas se puede representar gráficamente a través de
un diagrama de dispersión donde cada punto representa un individuo o un caso con
las coordenadas sobre los ejes cartesianos, de abscisas (eje horizontal) y de ordenadas
(eje vertical). Estas coordenadas son las puntuaciones o valores en las variables
consideradas. El Gráfico III.9.1 adjunto ilustra la representación de un conjunto de 18
puntos a partir de dos variables: y, los ingresos (en euros, por día trabajado), y x, la
edad (en años). Así, por ejemplo, se destaca en el gráfico en punto del individuo que
tiene de coordenadas el par (30,75), es decir, 35 años de edad y un valor de ingresos
de 75 euros diarios. El conjunto de todos ellos configura una nube de puntos con una
disposición específica. Cuando esta disposición de los puntos es alargada con la forma
representada en el Gráfico III.9.1, la relación entre las dos variables se puede expresar
y formalizar ajustando la nube de puntos a la función matemática de una recta:
expresamos y substituimos la nube de puntos por una línea recta. Esta función es la
llamada recta de regresión, es la regresión de y sobre x, de la variable dependiente
(criterio o explicada) y sobre la variable independiente (predictiva o explicativa) x, y se
fundamenta en un modelo matemático que persigue, primero, describir linealmente la
relación entre y y x, segundo, hacerlo con una determinada capacidad explicativa del
comportamiento de y en función de x (la cuantificación de su grado de relación), y,
tercero, predecir, para un valor de x el valor de y.
ŷ a bx
(30,98
y : Ingresos
ei
(30,75
eje de abscisas
x : Edad
Así pues, los puntos en el gráfico representan los valores observados, los pares (x,y),
es decir, el comportamiento observado en la distribución conjunta de una muestra de
una determinada población, si bien también se podría tomar en consideración el
conjunto de todos los datos de esa población. En la figura del Gráfico III.9.1 se ve que
el conjunto de puntos tiene una orientación lineal lo que nos invita a suponer que esta
tendencia global es la de la población observada. Pero lo que buscamos es una recta (o
Si observamos los puntos del gráfico, todos ellos, a excepción de los situados sobre la
misma recta, guardan una distancia vertical (y perpendicular al eje de abscisas) con
respecto a la recta de regresión que depende de cada punto y no de la x que da la recta
de regresión. Estas distancias que dependen de otros factores que no son x, siempre
aleatorios, los denominamos errores ei. Por lo tanto cada valor de yi, para cada
observación o individuo i, es la suma del valor en la recta de regresión para cada xi,
más el error que se comete ei tal que:
yi a bxi ei Ecuación 3
y, por tanto,
yi yˆi ei Ecuación 4
Se trata pues de buscar la recta de regresión que mejor se ajuste a la nube de puntos,
es decir, la que minimiza las desviaciones o las distancias de todos los puntos en
relación a esta recta. Una vez obtenida podremos describir la relación entre ambas
variables y cuantificarla, establecer un grado de terminación de y en función del
conocimiento de x y, por tanto, predecir cuáles serán los valores probables de y cuando
se conoce x.
Existen numerosos ejemplos que pueden mostrar este tipo de relaciones, como los que
se muestran en el Gráfico III.9.2. Se puede observar la relación positiva entre la tasa
de ocupación y la tasa de fecundidad: cuanto mayor es la ocupación mayor es la
fecundidad en los diversos países desarrollados considerados. Se puede ver la relación
inversa entre la tasa de criminalidad y la percepción de inseguridad: curiosamente,
cuanto mayor es la tasa de criminalidad por 100.000 habitantes menor es el porcentaje
de los que declaran sentirse inseguros.
La representación gráfica de las puntuaciones para todos los individuos da lugar a una
nube de puntos que muestra en ambos casos la existencia de una relación lineal de
asociación entre las variables. Pero nos encontramos ante dos situaciones claramente
diferentes. Por un lado, observamos el gráfico (a) que a medida que aumenta la edad
también aumentan los ingresos, la variación de ambas variables se encamina en el
mismo sentido, se dice que la relación o la correlación es positiva: a más edad más
ingresos. Por otro lado, el gráfico (b) también muestra la existencia de relación pero en
este caso en sentido negativo, las dos variables varían en sentido inverso, a medida que
aumentan los ingresos la valoración del producto decrece, varían de forma
concomitante en sentido contrario, la correlación es pues negativa, cuanto más rico
menos se valora. Ambas situaciones indican visualmente la existencia de correlación
que se expresará de forma precisa y cuantificada a través del cálculo del coeficiente de
correlación de Pearson r. Veremos seguidamente que este coeficiente es un valor que
varía entre 0 y 1, en función de que la correlación sea menor o mayor, y tendrá un
signo positivo o negativo que expresará la direccionalidad de la correlación. La mayor
o menor intensidad de la relación se traduce gráficamente en la mayor o menor
dispersión de los puntos entorno a la recta de regresión, cuanto más próximos estén
los puntos de la recta de regresión y, por tanto, más se parezcan a una línea recta mayor
será la fuerza o intensidad de la relación.
La covarianza syx expresa la cantidad de varianza común entre las dos variables, y su
fórmula es:
n
(y i y )( xi x )
SPD yx Ecuación 6
cov( y , x ) s yx i 1
n 1 n 1
El valor de la covarianza es mayor cuanto más más intensa es la relación lineal entre
las variables y el signo expresa la direccionalidad de la relación: en sentido positivo o
negativo. Un valor cero indica el valor mínimo y la ausencia de covariación. No
obstante, el valor máximo manifiesta un problema relevante pues dependen del grado
de dispersión de las variables y, en consecuencia, impide su interpretación como
medida relativa de la intensidad de la relación entre variables y muestras distintas. Para
solucionarlo se considera valorar el valor de la covarianza con respecto al valor máximo
que puede alcanzar en cada caso. El valor máximo de la covarianza entre dos variables
se sabe que es igual al producto de las desviaciones típicas de ambas variables, por lo
que dividiendo la covarianza en el máximo valor que puede alcanzar podemos
relativizarla. Esto es lo se hace cuando se calcula el coeficiente de correlación.
Cuadrante ( yi y ) ( xi x ) ( xi x ) ( yi y )
+ + +
− − +
+ − −
− + −
( y y) i
2
SCDy
var ( y ) s y2 i 1
y
n 1 n 1
n
(x x ) i
2
SCDx
var ( x) sx2 i 1
n 1 n 1
(y i y )( xi x )
SPD yx
ryx i 1
Ecuación 7
n n
SCD y SCDx
(y
i 1
i y) 2
(x x )
i 1
i
2
4 Se puede comprobar además que el resultado es equivalente a calcular la covarianza en las dos variables después
de tipificarlas o estandarizarlas. En ese caso la dispersión es siempre la misma independientemente de los datos y
del grado de dispersión original de las variables, pues las variables tipificadas siempre tienen una desviación típica
igual a 1.
Que podrían ser valorados, de forma orientativa y sin tener en cuenta el contexto en
el cual se aplican, de la forma siguiente:
5 En términos operativos la fórmula del coeficiente de correlación también se puede calcular con las tres siguientes
expresiones:
n n n
n y x i i y x i i
y x i i
i 1
n
i 1
i 1
xy
ryx i 1
ryx n
n
n n
n yi xi yi xi n
2
n
2
n
n 2
n yi n xi yi xi
2
ryx i 1 i 1 i 1
y 2 i 1 x 2 i 1
n 2 n 2 n 2 n 2 i i
i 1
y i 1 x 2
2
n n
n yi yi n yi yi
i 1
i 1
n
n
i 1 i 1 i 1 i 1
En la Tabla III.9.2 se han añadido una serie de columnas que facilitan la realización de
todos los cálculos manuales necesarios de la fórmula del coeficiente de correlación y
también de la regresión.
n y x i i
2000 666
y x
i i
i 1
n
i 1
79345
18
rV , E i 1
0,863
2
2
4000000 443556
n n
235900
27448
n yi n xi 18 18
y 2 i 1 x 2 i 1
i 1
i
n i 1
i
n
El resto de coeficientes se pueden obtener fácilmente a partir de los datos que hemos
reproducido.
Con la ayuda del software estadístico hemos realizado estos cálculos para todas las
correlaciones entre las tres variables, obteniendo los resultados de la Tabla III.9.3.
La correlación entre ingresos y edad es positiva y alta, mientras que las correlaciones
donde interviene la valoración del producto dan valores altos pero negativos: cuanta
más edad y más ingresos se tienen menos se valora el producto de consumo.
Con valores altos de correlación es de esperar que estos sean significativos desde un
punto de vista estadístico, sobre todo si la muestra es de un tamaño suficiente. Cuando
se obtiene un coeficiente de correlación se puede realizar una prueba estadística para
valorar la hipótesis nula de si el coeficiente poblacional, xy, es significativamente
distinto de cero o, por el contrario, las diferencias en relación al cero se deben al azar
y se puede concluir que no existe correlación.
A partir de una muestra aleatoria de valores (x,y) de n casos independientes entre sí,
de una población normal o con muestras suficientemente grandes (a partir de 30 casos),
la prueba estadística bilateral se plantea en los términos siguientes:
3. Determinación de la significación
Se estima la probabilidad asociada al estadístico a partir del valor concreto to del
estadístico t.6
En el caso del ejemplo podemos ver como todas las correlaciones son significativas, la
tabla anterior nos muestra en todos los casos una probabilidad de 0,000 de que no
haya correlación. En general, si la probabilidad asociada es inferior al valor 0,05 se
puede rechazar la hipótesis nula que afirma que el coeficiente de correlación es cero.
− En primer lugar hay que hacer notar que no siempre toda correlación significativa
expresa una dependencia entre las variables si no es sustentada por una
interpretación teórica-conceptual que establezca la pertenencia de esta relación,
debemos confirmar por tanto que esta correlación no sea espuria, que su vínculo
no esté mediado por terceras variable que son las que lo motivan7.
6 Con tamaños muestrales a partir de 50 casos se puede emplear también la distribución normal con el estadístico
siguiente: t ryx .
n
7 Como señaló Neyman (1952) que de la correlación existente entre el número de cigüeñas y el número de niños y
niñas nacidos no se derivan que los niños/as los traigan las cigüeñas. También se puede observar una correlación
en los ingresos y la altura de las personas ¿a qué se debe? a que los ingresos son mayores entre los varones que entre
las mujeres y, como los primeros son más altos, ingresan más frente a las mujeres, las que son menos altas. La
aparente correlación inicial es falsa pues está modulada por el sexo de las personas.
Tabla III.9.4. Correlación entre la Esperanza de vida, la Renta per cápita y los Años
de escolarización de los países del mundo
Lifeexpectancy Schooling GNIpercapita2011
Lifeexpectancy 1 0,729 0,608
Correlación de
Pearson
Schooling 0,729 1 0,560
GNIpercapita2011 0,608 0,560 1
Lifeexpectancy 0,000 0,000
Significación
bilateral
Schooling 0,000 0,000
GNIpercapita2011 0,000 0,000
Suma de Lifeexpectancy 14.994 3.663 18.644.175
cuadrados y Schooling 3.663 1.740 5.876.421
productos
cruzados GNIpercapita2011 18.644.175 5.876.421 63.869.667.100
Lifeexpectancy 78,915 19,691 99.171
Covarianza Schooling 19,691 9,356 31.594
GNIpercapita2011 99.171 31.594 337.934.747
Lifeexpectancy 191 187 189
Casos Schooling 187 187 187
GNIpercapita2011 189 187 190
Si con esta transformación volvemos a calcular los coeficientes de correlación entre las
variables obtenemos otras medidas más elevadas que no se expresaban con
anterioridad (Tabla III.9.5). En concreto, la correlación entre entre la esperanza de vida
y la renta per cápita ahora es del 0,802, una correlación incluso más alta que la que
manifiesta con los años de escolarización.
► Ejercicio 1.
A partir de la variable y (por ejemplo las notas de una asignatura) elegimos los valores
de las variables v, w, x, z (por ejemplo las horas de estudio) que se corresponden con
las situaciones siguientes:
a) y,x tienen correlación perfecta positiva
b) y,v tienen correlación perfecta negativa
c) y,w tienen correlación nula
d) y,z tienen una correlación alta positiva
s yx (y i y )( xi x )
SPD yx 2
ryx i 1
1
s y sx n n
SCD y SCDx 4 1
(y
i 1
i y ) 2 ( xi x ) 2
i 1
donde Yi son los valores de yi dados por la recta de regresión para cada xi, siendo a y b
los parámetros del modelo y ei el término de error o residuo, es decir, la diferencia
entre el valor observado yi y el dado por la recta de regresión Yi . En el Gráfico III.9.10
se representa esta información del modelo.
Los valores de a y b se refieren a los valores observados y, por tanto, son el resultado
de medidas y de muestras observadas, por lo que los valores para toda la población no
coincidirán con estas estimaciones muestrales. Cuando trabajamos con muestras de la
población hacemos estimaciones de los parámetros verdaderos: a y b serán una
estimación más o menos buena de los valores correspondientes al total de la población
y . Así pues obtenemos de una recta de regresión muestral que estima la recta de
regresión poblacional:
8 Habitualmente trabajamos con muestras estadísticas donde este razonamiento es necesario, pero si los datos son
poblacionales la inferencia no es relevante y la descripción del modelo de regresión resultante se realiza al margen
de las condiciones inferenciales, no obstante, otras condiciones como la linealidad deberán verificarse.
b) Hipótesis adicionales (modelo inferencial) que aseguran que a y b son las mejores
estimaciones de los parámetros poblacionales y se pueden aplicar las pruebas de
hipótesis.
Con el modelo especificado se trata de calcular los parámetros del mismo a y b que
son los que definen la recta de regresión. Para ello se precisa un método de ajuste de
la nube de puntos a la recta. El método que se emplea es aquel que hace mínimo el
error que se comete al predecir los valores de la variable dependiente, es decir, ei, la
diferencia entre el valor de la variable yi, para cada individuo, y el valor Yi de esta
variable obtenido con la recta de regresión. Por tanto, el que minimiza las distancias
verticales de todos los puntos a la recta (ver Gráfico III.9.10). El ajuste se hace por el
método de mínimos cuadrados ordinarios (MCO), método matemático que consiste
en calcular los coeficientes a y b de forma que la suma de los cuadrados de los errores
sea mínima:
n n n
Min ei ( yi Yˆi ) 2 ( yi a bxi ) 2 Ecuación 8
i 1 i 1 i 1
y i x i Ecuación 9
a i 1
b i 1
y bx
n n
n n
n y x i i n
yi xi i 1
n
i 1
(y i y )( xi x )
SPDyx
b i 1
2
i 1
n
Ecuación 10
n SCDx
n xi ( xi x )2
xi i 1
i 1
i 1
2
De la Ecuación 9 se deriva que la recta de regresión pasa por el punto ( x , y ) . Con estos
valores la recta de regresión se puede expresar como:
Yˆi a bxi y b ( xi x ) Ecuación 11
Si aplicamos estas fórmulas al caso anterior del análisis de la relación entre la valoración
del producto de consumo considerada como variable dependiente para ser explicada
en función de los ingresos obtenemos los siguientes resultados:
n n
n yi xi 281 2000
y x i i
i 1 i 1
n
29130
18
b i 1
0,153
(2000) 2
2
n
n xi 235900
18
xi2 i 1
i 1 n
El valor que se obtiene de la recta de regresión para cada valor xi representa la media
prevista de los valores de la valoración de yi para los individuos que tienen unos
ingresos de una cantidad determinada. En este sentido podemos predecir cuál será el
grado en que una persona es más o menos favorable en relación al producto. Por
ejemplo, la valoración media que cabe esperar de una persona con unos ingresos de 80
euros será de 20,6:
Yˆi 32, 61 0,15 80 20, 6
En los datos del ejemplo tenemos un caso observado con unos ingresos de 80 euros
que realiza una valoración de 22 puntos en la escala. En este caso, y en todos los casos
con unos ingresos de 80, se espera que en promedio valoren el producto en 20,6. Por
tanto, en este caso se genera un residuo, un valor por encima del esperado por la recta
de regresión, de 22-20,6=1,4.
Hay que tener en cuenta, como hemos comentado, que los valores que se pueden
predecir, los que tienen valor estadístico, son aquellos que se obtienen a partir de
valores de la variable independiente que estén en un rango de variación limitado por
los valores observados en la muestra.
Por otra parte, un aspecto que también hay que destacar es que las variables x e y de la
recta de regresión se han considerado en su propia unidad de medida. Cuando
introduzcamos una segunda variable independiente en un modelo de regresión
múltiple será necesario hacer comparables las variaciones de cada variable
independiente en una misma unidad de medida por lo que habrá que estandarizarlas.
Lo veremos más adelante. En la Tabla III.9.6 podemos ver que los coeficientes
aparecen primero sin estandarizar y luego estandarizados o tipificados. Cuando se
estandarizan los coeficientes, llamados beta, se expresan en unidades de desviación
típica y el coeficiente de la constante es cero. Por tanto, la ecuación de regresión
estandarizada es Yˆi s 0, 892 xis . La variable independiente de ingresos tiene una
desviación típica de 28,365 euros mientras que la de la dependiente valoración es 4,865
puntos en la escala. Así, la ecuación estandarizada se interpreta de la forma siguiente:
por cada unidad de desviación típica que varíen los ingresos, es decir, por cada 28,365
euros más, la valoración cabe esperar que se vea reducida en 0,892 unidades de
desviación, es decir, en Yˆi s 0, 892 4, 865 4, 340 puntos. Es el mismo valor que se
obtendría en la ecuación de regresión no estandarizada:
Yˆi 32, 61 0,15 28, 365 4, 340 . En regresión simple el coeficiente de regresión
estandarizado coincide con el coeficiente de correlación entre las dos variables.
Con la ayuda del software estadístico los resultados de la estimación de los parámetros
de la recta de regresión que se obtienen son los que se reproducen en la Tabla III.9.6,
con la prueba de significación correspondiente y el intervalo de confianza. Como
podemos ver el coeficiente es significativo y podemos rechazar la hipótesis nula de que
sean nulos.
Si consideramos ahora el caso de la relación entre los ingresos y la edad con los datos
del ejemplo presentado nos encontramos con una relación de tipo lineal positiva
(Gráfico III.9.14).
Tomemos ahora el ejemplo de los datos sobre el Índice de Desarrollo Humano de los
países y efectuemos las regresiones simples entre la esperanza de vida al nacer
(Lifeexpectancy) como variable dependiente y las variables media de años de
escolarización (Schooling) y renta per cápita (GNIpercapita2011) como
independientes, se obtienen los resultados que se muestran en el Gráfico III.9.15, la
Tabla III.9.8 y la Tabla III.9.9.
En los dos casos nos encontramos unos coeficientes de regresión significativos que
muestran una relación positiva con la esperanza de vida, es decir, que a medida que
aumentan los valores de escolarización y de renta de un país aumenta la esperanza de
vida.
En el primer caso, por cada año de más de escolarización que tenga un país se espera
que la esperanza de vida aumente en 2,105 años. En el segundo, por cada dólar más de
producto interior bruto per cápita del país la esperanza de vida se espera que aumente
en 0,00029 años, o lo que es lo mismo, por cada 10.000 dólares de incremento de la
renta per cápita la esperanza de vida aumentará en 2,9 años.
España
Si miramos los datos para el caso de España, la renta per cápita es de 30.561,47 dólares,
mientras que su esperanza de vida es de 82,10 años. Si calculamos el valor de la recta
para el caso de España, esto es, el valor pronosticado por el modelo de regresión,
obtenemos este resultado: 17,161 + 13,499 × log10(30561,47) = 77,706 años, un valor
esperado que infraestima el valor observado de 82,10, generando un residuo positivo
de 82,10−77,706=4,393 años.
Si tuviéramos que realizar la predicción del valor Yˆi sin tener la información de la
variable independiente xi, una posible predicción sería dar el valor de la media de las yi
para todos los valores posibles de xi. En esta situación se ajustaría una recta de
regresión plana que pasaría por la media de y, eso significaría que ambas variables
serían linealmente independientes. Si lo hacemos así cometemos un error elevado e
igual a ( yi y ) , la distancia en negro en el gráfico. Si, por otro lado, utilizamos la
información de la recta de regresión el error será ( yi Yˆi ) , la distancia en rojo, menor
que la cantidad anterior porque el modelo ha explicado una parte de la desviación:
(Yˆi y ) , la distancia en verde. Por lo tanto, para un individuo i, la desviación total
respecto a la media de la muestra se descompone en dos partes: la desviación explicada
por el modelo de regresión y la desviación no explicada:
( yi y ) (Yˆi y ) ( yi Yˆi )
Esta distinción nos remite al planteamiento que hemos visto en el análisis de varianza
en el capítulo anterior. En este caso a partir de las componentes de la variable
dependiente en el contexto de un análisis de regresión.
( yi y )2 (Yˆi y )2 ( yi Yˆi )2
i 1 i 1 i 1
Ecuación 12
de donde:
n
SCDResidual SCDTotal b 2 ( xi x ) 2 Ecuación 14
i 1
Los cálculos del análisis de la varianza a partir de los resultados que presenta el software
estadístico se presentan en la Tabla III.9.13.
Las pruebas estadísticas que hemos presentado poseen una propiedad de interés: la
raíz cuadrada del valor de F es el valor del estadístico t. Se verifica que el cuadrado del
valor de t con k grados de libertad es un valor F con 1 y k grados de libertad: t2=F.
Por tanto, se concluye que podemos utilizar la t o la F para probar si el coeficiente b
de la regresión es o no igual a cero.
Si consideramos ahora el caso de la relación entre los ingresos y la edad, esta regresión
alcanza una capacidad explicativa del 73% según nos indica el valor del coeficiente de
► Ejercicio 2. Propuesto
Analizar la relación entre las variables Valoración del producto e Ingresos mediante
un análisis de regresión a partir de los resultados siguientes.
► Ejercicio 3. Propuesto
En un periódico apareció publicada la noticia siguiente con el titular: “Los países
europeos donde más barato es el tabaco suelen ser aquellos donde más se fuma”.
Con los datos que aparecen en la noticia y mediante un análisis de regresión analizar
si podemos llegar a esa conclusión.
► Ejercicio 4. Propuesto
Imagina los datos de cuatro situaciones de relación entre dos variables cuantitativas
(las notas obtenidas en un examen y las horas de estudio dedicadas), con 10
individuos, que correspondan a diferentes configuraciones de distribución de puntos
en el plano en un gráfico de dispersión:
− Desde la completa indeterminación.
− Pasando por un nivel moderado de determinación.
− Por un alto nivel de correlación.
− Y hasta la determinación completa en la relación entre las variables.
Adicionalmente, calcula a mano y/o con la ayuda del software estadístico, la
correlación, la recta de regresión y el R2.
donde los distintos coeficientes de regresión parciales bj, con j=1…p, se interpretan
como el efecto específico de cada variable independiente. De forma gráfica se
corresponden con las distintas pendientes del hiperplano que se ajusta a la nube de
puntos.
relación mediante un gráfico de dispersión. En cualquier caso, será posible obtener los
valores de esa ecuación aplicando también el método de mínimos cuadrado ordinarios,
aquél que minimiza la distancia vertical de cada punto al hiperplano, esto es, con dos
variables, el plano que mejor se ajusta a la forma de la nube de puntos, el que consigue
en definitiva obtener una combinación de las variables independientes que mejor
explica la variabilidad de la variable dependiente.
Esta ecuación de regresión ajusta un plano a la nube de puntos donde cada coeficiente
marca la pendiente de las dos dimensiones del plano (Gráfico III.9.19).
se resta a cada puntuación, cada valor del individuo y el valor de la media. En el caso
de las variables x e y:
y c yi y y x c xi x
4.1. La colinealidad
Cuando dos o más variables explican la variabilidad de la variable dependiente se
plantea la cuestión de hasta qué punto la relación entre las dos variables independientes
determina o condiciona el modelo explicativo. En regresión múltiple no se modeliza
necesariamente la interacción, se trata de analizar el efecto independiente de cada
variable, si bien es posible incluir la interacción entre las variables independientes para
reflejar mejor la aditividad del modelo mediante la inclusión del producto de las
variables que interactúan. Por ello es deseable elegir factores explicativos que no estén
altamente correlacionados entre sí pues ello afectará a nuestras estimaciones de los
parámetros. Si la multicolinealidad fuera perfecta, y una de las variables pudiera
expresarse como una una combinación lineal de las demás, entonces se podría alcanzar
una solución de la ecuación de regresión.
SCDRes
n p 1
9 Siendo sb j , donde s 2j es la varianza de la variable j y R 2j es el coeficiente de
( n 1) s (1 R 2j )
2
j
determinación obtenido en la regresión entre la variable independiente j y el resto de variables independientes.
cero sí que estaría relacionada con las demás. Se suele considerar el valor de 0,1 como
la referencia a partir de la cual cabe considerar que con valores inferiores nos
encontramos en una situación problemática de colinealidad.
Para Belsey (1991) los índices de condición se pueden valorar de la forma siguiente:
esta estimación de la bondad de ajuste, que tiende a elevarse por efecto del número de
variables y del número de casos, se calcula el Ry2, x1 , x2 ,... corregido o ajustado.
En el análisis de la esperanza de vida de los países del mundo se obtienen los datos de
la Tabla III.9.20 y de la Tabla III.9.21. En relación al modelo de regresión simple donde
se consideraba solamente la variable de renta per cápita (LogGNI), los resultados que
se obtienen permiten concluir que la capacidad explicativa mejora ligeramente como
resultado de incorporar la variable de escolarización (Schooling) para alcanzar un
coeficiente de determinación significativo de 0,668 (0,665 corregido por el número de
variables y de casos) frente al 0,643 anterior.
mide el grado de correlación neta entre dos variables, es decir, la correlación que queda
cuando se elimina, se controla, el efecto de las demás variables en estas dos. Su fórmula,
para el caso de tres variables, y considerando la correlación parcial entre las dos
primeras variables controlando por la tercera, es la siguiente11:
rx1 , x2 rx1 , x3 rx2 , x3
rx1 , x2 | x3 Ecuación 20
(1 rx21 , x3 )(1 rx22 , x3 )
11 La significación del coeficiente de correlación parcial, controlando por p variables, se establece a partir del
estadístico: t
rx1 , x2 | p n p 2 que sigue una distribución de una t de student con n−p−2 grados de libertad.
(1 rx1 , x2 | p )
Con los datos de nuestro ejemplo del IDH obtenemos la información de las
correlaciones tal y como se presenta en la Tabla III.9.22.
la variable LogGNI solamente: Ry2, x1 0, 641 , una diferencia pues de 0,027, es decir, de
un 2,7%. Esto es, con la ecuación de regresión donde está la variable LogGNI, la
incorporación de la variable Schooling contribuye a mejorar el ajuste del modelo en un
2,7%, el resultado de elevar al cuadrado el valor de la correlación semiparcial 0,165 y
multiplicar por cien.
R y2, p R y2, p*
R 2
Ecuación 23
y , x j | p*
1 R y2, p*
Sobre un conjunto de variables que son pertinentes para dar cuenta de la variable
dependiente se busca encontrar una selección de variables que expliquen la mayor parte
de la varianza explicada. Sabiendo que la incorporación de nuevas variables siempre
puede ayudar a mejorar el coeficiente de determinación no se trata de realizar un
ejercicio empiricista al margen de la necesaria reflexión teórico-conceptual de nuestro
modelo12, se debe procurar equilibrar la selección de variables que contribuyan a
mejorar la bondad de ajuste del modelo con un principo de parsimonia que exige la
práctica del conocimiento científico. Por tanto, se trata de seguir una dinámica de
selección que comporte una contribución sustantiva y estadísticamente signficativa.
Para ilustrar esta manera de proceder emplearemos el sencillo análisis de los datos del
IDH con el método de inclusión de variables Hacia adelante. Con este método se
selecciona en primer lugar la variable que tiene un mayor coeficiente de correlación
con la variable dependiente. A continuación se calculan los coeficientes de correlación
parciales de las variables no incluidas en la ecuación y la variable dependiente,
excluyendo, por tanto, el efecto de la variable ya incluida en la ecuación. La variable
con mayor coeficiente de correlación parcial se elige para ser incluida en la ecuación, y
se reitera el proceso con el resto de variables independientes. En ese proceso se emplea
el estadístico F para evaluar la signficación del cambio en el R213.
► Ejercicio 5. Propuesto
Con los datos del ejemplo de valoración del producto en función de los ingresos y
la edad visto en el apartado de regresión simple realiza un análisis de regresión
múltiple e interpreta los resultados: ecuación de regresión, bondad de ajuste del
modelo, colinealidad e importancia relativa.
Superiores
Primarios
x1 x2 x3
Primarios 1 0 0
Secundarios 0 1 0
Superiores 0 0 0
Para ilustrar el uso de la regresión múltiple con variables cualitativas se puede consultar
el análisis realizado por Fachelli y Planas (2016) sobre equidad en el acceso y en la
inserción profesional de los graduados universitarios14.
14 El informe “Equitat en l’accés i en la inserció professional dels graduats i graduades universitaris” se puede
obtener en esta página: http://www.aqu.cat/aqu/publicacions/insercio_laboral.html y el capítulo concreto al que
hacemos referencia en este apartado es: Fachelli, S. y Planas J. (2016) “Capítulo 1: Evolución de la inserción
profesional de los universitarios: de la expansión a la crisis duradera”, Barcelona: AQU, y se puede encontrar aquí
http://www.aqu.cat/doc/doc_10339347_1.pdf
6.1. Linealidad
La linealidad es una condición básica del modelo clásico de regresión. En regresión
simple se puede comprobar con el gráfico de dispersión y el cálculo del coeficiente de
correlación como vimos anteriormente. Adicionalmente se puede representar un
gráfico de dispersión con los residuos en el eje vertical y la variable independiente en
el eje horizontal15. Si la pauta de relación entre y y x es de tipo lineal la nube de puntos
que se configura no debe mostrar un patrón observable sino que los puntos deben
aparecer distribuidos aleatoriamente a lo largo del espacio del gráfico en torno al valor
cero de los residuos.
15 También se pueden representar los valores pronosticados por la ecuación de regresión en el eje horizontal en
vez de la variables independiente, y estos valores pueden estandarizarse también.
Cuando no se da una situación de relación de tipo lineal los residuos son considerables
y el ajuste de la recta de regresión es deficiente. Por eso hemos comentado que la
inspección visual, cuando es posible, es de gran ayuda. Pero disponer de una
configuración de puntos con una forma no lineal no significa necesariamente que no
podamos hacer un análisis de regresión. Si tenemos, por ejemplo, una configuración
de la nube de puntos que evidencia una relación exponencial se puede ajustar una recta
de regresión siempre que la variable independiente se transforme a través de una
función matemática, por ejemplo calculando el logaritmo. En la Tabla III.9.28 se
recogen distintas formas de curvas con la ecuación de la función matemática.
Lineal y a bx
Logarítmica y a b log( x )
Parabólica y a bx cx 2
Polinómica de grado n y ao a1 x an x n
Exponencial y a ebx
Potencial y a xb
b
Inversa y a
x
b
a
Curva S ye x
6.2. Independencia
En un modelo de regresión lineal se establece la hipótesis de que los errores, la
diferencia entre el valor observado de la variable dependiente y el pronosticado, se
distribuyen con media cero y son independientes entre sí, es decir, que no están
autocorrelacionados, lo que implicaría el seguimiento de patrones de comportamientos
crecientes o decrecientes. Se trata de una situación que puede darse en el caso de datos
longitudinales donde se dispone de una serie de datos secuenciales que pueden
expresar comportamientos tendenciales en los residuos como cuando tenemos series
temporales. En esos casos las varianzas de los coeficientes de regresión son menores
(e e i i 1 )2
DW i 2
n Ecuación 24
e
i 1
2
i
que toma valores entre 0 y 4. Cuando los valores son próximos a 2 y, en general,
comprendios entre 1,5 y 2,5, se considera que los residuos son independientes. Los
inferiores indicarían autocorrelación positiva y los superiores autocorrelación negativa.
6.3. Normalidad
El supuesto de normalidad es una condición relevante en el ejercicio de inferencia del
modelo de regresión y para poder extraer conclusiones adecuadas sobre la significación
de los coeficientes de regresión a la hora de estimar los valores de la variables
dependiente. Los errores que cometemos en ese ejercicio de estimación a partir de cada
valor de las variables independientes se exige que sigan una distribución normal. El
contraste sobre la forma de la distribución normal, así como el histograma de los
residuos y el gráfico de probabilidad normal (gráfico Q-Q) permiten detectar el posible
incumplimiento del supuesto de normalidad.
Kolmogorov-Smirnova Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
Residuos 0,188 18 0,093 0,953 18 0,469
a. Corrección de significación de Lilliefors
En este caso la pruebas estadísticas arrojan una probabilidad superior a 0,05 que
permiten mantener la hipótesis nula de normalidad. Los gráficos muestran esta
conclusión por el alineamiento a lo largo de la recta en el gráfico Q-Q normal así como
una distribución aleatoria de los puntos en el gráfico Q-Q normal sin tendencia.
6.4. Homoscedasticidad
En regresión lineal es relevante también el supuesto según el cual la varianza de los
errores debe ser la misma para cada valor de la independiente (homoscedasticidad). Si
la varianza de los errores no es constante las estimaciones de los coeficientes de
regresión se hacen imprecisas, no se obtienen varianzas mínimas (bajas) cuando se
aplica la regresión por mínimos cuadrados ordinarios (MCO), el procedimiento
habitual. Para detectar la heteroscedasticidad suele construir un gráfico de dispersión
entre los residuos y los valores de la variable dependiente estimados por la regresión,
o bien con la variable independiente, como el comentado anteriormente del Gráfico
III.9.20.
Los residuos, la diferencia entre el valor observado y el valor estimado por la regresión
( ei yi Yi ), reflejan el grado de error que cometemos al expesar los datos observados
en la muestra por los de la recta de regresión. De ello se deriva que los casos más
extremos son los que tendrán un valor absoluto mayor. Estos valores se suelen
estandarizar, dividiendo por la desviación típica de los residuos, con lo que tendremos
un estadístico de puntuaciones típicas que sigue una distribución normal. Los residuos
estandarizados o tipificados eiz se expresan como:
yi Yi
ei
z
Ecuación 25
VRe s
donde VRes es la varianza o media cuadrática de los residuos o errores del modelo, y
tienen una distribución con media 0 y desviación típica 1.
Es posible también considerar los residuos studentizados, estos es, a partir de tipificar
los residuos en relación al propio error típico de cada puntuación y no en relación al
promedio que representa VRes, siguiendo una distribución de t-student con n−p−1
grados de libertad. La expresión es:
yi Yi
ei
t
Ecuación 26
sei
donde sei es el error típico de los residuos. Con estos residuos podemos evaluar si un
caso concreto se aleja de forma significativa del valor pronosticado por la recta de
regresión. Si la muestra es suficientemente grande, el criterio anterior de considerar
valores superiores a 3 como casos extremos se aplica igualmente.
Junto al cálculo de estos estadísticos que nos informan de la presencia de estos casos
se pueden obtener representaciones gráficas de la nube de puntos que ofrecen una
forma visual de localizarlos. No obstante, cuando dispongamos de más de tres
variables en el análisis de regresión la información del estadístico será la única
referencia informativa y no dispondremos de una representación gráfica. El diagrama
de dispersión que se emplea para mostrar los casos atípicos sitúa en el eje horizontal
los valores pronosticados y los residuos en el eje vertical. Cuando se observa este tipo
de representación no debe aparecer ningún tipo de estructura en la secuencia de errores
(sobre todo temporal); parcialmente puede aparecer pero no debe ser constante.
El efecto de los casos influyentes se puede ver reflejado también en los valores
pronosticados calculando la diferencia tipificada para cada caso, los dffits (Belsey, Kuh
y Welsch, 1980). Los valores superiores a 2 ( p 1) n deben ser revisados.
Analizando los cambios en los valores de los residuos se pueden comparar los residuos
studentizados originales con los obtenidos como resultado de eliminar el caso en
cuestión. Si el caso es influyente el resultado de la diferencia será un valor diferente de
cero. Los casos que se corresponden a un residuo eliminado studentizado superior a 3
deberán ser revisados para evaluar las particularidades de su comportamiento y la
eventual eliminación en aras del mejor ajuste que configuran el resto de los casos que
son los típicos.
Utilizaremos tres procedimientos del SPSS destinados a reproducir los resultados del
análisis de la relación entre variables con el modelo de regresión:
También cambiaremos las marcas de los puntos y ajustaremos los valores de la escala
de los ejes quitando decimales y ampliando el número de marcas. La nueva
representación es como la siguiente:
Con la herramienta Ir a caso del menú Editar se puede ver en la matriz de datos el caso
que se seleccione en el gráfico.
Con las tres variables que consideramos de la matriz de datos del IDH podemos
realizar un diagrama de dispersión matricial para disponer de una representación
simultánea de todos los gráficos de dispersión por parejas de variables. Iremos al menú
Gráficos / Generador de gráficos y en el cuadro de diálogo principal, en la pestaña
Galería, elegiremos Dispersión / Puntos, y entre las diversas opciones haremos doble
clic sobre el gráfico de Dispersión Matricial. En el recuadro ¿Matriz de dispersión?
Incluiremos las tres variables Lifeexpectancy, GNIpercapita2011 y Schooling.
Donde se puede observar la relación no lineal que mantienen las variables variables
Lifeexpectancy, y Schooling con GNIpercapita2011. Para transformar la variable
GNIpercapita2011 por su logaritmo en base 10 generaremos una nueva variable de
nombre LogGNI, a través del menú Transformar / Calcular variable o a través de la
sintaxis con la instrucción siguiente:
COMPUTE LogGNI=LG10(GNIpercapita2011).
En este caso hemos traspasado las tres variables que analizamos Lifeexpectancy,
GNIpercapita2011 y Schooling al recuadro Variables para calcular las correlaciones
de Pearson bivariables entre todas ellas. Por defecto se hacen las pruebas de
significación en dos colas (bilateral) y se marcarán las correlaciones que sean
significativas.
Para completar las especificaciones de este procedimiento el botón de Opciones nos
ofrece la posibilidad de pedir varios estadísticos: la media y la desviación típica de cada
variable, y los productos cruzados de las desviaciones y las covarianzas para cada pareja
de variables. También controla el tratamiento de los valores perdidos.
Podemos ver que existe todo un conjunto de procedimientos que realizan también
regresiones en condiciones o métodos distintos. La regresión lineal clásica es la que
presentamos aquí.
En este caso hemos elegido la opción de obtener la tabla de las Estimaciones de los
coeficientes de regresión del modelo con su significación así como los Intervalos de
confianza, considerado un 95% de nivel de confianza. Por otra parte, la opción Ajuste
del modelo nos proporciona dos tablas, una de resumen del modelo donde se calcula
el coeficiente de determinación R2 para medir la capacidad explicativa y el poder de
predicción del modelo, y otra tabla que reproduce un análisis de varianza para
contrastar si el coeficiente de determinación poblacional es significativamente diferente
de cero. Marcaremos también la opción de Diagnóstico por caso para que se listen los
casos atípicos, aquellos que se alejan de la recta de regresión 3 unidades de desviación.
Si existen se puede optar por eliminarlos del análisis con el objetivo de mejorar el ajuste
de la recta de regresión.
Estos gráficos nos ayudan a validar los supuestos de normalidad, linealidad e igualdad
de las varianzas. También son de utilidad para detectar valores atípicos, observaciones
poco habituales y casos de influencia. En particular si representamos los residuos
tipificados con los valores pronosticados tipificados podemos contrastar la linealidad
de la relación y el supuesto de igualdad de las varianzas.
Hemos optado por guardar los Valores pronosticados por la recta de regresión,
estandarizados y no, así como los Residuos: absolutos, estandarizados y los
estudentizados. Adicionalmente, para realizar un estudio de los casos atípicos
influyente se pueden elegir los Estadísticos de influencia y e Distancias.
Se definen los criterios de probabilidad o valor crítico del método por pasos que se
aplican a los métodos de selección de variables definido en el cuadro de diálogo
principal, la inclusión de la constante en la ecuación y el tratamiento de valores
perdidos. Dejaremos las opciones por defecto que marca el procedimiento estadístico
del SPSS.
Para mejorar estos resultados ejecutaremos las mismas especificaciones del análisis de
regresión que acabamos de realizar pero con la variable transformada LogGNI. Los
Con esta ecuación de regresión observamos que en relación a la recta ajustada tres
países se encuentran a una distancia importante superior a las 3 unidades de desviación
de residuo estandarizado:
Podemos seguir mejorando el ajuste del modelo si eliminamos los tres casos extremos
que hemos encontrado. Si ejecutamos de nuevo el procedimiento sin esos tres países,
el coeficiente de determinación sube de 0,643 a 0,698:
Los resultados del análisis de regresión que se presentan seguidamente incluyen a todos
los casos, no se excluyen los tres países que en el anterior análisis se posicionaron como
extremos. Se han sido obtenido con las mismas especificaciones que vimos con
anterioridad introduciendo la variable Schooling como segunda variable
independiente:
Además, en Estadísticos, se han marcado las opciones que nos permite visualizar las
Correlaciones parciales y semiparciales así como los Diagnósticos de colinealidad:
Y en Gráficos se ha marcado Generar todos los gráficos parciales con cada variable
independiente:
La tabla de diagnósticos de los residuos para detectar casos extremos nos muestra que
los casos 119 (South Africa), 144 (Equatorial Guinea) y 148 (Swaziland) son los que
más se alejan de la recta de regresión. Los valores estandarizados o estudentizados
superiores a ±3 que pueden afectar a los resultados de la regresión y reducir su
capacidad explicativa. Para obtener una mejora en el ajuste del modelo proceder a
eliminar estos casos extremos, si lo hiciéramos en una nueva regresión el coeficiente
de determinación alcanzaría el valor del 72%.
Para ello se elegiría, por ejemplo, el método de introducción Hacia delante, entre otros
que dispone el SPSS:
En Plots marcaremos la opción Scatter Plots para obtener los gráficos de dispersión
conjuntos, mientras que mantendremos las especificaciones por defecto que se pueden
elegir a través del botón de Options.
nube de puntos el ajuste lineal no será muy bueno por lo que será necesario transformar
los datos para obtener un buen ajuste lineal.
Podemos solicitar que nos genere diversas variables que se obtienen con el análisis de
regresión a través del botón Export:
El resto de las especificaciones las dejamos por defecto. Podemos analizar los gráficos
que aparecen en las pestañas Diagnostics, Terms y Added Variable.
Una vez introducidas las variables y ejecutado el procedimiento con el resto de las
especificaciones por defecto se obtienen los resultados siguientes:
España
En el caso de España, que en el ranquin de países ocupa el lugar 27, con una renta per
cápita en 2011 de 30.561,47 dólares tenía una esperanza de vida de 82,1. Según la recta
de regresión el valor predicho de España es de 74,6, un error (un residuo) de 7,5 años
que infraestima la esperanza de vida.
Vemos por tanto que el ajuste de la recta de regresión presenta diversos problemas
derivados principalmente de la forma no lineal de la relación y la disposición
logarítmica de la nube de puntos:
España
En esta ocasión el valor predicho para España es de 77,71, un valor que se ajusta más
al valor observado. Se comprueba que este resultado se obtiene mediante el cálculo
17,161 + 5,863 × log(30.561,47), generando un residuo de 4,4 años, la diferencia entre
el valor observado 82,1 y el predicho 77,7.
18 La identificación se obtiene en Plot Builder añadiendo Text desde la pestaña de Geometric Elements.y eligiendo
la variable de identificación: HDIrank o Country.
Los gráficos que analizan las condiciones de aplicación siguen mostrando la ausencia
de normalidad, que no es problemática dado el número suficiente de casos, y la
presencia de casos extremos según muestra la distancia de Cook. No obstante mejoró
la disposición de los valores residuales respecto de los ajustados generando una línea
que se aproxima a una recta que permite concluir la ausencia de patrones diferenciados
y la idoneidad del análisis de regresión.
Los resultados que se obtienen permiten concluir, por un lado, que la capacidad
explicativa mejora ligeramente al alcanzar el coeficiente de determinación el valor 0,67
(0,66 corregido por el número de variables y de casos) frente al 0,64 anterior. Por otro,
que ambas variables contribuyen positivamente.
A través del menú Data / Transform procedemos a estandarizar las tres variables y les
asignamos los nombres YS, X1S y X2S.
La variable de renta representa un 39% (el 58% del total) y la variable educativa un
28% (el 42% del total).
Hemos observado una correlación alta entre las variables independientes, de 0,78,
indicativa de un cierto grado de colinealidad. La (multi)colinealidad no afecta a la
predicción de los valores de la variable dependiente, y el R2 puede ser elevado, pero sí
a las pruebas estadísticas ya que cuando más importante sea la colinealidad mayor será
el error típico de los coeficientes de regresión, aumentando la probabilidad de no
significación de estos coeficientes (aumentan los intervalos) a pesar de que las variables
independientes correspondientes determinen la variable dependiente. Para determinar
su importancia hemos solicitado el estadístico VIF para su diagnóstico:
La regla empírica de Kleinbaum señala que valores del VIF superiores a 10 implican
problemas reales de colinealidad. Por tanto, no estaríamos en tal caso.
Por último podríamos proceder a eliminar los casos extremos e influyentes para ver si
se obtiene una mejora en el ajuste del modelo. Si miramos los residuos estudentizados
podemos detectar valores superiores a ±3 que pueden afectar a los resultados de la
regresión y reducir su capacidad explicativa. Los casos 144 (Equatorial Guinea) y 148
(Swaziland) son los que más se alejan de la recta de regresión, si los eliminamos del
análisis el coeficiente de determinación alcanza el 70%.
9. Bibliografía
Achen, C. H. (1982). Interpreting and Using Regression. Beverly Hills: Sage Publications.
Allison, P. D. (1984). Event History Analysis: Regression for Longitudinal Event Data. Beverly
Hills: Sage Publications.
Belsey, D. A. (1991). Conditioning Diagnostics: Collinearity and weak data in regression. New
York: John Wiley and Sons.
Belsey, D. A.; Kuh, E.; Welsch, R. E. (1980). Regression Diagnostics: Identifying Influencial
Data and Sources of Collinearity. New York: Wiley.
Berry, W. D. (1993). Understanding Regression Assumptions. Newbury Park, California:
Sage Publications.
Berry, W. D.; Feldman, S. (1984). Multiple Regression in Practice. Beverly Hills: Sage
Publications.
Bisquerra, R. (1987). Introducción a la estadística aplicada a la investigación educativa. Un enfoque
informático con los paquetes BMDP y SPSSX. Barcelona: Promociones y
Publicaciones Universitarias. Cap. 9.
Bisquerra, R. (1989). Introducción conceptual al análisis multivariable. Barcelona:
Promociones y Publicaciones Universitarias. Cap. 8.
Blalock, H. M. Jr. (1978). Estadística Social. 2a. edició. México: Fondo de Cultura
Económica. Cap. 13, 17 a 20.
Bosque, J.; Moreno, A. (1994). Práctica de análisis exploratorio y multivariante de datos.
Barcelona: Oikos-Tau. Cap. 2 y 3.
Bryman, A.; Cramer, D. (1990). Quantitative Data Analysis fpr Social Scientist. London:
Routledge.
Castro, C. (2010). Análisis de regresión para sociólogos con aplicaciones en R. Santiago
de Chile. http://www.bubok.es/libros/175431/Analisis-de-regresion-para-
sociologos
Chatterjee, S.; Price, B. (1977). Regression Analysis by Example. New York: John Wiley.
Cohen, J.; Cohen, P.; West, S. G.; Aiken, L. S. (2003). Applied Multiple
Regression/Correlation Analysis for the Behavioral Sciences. Mahwah, New Jersey:
Lawrence Erlbaum Associates.
Cook, R. D. (1979). Influential Observations in Regression Analysis. Journal of the
American Statistical Association, 74, 169-174.
Daudin, J. J. (1980). Régression qualitative: choix de l’espace prédicteur. En Data
analysis and Informatics, editado por E. Diday et al. Amsterdam: North-Holland,
324-345.
Doebreske, J.-J.; Tassi, Ph. (1990). Histoire de la Statistique. Paris: Presses Universitaires
de France.
Domenech, J. M.; Riba, M. D. (1983). Introducción al modelo lineal: regresión múltiple.
Bellaterra (Barcelona): Universitat Autònoma de Barcelona.
Domenech, J. M.; Riba, M. D. (1981). Una síntesis de los métodos estadísticos bivariantes.
Barcelona: Herder.
Domenech, J. M.; Riba, M. D. (1985). Métodos estadísticos. Modelo lineal de regresión.
Barcelona: Herder.
Draper, N. R.; Smith, H. (1998). Applied Regression Analysis. New York: Wiley. Third
Edition
Edwards, A. L. (1984). An introduction to linear regression and correlation. New York:
Freeman.
Etxeberría, J. (1999). Regresión Múltiple. Madrid. La Muralla.