Capitulo 14
Capitulo 14
Capitulo 14
g,mpRActIc.: ALLIANCE DATA SYSTEMS MoDELo pn ncRssrN r4.r LINEALSIMPLE Modelo regresin de y ecuacin regresin de
Ecuacin de regresin estimada
reesrAnfsrtce
Estimacin puntual Estimacin por intervalo Intervalo de confianza para el valor medio de y Intervalo de prediccin para un solo valor de v I4.7 SOLUCTNPOR COMPLTTADORAS
r4.2 rvrroooosMMos
r4T
t.i,,
DERESIDUALES:
ACrONESnrfplcas
ACIONES
...: :*
,,
. , . ,
',',, : ,
iirl
:., ,'
SnI,
llf{
l4.l
545
Sir Francis Galton ( I 822- I I ) fue el primero 19 en emplear los mtodos para cstudiar estadlsticos la rclacin entrcdos variables. Galton estabaintercsadoen estudiarla relacin entrela estaluradepae e (1857hijo. Karl Pearson 1936)awliz estarehcin pares depadrcen 1078 hijo.
las suelen basarse la relacinentredoso msvariables. en Por En la administracin, decisiones y puede permitira un gerpnobservar relacinentreel gastoen publicidad las ventas la ejemplo, a gastoen putratar de predecirlas ventascorrespondientes un determinado te de mercadotecnia de blicidad.O, una empresa serviciospblicospuedeemplearla relacinentrela temperatura las diaria y la demandade electricidadpara predecir la demandade electricidadconsiderando Algunasveces directivosse apoyan los diariasque seesperan messiguiente. el temperaturas en la Sin cuando posibletenerdaes la intuicinpaxajuzgar relacinentredosvariables. embargo, un tos, puedeemplearse procedimientoestadsticollamado anlisis de regresinpara obtener que una ecuacin indiquecul es la relacinentrelas vaiables. que a En la terminologa seemplea regresin, la variableque seva a predecirsele llama en variable dependiente. la variableo variables seusanparapredecir valor de la vaiable que A el Por se al el dependiente lesllamavariablesindependientes. ejemplo, analizar efectode los gascomolo quebusca gerente mercadotecnia predecir el de es las tos en publicidadsobrelas ventas, sern variabledependiente. la ventas, estoindicaquelas ventas En estecapltulose estudia tipo mssencillode anlisisde regresin el que interviene el en y y variauna variableindependiente una variabledependiente en el que la relacinentreestas bles es aproximada mediante una lnea recta.A estetipo de anlisisde regresin le conoce se lineal simple.Al anlisis regresin el queintervienen o msvariables de en dos comoregresn mltiple; el anlisisde regresin mltiple y los se independientes le llama anlisisde regresin en casos los que la relacines curvilneaseestudian los captulos15 y 16. en
llr.Nl
foy f t se conocen como los parmetrosdel modelo, y e (la letra gnega psiln) es una variable aleatana que s conoce como frmino del error. El trmino del error da cuenta de la variabilidad de y que no puede ser explicada pr la relacin lineal entre x y y.
546
lineol 14 Coptulo Regresin simple de Armand'spuedeversetambincomounacoleccin subde La poblacin los restaurantes est poblaciones, paracadauno de los valoresde.r. Por ejemplo,una subpoblacin formada una consta todoslos de otra de universitaios 8000estudiantes; subpoblacin por todoslos campus etc. de universitarios 9000 estudiantes; cercade los campus Armand'slocalizados restaurantes y y. de de hay Paracadasubpoblacin unadistribucin valores As, hay unadistribucin valores hay de cercade los campus 8000estudiantes; otra localizados quecorresponde los restaurantes a de cercade los campus ubicados distribucinde valoresy que corespondea los restaurantes y de distribuciones valores tienesuproCada y 9000estudiantes, assucesivamente. unade estas de que la A pia mediao valor esperado. la ecuacin describe relacinentreel valor esperado y, de es que sedenota E(x),y sele llama ecuacinde regresinLa siguiente la ecuacin regrelineal simple. sinparala regresin
E(y\= Fo+ fr
lr4.2l
de lineal simpleesunalnearecta;Boesla interseccin la de la La grficade ecuacin regresin de y con de regresin el eje !, flt es la pendiente E(y) es la mediao valor esperado y para rerta un valor dado de . Larecia de regresin de rectas regresin. de ejemplos posibles En la figura 14.1sepresentan con lz grrficaAindica que el valor medio de y estrelacionadopositivamente x. La rccta de de con negativamente r, regresindela grficaB indica que el valor medio de y estrelacionado de de a d" valoresmenores E(i corresponden valoresmayores . La rectade regresin la grficon.r; es decir,el valor el ca C muestra casoen el que el valor mediode y no estrelacionado mediode y esel mismoparatodoslos valoresde x.
Interseccin Lapendiente,
lnterseccbn Po
547
valores de los estadsticosmuestraleso y B,, se obtiene la ecuacin de regresin estimada La ecuacin de regresin estimada de la regresin lineal simple se da a continuacin.
(r4.31
A la grfica de la ecuacin de regresin simple estimada se le llama recta de regresin estimoda; bo es la interseccin con el eje y y b, es la pendiente. En la seccin siguiente se muestra el uso del mtodo de mnimos cuadradospara calcular los valores de boy brparala ecuacin de regresin estimada. En general, ! es el estimador puntual de (y), el valor medio de las y para un valor dado de . Por lo tanto, para estimar la media o el valor esperado de las ventas trimestrales de todos los restaurantes situados cerca de los campus de l0 000 estudiantes, Armad's tendr que sustituir en la ecuacin (14.3) x por 10 000. pero, en algunos casos, a Armand's lo que le interesar ser predecir las ventas de un determinado restaurante. Por ejemplo, supngase que Armand's desee predecir las ventas trimestrales del restaurante que se encuentra cerca de Talbot Collage, una escuelade l0 000 estudiantes.Resulta que la mejor estimacin de la y que conesponde a un determinado valor de x es tambin la proporcionada por !. Por lo tanto, para predecir las ventas trimestralesdel restauranteubicado cerca de Talbot Collage, Armad's tambin sustituir la de la ecuacin(14.3) por 10 000. Como el valor de ! proporciona tanto una estimacin puntual de E(x) para un valor dado de .r como una estimacin puntual de un solo valor de y para un valor dado de , a j se le llamar simplemente valor estimado de y. En la figura 14.2 se presenten forma resumida el proceso de estimacin en la regresin lineal simple.
FIGURAI4.2
b estimacin de flo! ft es un proceso estadstico muy parecido a la estimacin de p que se vio en el capftulo 7. Boy Bt son los parmetros d inters que son descotncidos, y boy b, son los estadfsticos mustrales qu se usan para estitrar los parmetros.
oY**:y*
tt ,t
E(y) x Bo+prx
Parmetro descoqoci&c
'z
Yz
*,rJ'""J,.k,*
I * bo*brx
&ta|frtisos rnsstc
548
l4 Coptulo
lineolsimple Regresin
1. El anlisis de regresin no puede entenderse 2. La ecuacinde regresin en la regresin lineal simple es E(y) : fo* ptx. En libros ms una recomo un procedimientopara establecer avanzadossobre anlisis de regresin se suels y efectoentre las variables.Eslacin de causa escribir la ecuacin de regresin como te procedimiento slo indica cmo o en qu E(ylx): fro+ fl enfatizandoasf que lo que una medidalas variablesestinrelacionadas con proporciona esta ecuacin es el valor medio de acercade una relacincausa otra. Conclusiones las y para un valor dado de . de y efectodebenbasarse los conocimientos en en los especialistas la aplicacinde que se trate,
parahaEl mtodo de mnimos cuadrados esun mtodoen el que seusanlos datosmuestrales supngailustrarel mtodode mnimoscuadrados, Para estimada. de llar la ecuacin regresin Armand's Pizza Padorsubicados se que se recolectandatosde una muestrade 10 restaurantes x, i i o el restaurantede la muestra, es Parala observacin universitarios. todoscercade campus (en miles) en el campusy y, son las ventastrimestrales el tamaode la poblacinde estudiantes de los (en miles de dlares). la tabla 14.1sepresentan valoresde xty y, en estamuesEa l0 En que.rl = 2 y yt : 58, estcercade un Cam1, Como se ve, el restaurante parael restaurantes. 2, son y pus de 2[ estudiantes susventastrimestrales de $58 000. El resauranc parael que y susventastrimestrales son xz:6y lz: 105,estcercade un campusde 6000 estudiantes 10, ventas resaurante el cual estcerdel a de $105000. El valor mayores el que corresponde y son trimestrales de $202000. de ca de un campus 26 000 estudiantes susventas de los datosde la tabla l4.LLa poblacin esde de La figura 14.3esel diagrama dispersin y las ventas en el eje vertical.[,os diagramas trimestrales se tudiantes indicaen el eje horizontal la se colocando variableindependiente en el de de dispersinparael anlisis regresin trrzan permie y eje horizontal y la variable dependiente en el eje vertical. El diagramade dispersin los observargrficamente datosy obtenerconclusionesacetcadela relacinentrelas variables. papreliminarse puedgobtener la figura 14.3?Las ventastrimestrales de Quconclusin quela poblacin estudiantes mayor.Adems, en de es en cercade campus los recensermayores y la poblacinde estudiantes las ventas estosdatosseobseryaque la relacinentreel tamaode trimestralesparecepoder aproximarsemedianteuna lnea recta; en efecto, se observaque hay TABTA I4.I POBLACINDE ESTUDIANTESY VENTASTRIMESTRALES ARMAND'S PZZAPARLORS EN 10 RES'TAURANTES
Recauronte
I 1, 3 t 5 6 7 I I lo
eotuAhnf(rrtles)
, 6 I
de Poblscln
YentmHnectrh (mllot)
J 5E t05 88 ltE ll7 l3? 157 l@ 149 2
Armand's
t2 16 N' 2S 22 26
549
EN SE I4.3 DIAGRAMA DE DISPERSIN EL QT.JE MI.JESTRALAPOBLACIN TIGURA DE Y LAS VENTAS TRTMESTRALES ARMAND'SPITZA DE ESTUDIANTES PARLORS
224 2W 6 t8o ) g 10 g l$
n
-g E r20
E .E
a
100
r 8 0
# 6 0
l0t2t4 16r82422
la trimeeunarelacinlineal positiva en8er y y. Por tanto,pararepresentar relacinentrevenas neal simple. Decidido esse trales y la poblacinde estudiantes, elige el modelo de regresin de to, la tareasiguientees usarlos datosmuesales la tabla l4.l paradetrminarlos valoreede i, boy 4 en la ecuacinde regresinlineal simple. Parael resauranela ecuasinde rcgresin simple estimadaes 9t= bol brx, donde (en j,, : valor estimadode las ventasSimestrales miles de dlares)dol restsuranrc i de bo= inerseccin la rectde regresincon el eje y br = pendientede la rectade regresin
X
(r4.41
(reales)y !, denotavenas meestimadas i, Como parael restaurante y, denotaventsobsrvadas de diantela ecuacin(14.4), paracadauno de los restaurantes la muestrahabrun valor de veny, tas observadas y un valor de ventas esmadas Pm que la rcta de regresinestimada !,. y proporcioneun buenajustea los datos,las diferenciasene los valoresobservados los valores debenserpequeas. estimados paraobener valoresde los se En el mtodode mfnimoscuadrados usanlos datosmuestrales (diferencias)enhe los vaboy 4 que minimicenla sumade los cuadradosde las desviaciones y, de de lores observados la variable dependiente y los valoresestimados la variabledependienes te. El criterio que se empleaen el mtodode mnimos cuadrados el de la expresin(14.5).
550
mint(y, donde
!)2
(t4.51
de en i = valor observado la variabtedependiente la observacin = valor estimadode la variableindependiente la observacin en i i (vase parademostrar apndice 14.1)que los valores o Sepuedeusarclculos diferenciales de (14.5)sepueden (14.)y (I4,7). y b, qaerrnnrrrnrzaexpresin usando ecuaciones las la encontrar
ri = valor de la variable independiente en la observacin i y, = velc de lo variable depcndieneon la observacin i -x= nrdiadala variable irdependiento
para obtenerla ecsacinde regresin los En b tabla 14.2 ge presentan clculos necesarios estimadaen el ejemplode Armand's PizzaParlors.Como la muoctraes de 10 restaurantps, tene(14.6'ly (J4.7)se necesitan y j, geempief mos 10 observacions. Dadoque en las ecuaciones zapor calcular j. .y
r:i=i=14
lv, 13 ' = -n= l _ = 1 3 0 0 (14.6)y Oa.1\ y la informacin delztabll 14.2,secalculala pendiente Usandolas ecuacione; y la nterw*in con el ejey de la *uaci6n de regresinde Annand's Pizz,a Parlom.ta pendiene (b) * calculacomo sigue.
2x,
UA
'Oro f6rmlo cohohr b, er de , _Ex,y,-(2x,2y)/n ut4'(x,f/" poro dukr Eib frrrrmd6 lo ccocin cnndoe qnda rm colculodoro ll4., 3rd6 rcoomcrdorse ar.
cuodrqdos 14.2 Mtodo mnimos de TABTA I4.2 ECUACINDE REGRESIN ESTIMADAPARAARMAND'S PVLA OBTENIDA POREL MTODODE MIMOS CUADRADOS PARLORS
55r
Resturntei
I 2 3 4 5 6 7 I g 10 Totales
}l
2 6 I I t2 t6 ?0 N 22 ?6 14CI Eq
58 105
s8
118
rr7
?frz
t300 ty,
Jr*i *t? *8 *6 *6 -2 7 6 6 I T2
fti-r)(Jr-D
81 200 252 72 26 14 t2 234 152 864 2W
ft,-rf
t4 & 36 36 4 4 36 36
tt4 568
I(r, - if
l(*rXr*i)
bt:
z - lx-x)\l-l) >(\_rf
2840
568 - 5 con La interseccin el eje y (o)secalculacomosigue. bo: ! - bri = 130- 5(14) =0 es de estimada Por lo tanto,la ecuacin regresin
!=0+5
graficada sobreel diagrama dispersin. de estaecuacin En la figura 14.4semuestre (br = 5) espositiva,lo queimplice que a pendiente la ecuacin regtesin de estimada La de aumentan ventas. conclulas Se de el de medidaque aumenta tamao la poblacin estudiantes, (basndose las ventasdadasen miles de $ y en el tamalode la poblacinde estudianes ye en en conesponde un aua miles) que un aumentode 1000en el tamaode la poblacinde estudiantes que las ventastrimestales aumenlen mentoesperado $5000en las ventas;es decir, seespera de por cadaaumentode un estudiante. $5 Si se consideraque la ecuacinde regresinestimadaobtenidapor el mtodode mfnimos razonable usarestaecuacin la cuadrados describeadecuadamente relacinener y y, parecer paraestimarel valor de y paraun valor dadode x. Por ejemplo,si se quiestimada de regresin ubicadocercade un campusde 16 000 sieranpedecir las ventastrimestralesde un restaurante calculara se estudiantes, i:60 + 5(16): 140
Debe tense muchocuidado al usarh ecwcin de rcgrcsinestinufu pam lwcer prcdiccienesuem del rango de valorcsde la variable indepetdientc,ya quefuero dc csemngo no puedeasegurarse esta que rclacin seavlida.
paraesterestaurante pronosticadas serande $140000. En De maneraquelas ventastrimestrales seccinsiguientese vern los mtodospara evaluarel uso correctode la ecuacinde regrela y sinparahacerestimaciones predicciones.
552
lineolsimple 14 Copitulo Regresin I4.4 GRAFICADE LAECUACIN DE REGRESINESTTMADADEARMAND'S FIGURA PVZAPARLORS: i:60 t 5x
#
E
E I
& e
I
F 100
80 60 40
)
coa el ejey bo* 60
20 8 2 1 0 t 2 1 4 1 6 1 8 ? f r 2 2 /26
El mtodo de mfnimos cuadradosproporciona na ecuacin de regresin estimada que minimiza la sumade los cuadradosde las desviacionesentre los valores observadosde la variable dependientey, y los valores estimadosde la variable dependiente!,. El criterio de mfnimos cuadradospermite obtenerla
otro ecvacin mejorajuse. seempleara critede Si las rio, comominimizarla sumade desviaciones absoluas enteyi y i, rc obtendrfauna ecuacin Enla pr&ttcael mtodo mfnimos de cuadiferente, msusado. drados el mtodo es
Mrodo
outo@
?.
b.
datos. Trace el diagrama de dispersin correspondientea esos indica el diagrama de dispersin del inciso a) respecto a la relacin entre las dos vaQu riables?
553
Trate de aproximar la relacin entre r y y trazando una lfnea recta que pase a travs de los puntos de los datos. (1a.6) y (14.7) calcule boy brpara obtenerla ecuacinde regfesinesCon las ecuaciones timada. Use la ecuacin de regresin estimadapara predecir el valor de y cuandor = 4.
a. b. c. d. e.
Trace, con estos datos, el diagrama de dispersin. Qu indica el diagrama de dispersin del inciso a) respecto a la relacin enfe las dos variables? Trate de aproximr la relacin entre.r y y trazando una llnea recta a travs de los puntos de los datos. (1a.0 y (14.7) calculeboy by,paraobtenerla ecuacinde regresinesCon las ecuaciones timada. Use la ecuacin de regresin estimadapara predecir el valor de y cuando r = 4.
a. Con estosdatos trace el diagrama de dispersin. b. Obtenga la ecuacin de regresin estimadacorrespondientea estos datos. c . Use la ecuacin de regresin estimadapara predecir el valor de y cuando r = 4.
Aplicociones
Orto@
a. b. c. d. e.
Trace el diagrama de dispenin de estos datos usando la estatura como variable independiente. Qu indica el diagrama de dispersin del inciso a) rcspecto a la rclacin ene las dos variables? Trate de aproximar la relacin enEe estaturay peso trazando una lfnea recta s travs de los puntos de los datos. Obtenga la ecuacin de regresin estimadacalculando bol bt Si la estaturade una nadadoraes 63 pulgadas, cul ser su peso estimado?
5. Los adelantostecnolgicos han hechoposible fabricar botes inflables. Estos botes de goma inflables, que puedenenrollarse forman& un paqueteno nayor que una bolsa de golf' tienen tamalo suficiente para dos pasajeroscon su equipo de excursionismo. La rcvista Canoe & Kayac ptob6 dfas. Uno de los los botes de nueve fabricantespara ver su funcionamiento en un rccorrido de trres criterios de evaluacin fue su capacidadpar4 equipaje que se evalu utilizando una escalade 4 puntos, siendo I la puntuacin ms baja y 4la punhracin ms alta. Los datos siguientesmues. tran la evaluacin que obtuvieron rcspccto a capacidadpara equipaje y los precios de los botes (Canoe Kayak, marzo 2003).
554
Bots st4
W'o
Orinoco Outside Pro Explorer 380X RiverXK2 Sea Tiger Maverik tr 100 Strlite Ff,tPack Cst
Trace el diagrama de dispersin de estosdatos empleandola capacidadpara equipaje como variable independiente. Qu indica el diagrama de dispersin del inciso a) respecto a la relacin entre capacidad para equipajey precio? c. A havs de los puntos de los datos trace una llnea recta para aproximar la relacin lineal entre capacidadpara equipaje y precio. d. Utilice el mtodo de mnimos cuadradospara obtener la ecuacin de regresin estimada. e. D una interpretacin de la pendiente de la ecuacin de regresin estimada. paraequif. Diga cul serel precio de un bote que tenga3 en la evaluacinde su capacidad paje. 6. Wageweb realiza estudios sobre datos salarialesy presentaresrlmenesde stos en su sitio de la Red. Basndoseen datos salarialesdesdeel I de octubre de 2002 Wagewebpublic que el salario anual promedio de los vicepresidentes ventasera $142 lll con una gratificacin anual prode que los datossiguientes 13 medio de $15 432 (Wageweb.com, de mazode 2003). Suponga sean una muestrade salariosy bonos anualesde 10 vicepresidentesde ventas.Los datos se dan en miles de dlares.
Viceprccldente 2 3
6 I I
VPSlary
,3
$alrrlo 135 115 146 16? 165 116 98 136 163 1t9
Grtffiseln
l2 t4 16 t9 22
I T7 18 ll
de con datosiomando comovariableindependiente lor a. Traceun diagrama dispersin estos salarios. del b. Qu indicael diagrama dispersin incisoa) acerca la relacinentresalarioy grade de tificacin? para la de estimada. c. Useel mtodode mfnimoscuadrados obtcner ecuacin regresin de de estimada. d. D unainterpretacin la ecuacin regresin que e. Culserla gratificacin un vicepresidente tengaun salarioanualde $120000? de que ms 7, Esperarfa los automviles confiables fteranlos mscarcs? Consumcr Reports evalu se 15delos mejores automviles sedn. confiabilidad evaluconunaescala 5 puntos: La de ma(4) (5). (2), (3), la (1),regular buena muybuena y excelente Lor preciory la evaluacin sobre la (Consumer de se en Reports, febreconfiabilidad estos15automviles presents l tbla sigaiente ro de2004).
555
Crra
Mnrrry modolo AcuraTL BMW330i IS3) Lexus kxus 85330 C320 Mercedes-Benz LincolntS Pemium(V6) AudiA43.0Qgatno CTS Cadillac Mnxims3.5SE Nisss Infini I35 Sarb9-3Aero Infini G35 IagsrX-Typc3.0 9-i Saab Arc t/olvo5602,57
Conabllldad
4 3 5 5 1 3 2 1 4 5 3 4 1 3 3
3sr74
4223il. 38225 3?@5 3?695 34390 t3 &45 36910
uw5
t7 95 36955 33890
Trace un diagrama de dispersin con estos datos tomando como variable independientelas evaluacionesde confiabilidad. b. D la ecuacin de regresin obtenida por el mtodo de mlnimos cuadrados. c. De acuerdo con este anlisis, cree usted que los automviles ms confiables sean ms caos? d. Estime el precio de un automvil sedncuya evaluacin de confiabilidad sea4. Las bicicletas de montaa que actualmentecuestanmenos de $10) tienen muchos de los com' ponentesde alt calidad que hastahacepoco slo tenfan los modelos de alta calidad. Ho incluso modelos de menosde $1000 suelenofipcer suspensinflexible, pedalesclipless y cuadro muy bien diseado.Una cuestin interesantees si precios ms altos correspondena mayor facidad de manejo, medida a travs del agane lateral de la bicicleta. Para medir el agarrelateral, Outside Magazine emple una escala de evaluacin del I al 5, en la que el I correspondfaa mala y 5 a promedio. A continuacin se presentael agarre lateral y los precios de l0 bicicletas de montaa probadas por Outside Magazine (Outside Magazine Buyer's Guide' 200l) a,
Fabricnte y modelo
funntlrterrl
I I
io*lrL"O" sout*
SchwinnMoab 2 GiantXTICNRS3 Ccnesisrcrs FisherParagon JsmisEfokotlrc TrekFrdgO 5p*i"li* Sn*pumper M4
2 I 3 4 4 3 5 4
rgn
1550 l6?5
el comovariableindependiente Traceun diagr*made dispenincon estosdatostomando aganelareral. Expmtlscarosseande msfcil manejo? indicrestosdatosque los modelos Pareoen que. por obtenida el mtodode mfnimoscuadrados. estimada de c. D la ecuacin rcgresin cuyoaganelateraltengaunaevade montaa de d. Culesel precioestimado unabicicleta luacinde 4?
55
14 lineolsimple Copltulo Regresin y sobreventas anuales aosdeexperiencia. recolect datossiguientes los de 9. Un gerente ventas
Yendedor I
Acdc erper{cndr I 4 6 I
S 9 1 t
Yentsmnrlcs (nlhsdcS) 80
2 3
3 4
fail.r
4 5 r 6
i 1 t i
v2 tu2
103 ltl l19 t23 tt7 136
r0
l 0 0 l
13
a. b. c.
Elabore un diagrama de dispersin con estosdatos, en el que la variable independientesean los aos de experiencia. D la ecuacin de regresin estimadaque puede emplearsepara predecir las ventas anuales cuando se conocen los aos de experiencia. Use la ecuacin de regresin estimada para pronostica las ventas anualesde un vendedor de 9 aos de experiencia.
10. Bergansof Norway ha estadofabricando equipo para excursionismo desde1908.En los datosque se presentanen la tabla siguiente se da la temperatura("F) y el precio ($) de I I modelos de sacos Gear Guide) de dormir fabricados por Bergans (Backpacker 2OO6
Drod+o
Rmger3-Seaeonn R.mer Sfing R,mg*Wintcr Roodane 3-Scasons Rodane$ummcr RmdanWfurfsr $cqialce $now $onjn SenJr Zoro $upcrLight Tght&Light
ftmnorrtnr:a 12 u 3
l3 38 4 5 l5
SL.plngBa.
25 45
datos, el quela variableindependiente la en sea con de a. Traceun diagrama dispersin estos (oF). temperatura a de b. Qu indicael diagrama dispenindel incisoa) respecto la relacinentretemperatura y precio? para la de estimada. c. Useel mtodode mfnimoscuadrados obtener ecuacin regrecin ("F) cul serel preciode un sacode dormir si el fndicede temperatura e 20. d. Prediga grandes reasos menos ftecuentet, tll sabr los son es en 11. Aunqueactualmente los aeropuertos que Ademds, suwelo sl a es en quaeropuertos mtispmbable le eciren perdera uno susplanes. en es a aeropuerto el quetienequehacerun Easbordo, llegaconretraso un determinado cul la hacerasfel tasbordo?En la tabl siguiente probabilidad queseretrase saliday quepueda la de y rehasadas durante mesdeagosto 13aeropuerel en de el semuestra porcentaje llegadas salidas 2.4 tos (Ensiness febrerc202).
557
Aeropnerto Atlanta Charlotte Chicago Cincinnati Dallas Denver Detnoit Houston Minnerpolis Phoenix Pitsbrgh saltLakc ciry St. Louis
W'o
Xrport
24 20 30 20 20 23 IE 2A 1E 2l 25 IE
l
22 ?n 29 l9 22 23 l9 l6 l8 22 22 t7 16
a. b. c. d. e.
Trace un diagrama de dispersin con estos datos, en el que la variable independientesean las llegadas retrasadas. Qu indica el diagrama de dispersin del inciso a) respecto a la relacin entre llegadas rehasadasy salidas retrasadas? Use el mtodo de mfnimos cuadradospara obtener la ecuacin de regresin estimada. Cmo se debe interpretar la pendiente de la ecuacin de regresin estimada? Suponga que en el aeropuerto de Filadelfia hubo 22% de llegadas retrasadas.Cul es el porcentaje estimado de salidas retrasadas?
12. Una moto acutica personal (personal watercraft, PWC) es una embarcacin a motor dentro de borda diseadapara ser conducida por una persona sentada,de pie o arrodillada. Al principio de los aos 80, Kawasaki Motors Corp. USA introdujo la moto acutica JET SKI@,h primera moto acutica comercial. Hoy jet s/cise usa como trmino genrico para motos acuticaspersonales. En la tabla siguiente se dan pesos (redondeadosa la decenade libra ms cercana)y precios (redondeados los 50 dlaresms cercanos)de 10 motos acuticaspersonalesde tres plazas a (wwwjetskinews.com,2006).
f f) =
JId
YamslnFxHighontputWaverunner Yamsh Wsvenrnner Fr( YamahYXll0Dcluxolf,rverunner Yamrhs VXllO Sport Wavenrnner YmhXUfl200$fqvennner
a. b. c. d. e.
Trace el diagrama de dispenin correspondientea estosdatos, empleandoel peso como variable independiente. Qu indica el diagrama de dispersin del inciso a) respectoa la relacin entre peso y precio? Use el mtodo de mlnimos cuadradospara obtener la ecuacin de regresin estimada. Indique cul ser el precio de una moto acutica de tres plazas cuyo peso sea750 libras. I Honda Aqua Trax F-12 pesa 750 libras y su precio es $95). No deberfa ser el precio pronosticado en ql inciso d) tambin de $950?
558
lineolsimple 14 Regresin Coptulo LaJetski Kawasaki SX-R 800 tiene asientopara una personay pesa 35Olibras. Creeusfed que la ecuacin de regresin estimada obtenida en eI inciso c) deba emplearsepara predecir su precio? 13. Parala Direccin generalde impuestosinternos de EstadosUnidos el que las deduccionesgezcan razonablesdependedel ingreso bruto ajustado del contribuyente. Dedrccion$ grandc qu comprendendeduccionespor donacionesde caridad o por atencin mdica son ms probablesen contribuyentes que tengan un ingreso bruto ajustado grande. Si las deduccionesd un contribu. yente son mayores que las correspondientesa un determinado nivel de ingresos, aurnentanlas posibilidades de que se le realice una auditora. f.
?7
a. b. c.
Trace un diagrama de dispersin con estosdatos empleandocomo vuiable independienteel ingreso bruto ajustado. Use el mtodo de mnimos cuadradospara obtener la wurcin & rcgre*;ittestimada Si el ingreso bruto ajustado de un contribuyente es $52 5, estirne el rnonto razonable de una deducciones.Si el contribuyente tiene deduccionespt $?I 4, er;tn1uixfrcada auditorla? Explique.
14. Los salariosiniciales de contadoresy auditoresen Rochester,Nueva Yuk, corrsporden a los de muchos ciudadanosde Estados Unidos. En la tabla siguienre s presntansatrios iniciales (en miles de dlares) y el lndice del costo de vida en Rochestery en otrfi$eve zonasmetropolitanas(Democrat and Chronicle, I de septiembre de2OU2).
8al!rlca
-{ca mctropomtm OklahomaCity Tunpa/St. Peterstrurg/Clcarw*er Indianapolis Buffalo/NiagaraFalh Atlnta Rochester Sacrarneirto nakigh/Durhmt/Chopet Hitl $an Diego llonolslu
fuc
82.# 79.W
gffr0lIr|$
n9
MS
n4 tt.7 n.l
15.6
n.7
?.7 t7.t
x.t
Elabore un diagrama de dispersin or stos daos emplemdo como variable independiente el ndice del costo de vida. Obtenga la ecuacin de regresin paatelacionr elfndcc del costo de vida con el laio inicial. Estime el salario inicial en vmt zcmarrcnqalitrina en la que el lndice del costo de vida es 50.
559
SCE*X(y*,)2
(t4.81
paraestide estimada El valor de SCEes una medidadel error al utilizar la ecuacin regresin en de mar los valoresde la variabledependiente los elementos la muestra. paracalcularla sumade cuadralos En la tabla 14.3semuestran clculosque serequieren Por dosdebidaal erroren el ejemplodeArmand'sPizzaParlors. ejemplo,los valoresde las vaparaldel y restaurante sonr, = 2 y lt = 58. El valor estimado I riablesindependiente dependiente paralas ventas del 1 de estimada trimestrales restaurante obtenidocon la ecuacin regresin es l, i, : 60 + 5(2) : 70. Por lo tanto, para el restaurante el error al usar ir para estimary, (-12)' - 144,aparece la ltima al en es},r - !, : 58 - 70 : -l2.El enor elevado cuadrado, de los de columna la tabla 14.3.Despus calculary elevaral cuadrado residuales cadauno de de y que se los restaurantes la muestra, suman seobtiene SCE : 1530.Porlo tanto,SCE : 1530 de de estimada : 60 * 5r parapredecir mide el effor que existeal utilizar la ecuapin regresin i las ventas. que de sin Ahora supngase se pide una estimacin las ventastrimestrales sabercul es el de Sin de tamaode la poblacin estudiantes. tenerconocimiento ningunaotra variablerelaciose la comounaestimacin lasvende nadaconlas ventas trimestales, empleara mediamuestral TABIAI4.3 ARMAND'S PIZZA PARLORS CLCULO DE SCEEN EL EJEMPLO
Vnr*s
*1f-o 'li
h*h
*12 l$ *ls t ;t *3 *3
Frtor
Erof lsudmdo
(}r-rfr
2u
ll*
1,|4
t0
ii
iii ,#
,ffi l$
140 160
itr
*2t t?
sCE*ffi
s0
l4 Coptulo
IABIA 14.4 CLCULO DE LA SUMA TOTAL DE CUADRADOSEN EL EIEMPLO DE ARMAND' S PIZZA PARLORS , ir poblm|n
Rcftllrnnt
I 3 4 f
1
dccndlrntes (rtrtc)
! 6 I
. Dcvhddn
Dctdn lcurdndo
** !
-72 *15 *42 -t2 -t3 7
lrt* lf
5 ls4 625 r764 l4
l9 49 729 | 521 t6l J IE4 $TC * 15730
,t r7
l6
E I 10
10 ?0 !"2
n7 t17 r57
I6p 149
w2
39 t9 72
En tas trimestralesdelen cualquierade los restaurantes. la tabla 14.2se mostr que de acuerdo en )y,: 1300.Por lo tanto,la mediade las ventastrimestrales la con los datosde las ventas, : Amand's esi :2y/n = 1300/10 130.En la tabla 14.4septe' de muestra los 10restaurantes al sentala sumade las desviaciones cuadradoque se obtienecuandose usa la media muestral de : 130 para estimar el valor de las ventastrimestralesde cadauno de los restaurantes la una la de Parael i-simorestaurante la muestra, diferencial i proporciona medida muestra. llasumade cuadrados, del error que hay al usar! para estimarlas ventas.La correspondiente madasumalotal de cuadrados,sedenotaSTC.
$TC* fr ( y,- lf
{r+el
que ratneay:j.
en La sumadebajode la ltima columnade la tabla 14.4es la sumatotal de cuadrados el ejem= l5 730' estasumaes STC Parlors; plo de Armand'sPizza En la figura 14.5se muestrala llnea de regresinestimada i = 60 * 5x y la llnea colresen ms agrupados torio a la recque pondientes j : l3O. Obsrvese los puntosseencuentran a = l3O. Por ejemplo, s ve que para el 10o. ia de regresinestimadaque en tomo a la llnea j de fe$laurante la muestra,el e''of eSmuchomsgfandecuandoSeUsai = 130paaestimaryl' src como una medidade qu que cuandose usa!,0 = 60 + 5(26) = 190.Se puedeentender en tanto se agrupanlas observaciones tomo a larccla y SCE como una medidade qu tanto se en agrupanlas observaciones torno de larccta j. se de Paramedir qu tanto se desvan ! los valores!, dela rectade regresin, calculaotra debidaa la regresiny seden{} A sumade cuadrados. estasumasele llama sumade cuadrados ta SCR.
lf!ol
14.3 Coeficientedeierminocin de FIGURA I4.5 DESVIACIONES RESPECTO LA LNEE NE REGRESIN A ESTIMADA Y A LA LNEAy : t EN EL EIEMPLO DE ARMAp'5 ptzzA PARLORS
5l
2m
?00
^ rl
e lgo c
E
I 10 g 1$ E f, 120
}ro-I
y,=f e 130
E u t*
$ 6 0
f0
s s 0
que Porlo antes dicho,seesperara hubieraalguna relacinentreSTC,SCRy SCE.En efecto, y la relacinentreestas sumas cuadrados tres de constituye de los resultados imporuno ms tantes la estadfstica. de
RLACTNHNTRMSTC,S$BYSCF
puedeentenderse It SCR comola parte explicadade la STC,y la SCEpuedeenlendrse comol Wrte no explicfu dc la STC,
i .
.. ,.I:
$TE*SCR+$CE dsnds
{l f.t r l
$TC s srmstofsl decusdrsdos SCR- urns & curdrodosdebidaa liaregrecin SCE = surm dc cuadrados debidaal eiror
(14.11)muestra que la sumatotal de cuadrados l-a e*uurcin puedeserdividida en dos componentes,la sumade los cuadrados debidaa la regresiny la sumade cuadrados debidaal error. si Por lo tano, seconocendos cualesquiera estssumasde cuadrados, fcil calcular la terde es eerasumade cuadradoePor ejemplo, en el ejemplode Armand's PlzzaParlors,seconocenSCE . = l5l) y STC 15 73O;por lo tan0o, despejando la ewacin(14.11)SCR,seencuenfaque la de sumade los cuadrados debidosa la regresines = S C R = S T C + S C E = 5 7 3 0 -1 5 3 0 1 4 2 0 0 1
562
't4 Coptulo
lineolsimple Regresin
Ahora se ver cmo se usan estastres sumasde cuadrados,STC, SCR y SCE, para obtener una medida de la bondad de ajuste de la ecuacin de regresin estimada. La ecuacin de regresin estimada se ajustara perfectamente a los datos si cada uno de los valores de la variable independiente y, se encontraran sobre la recta de regresin. En este caso para todas las observaciones se tendra eue ) - !, sea igual a cero, con lo que SCE : 0. Como STC : SCR + SCE se ve que para que haya un ajuste perfecto SCR debe ser igual a STC, y el cociente (SCR/STC) debe ser igual a uno. Cuando los ajustes son malos, se tendrin valores altos para SCE. Si en la ecuacin (14.11) se despejaSCE, se tiene que SCE : STC - SCR. Por lo tanto, los valores ms grandes de SCE (y por lo tanto un peor ajuste) se presentancuando SCR : 0 y SCE : STC. El cociente SCR/STC, que toma valores entre cero y uno, se usa para evaluar la bondad de ajuste de la ecuacin de regresin estimada.A este cociente se le llama coeficiente de determinacin y se denota l.
COEFICIENTE DE DETERMINACIN
tt4.l2l
"" :
SCR
;;' T;;;;:
|4?rlr'I
oeo27
I en de el Si se expresa coeciente determinacin forma de porcentaje, se puedeinterpretar que el de comoel porcentaje la sumatotal de cuadrados seexplicamediante usode la ecuacin se 9O.27Vo la de En estimada. el ejemplode Armand'sPizzaParlors, concluyequre de regresin de se variabilidad las ventas explicapor la relacinlineal queexisteentreel tamao la poblaen de tuvieraun ajustetan y cin de estudiantes las ventas.Serabuenoque la ecuacin regresin bueno.
Coeficiente de correlocn
de de el En el captulo3 sepresent coeficiente correlacincomounamedidadescriptiva la indel de r tensidad la relacinlineal entredosvariables y y. Los valores coeficiente correlacin de sonvaloresquevandesde-lhasta+l.Elvalor*lindicaquelasdosvariablesxyyestnp en relacionadas unarelacinlinealpositiva.Es decir,los puntosde todoslos datosse fectamente perpositiva.El valor - I indicaquer y y estn en encuentran unalnearectaquetienependiente en todoslos datosseencuentran unalen relacionadas, unarelacinlinealnegativa, fectamente cercanos cero a de del negativa. valores coeficiente correlacin Los nearectaquetienependiente linealmente. relacionadas indicanque.r y y no estn paracalcularel coeficiente correlacin muestral. de la 3.5 En la seccin sepresent ecuacin y el de de un se Cuando ha realizado anilisis regresin seha calculado coeficiente determinacin se muestral puedecalcularcomoseindicaa continuacin. de l, el coeficiente correlacin
n4.r3l
53
donde
, = pendientede la ecuaeinde regroeinestimada! = b, * brx El signo del coecientede regresinmuestrales positivo si la ecuacinde regresintiene pendientepositiva (4 ) 0) y es negativosi la ecuacinde regresinestimada tiene pendientenegativa (b, < 0). En el ejemplo de Armand's Pizza Parlol el valor del coeficientede determinacincorrespondientea la ecuacinde regresinestimada! : 60 + 5 es O.q)27.Como la pendientede la (14.13)indicaque el coeficiente coecuacin regresin de esplqada positiva,la ecuacin es de rrelacinmuestral *V0.9027 : *0.9501 Con estecoeficiente correlacin es de muestral, = ro +0.9501,seconcluyeque existeuna relacin lineal fuerte entrex y y. En el casode una relacin lineal entre dos variables,tanto el coeficientede determinacin medidas la intensidadde la relacin. comoel coeficientede correlacinmues8alproporcionan de El coeficientede determinacinproporcionauna medida cuyo valor va desdecero hastauno, mientrasque el coeficientede correlacinmuestralproporcionauna medidacuyo valor va desde -l hasta+1. El coeficientede correlacinlineal estrestringidoa la relacin lineal entredos variables,pero el coeficientede determinacinpuedeemplearse para relacionesno lineales y para relacionesen las que hay dos o ms variablesindependientes. tanto, el coeficientede Por determinacin tiene un rango ms amplio de aplicaciones.
l. Al obtener la ecuacin de regresinestimada mediante el mtodo de mnimos cuadrados y calcular el coeficiente de determinacin, no se hizo ninguna suposicinprobabilfstica acerca del trmino del error e ni ampocouna prueba de significanciaparala relacinentrer y y. Los valores grandesde I implican que la recta de mlnimos cuadrados ajustamejor a los datos; se se es decir, las observaciones encuentranms cerca de la recta de mnimos cuadrados. Sin embargo,usandonicamenteI no se pueden sacarconclusionesacercade si la relacin entre significativa.Tal conx y y es estadfsticamente clusin debe basarse en consideraciones que
implican el tamao de la muestra y las propiedadesde la distribucin muestral adecuada de los estimadoresde mnimos cuadrados. 2. Para fines prcticos, cuando se trata de datos que seencuentran las cienciassociales, en valores de I tan pequeoscomo 0.25 suelen considerarse tiles. En datosde la fsica o de las cienciasde la vida, suelenencontrarse valores de I e O.0O rnayores;en algunoscao sos pueden enconftarse valores mayores de 0.90. En las aplicacionesa los negocios,los valores de I varlanenormementedependiendo de las caracterlsticasparticulares de cada aplicacin.
Mrodo
o"o@
Ia *uacin de regresinestimadapaa esos daos I : 0.2O+ 2.60x. es (14.8), Qa9) y (14.10) calcule SCE, STC y SCR. a. Empleandolas ecuaciones b. Calcule el coeficienede determinacin f . Haga un compntario sobre la bondad del ajuste. c. Calcule el coeficientede correlacinmuestral.
564
lineolsimple Coptulo14 Regresin 16. Los datosa continuacinson los datosdel ejercicio 2.
< a A
La ecuacinde regresinestimadapara estosdatoses i = 68 3x' a. Calcule SCE, STC Y SCR. b. Calcule el coeficiente de determinacin f . Haga un comentario sobre la bondad del ajuste. c. Calcule el coeficientede conelacin muesal. 17. Los datosa continuacinson los datosdel ejercicio 3.
: 7.6 + 0.9. Qu porcentaje de la La ecuacin de regresin estimada para estos datos es I cuadradospuedeexplicarse mediante la ecuacin de regresin estimada?Cul es suma total de el valor del coeficiente de correlacin muestral?
Aplicociones
a. Calcule SCE, STC y SCR. b. Calcule el coeficiente de determinacin 12.Haga un comentario sobre la bondad del ajuste. c. Calcule el coeficiente de correlacin muestral. 19. Los datosa continuacinson los datosdel ejercicio 7.
Cara
Fabrhante y modelo AcuraTL BMW330i Ixus IS300 Lexus ES330 C320 Mercedes-Benz Lincoln LS Preuium(V6) Audi A4 3,0 Quattro Cadillac CTS NissanMaxirna 3.5 SE Infiniti I35 Saab9-3 Aero Infiniti G35 JaguarX-Type 3.0 Saab9-5 Arc Volvo 560 2.57
= conflHdd 4 3 5 5 I 3 2 I 4 5 3 4 I 3 3
y = prcdo (t) 33l5() lm570 35 105 35 r74 42230 3822s 3705 3?05 34390 33845 36910 34605 37995 36955 33890
55
La ecuacinde regresinestimadapara estosdatoses i : 40 639 - 1301.2x. Quporcentaje de la suma total de cuadradospuede explicarsemediantela ecuacinde regresinestimada? Haga un comentariosobrela bondaddel ajusteCules el valor del coeficientede correlacin muestral? de sobretelevisores alta denicin.Paracada Reporff publica pruebasy evaluaciones 20. Consumer principalmente la calidadde la imagen.Una en modelo seelaboruna evaluacingeneralbasada evaluacinms alta indica un mejor funcionamiento.En los datos siguientesse dan evaluacin de generaly precio de televisores plasmade 45 pulgadas(ConsumerReports,marzo 2006).
Mar DeU Hieense Hitachi JVC LG Maxent Pagasonic Phillipo Proview Samoung
Ptecio 2800 2800 3500 3300 2000 4000 3000 2500 3000
hrntuacin en la valucin
27ca
Plasmaw
62 53 44 50 54 39 66 55 34 39
a.
b. c.
Use estos datos para obtener una ecuacin de regresin estimadaque pueda emplearse paraestimarla puntuacinen la evaluacingeneralde una televisin de 42 pulgadasdado el precio. un Calcule l. Proporcion buen ajustela ecuacinde regresinestimada? general un televisor cuyo precioes $3200. de en Estimela puntuacin la evaluacin
21. Una aplicacinimportantedel anlisisde regresina la contaduraes la estimacinde costos. el Con datossobrevolumen de producciny costosy empleando mtodode mnimos cuadrados para obtenerla ecuacinde regresinestimadaque relacionevolumen de producciny costos, volumende produca puedenestimarlos costoscorrespondientes un determinado los contadores muestrade datos sobrevolumen de producciny costostotalesde cin. Considerela siguiente una operacinde fabricacin.
(unrdde)
a. b. c. d.
Con estosdatosobtengala ecuacinde regresinestimadaparapronosticarlos costostotales dado un volumen de produccin. Cules el costo por unidad producida? Calcule el coeficientede determinacin. Quporcentajede la variacinen los costostotales puedeser explicadapor el volumen de produccin? el De acuerdocon el programade produccinde la empresa, mes prximo se debernproducir 500 unidades. Cules el costo to,talestimadode estaoperacin?
de 22. PC World public evaluaciones las cinco mejoresimpresoraslser de oficina y de las cinco La lsercorporativas(PC World, febrero 20O3). impresorade oficina mejor mejoresimpresoras la Minolta-QMS PagePro1250W que en la ryelueefongenglg!rLtuvo una puntuafue evaluada 44)A'{,que fue lsercorporativamejor evalada la Xerox Phase cin de 9l puntos.La impresora
l4 Coptulo
Regresin lineolsimple
en la evaluacingeneralobtuvo una puntuacinde 83 puntos.En la tabla siguientese da rapidez,en pginaspor minuto (ppm), en la impresin de texto y precio de cada impresora.
Nombre I 250W Minolta-Q_MS fagePro Brother HL- 1850 LexmarkE320 1250E Minolta-QMS PagePro IIPLaserjet 1200 44(X)/f,l Xerox Phaser Broer HL-240N IBM Infoprintl l20n W8l2 Lexmark Oki Data88300n a. b. c.
fipo Oficina 0ficina Oficina Ocina Oficina Coqporativa Corporativa Corporativa Coqporativa Corporativa
(Fpm) Veloctdad
'tz
l0 t2,.2 10,3
n.7
Prlnters
($) Pnecto 199 499 299 299 399 1850 1000 1387 2089 22W
D la ecuacinde regresinestimadaempleandovelocidadcomo variableindependiente. Calcule l. Quporcentajede la variacin del precio puedeser explicadopor la velocidad de la impresora? Cules el coeficientede correlacinmuestralentre velocidady precio?Reflejaestecoeficiente una relacin fuerte o dbil entre la velocidadde la impresoray el costo?
E ( y ) : F o +f l F
(r4.r4l
(cantina)
567
de (14.14)sele conoce comoecuacin regresin. como ya seindic,a la ecuacin o2, e, que sedenota eslamismapafatodoslos valoresde . 2. Lavarianzade o2 y es la Implicacin: La varianzade y respectoa la rectade regesin es igual a mismaparatodoslos valoresde r. 3. Los valoresde e ssn independientes. valor de no estrea Impticacin: El valor de i correspondiente un determinado por lo tanto' a lacionadocon el valor de e conospondiente ningrln otro valor de -r; relacionadocon a el valor de y correspondiente undeterminadovalor de x no esL4 y de ningnotro valor de.r' el valor de 4, El trmino del error es una variablealeatoriadistribuidanormalmente. aleatoriadisImplicacin: comoy esfuncin lineal de e, tambiny es una variable tribuidanormalmente. que obsrvese del las En la figura 14.6semuestran suposiciones modeloy susimplicaciones; con valor le E6t)cambiade acuerdo el valor de x que seconsin en estainterpretaci gtfrca,el de de de x, la distribucin probabilidad e' y pof tantola sea sea-cual el valor dere.Sin embargo, que tienen'todas'la mismavanormales' y, son distribuciones ad de distribucin probabilid de de puntodepende si el valor real de y esmadel nanza.Elvalor especffico errore en cualquier yor o menorqueE(Y)' o setienenunahi que hay En estepuno, quetenerpresente tambinsehaceunasuposicin que la basede la relaentrer y y, Es decir,sesupone ptesis*"iude h flrma de la ielacin p{'No se debeperderde vista el por es cin entrelas variables una rectarepresentada Fo + DELMODELO DE REGRESIN 14. SUPOSICIONBS FIGURA
Distribuciu de ysn=30
Distribucinde
y on.r= 20
Distribucin de y en.r= 10 E(y) cuando =10
E(y)cuando =0 \r*
x=20 =30
E(y) cuando x=2O
58
lineol 14 Copitulo Regresin simple haberalgnotro modelo,por ejemploI : Fo + flrf * e' queresulteserun hechode quepuede mejormodeloparala relacinen estudio.
lr.s)Pruebade significancia
de lineal simple,la mediao valor esperado y esunafuncinlineal de En unaecuacin regresin Bresceto,E(y):Bo+(0)x:o'Enestecaso'elvadex:E(y): fo+ Brx'Perosielvalorde del lor medio de y no depende valor de .r y por lo tanto se puedeconcluir que I y y no estnrePero si el valor de B, es distinto de cero, se concluirque las dos linealmente. lacionadas signifiuna Por relacionadas. lo tanto,paraprobarsi exise relacinde regresin estn variables valor de Bt es distinto de cante,se deberealizaruna pruebade hiptesispara determinarsi el de una estimacin o2, la se qo" cero.Hay dos pruebas ,on las msusaas.n ambas, requiere vaianzade e en el modelode regresin.
Estimocinde o2
se y con De acuerdo el modelode regresin con sussuposiciones' puedeconcluirqueo2, la vatambinla vaianza de los valoresde y respectoa la recta de regresin' nanzade , representa se estimada les de qui Recurdese a las desviaciones los valoresde y de la rectade regresin es residuales, una de Por conocecomo residuales. lo tanto,SCE,la sumade los cuadrados los estimada. a respecto la lfnea de regresin reales de de la variabilidad las observaciones medida Elerrorcuadradomedio (ECM)proporcionaunaestimacindeoz;estaestimacinesSCEdi de vidida entresusgrados libertad' como expresar Como!, : bo * rx,,SCEsepuede SCE: l(y, - j,)' :2(y, - bo- bp)z de un le A cadasumade cuadrados corresponde nmerollamadosusgrados libertad'Seha de- 2 grados libertad porqueparacalcularSCEes necesario estima de mostradoque SCE tienen SCEentren - 2. mediosecalculadividiendo os dosparmetr @oy flt).por lo tanto,el cuadrado un de insesgado o2. Como el valor del ECM proporciona estiun ECM proporciona estimador s'. tambinla notacin madode o2, se emplea ERRORCUADRADOMEDIO (ESTIMACINDE O2)
?=ECM* n-Z
scE
f tl.t5l
t..q
;
= .f.r .2s
de insesgado o2' esun estimador para estimaro se sacala raz cuadrada 2. Al valor que se obtiene,, se le conooecomo de elenor estndarde estimacin' ERRORESTANDARDE ESTIMACIN
,=ffi=\m
(tt tl
59
yl9l.25 = 13.829. errorestndar de El s En et ejemplodeArmand'sPizzaParlors, = VECM : la relade de de acerca las pruebas significancia siguiente en emplea la discusin estima;irrse cinentrexyy.
Pruebt r
Elmodeloderegresinlinealsimplees!:0oIBrx*e.Sixyyestnrelacionadaslinealmente, entoncesp , * O.nlobjetivo de la prueba t es determinar si se puede concluir que Br * 0. Para probar la hipiesis siguiente acercadel parmetroB, se emplearnlos datos muestrales. Ho:Bt:0 Hu:Bt*O Si se rechaza f16, se concluir que fl, * 0 y que entre las dos variables existe una relacin estadsticamentesignificante. La base para esta prueba de hiptesis la proporcionan las propiedades de la distribucin muestral de br, el estimador de Br, obtenido mediante el mtodo de mnimos cuadrados. primero, considreseque es lo que ocunira si para el mismo estudio de regresin se usIra offa muestfa aleatoria simple. Supngase,por ejemplo, que Armand's Pizza Parlors usa una El muesfa de las ventas de otros 10 restaurantes. anlisis de regresin de esta otra muestra dar como resultado una ecuacin de regresin parecida a la ecuacin de regresin anterior exactamentela misma ecuacin 9 : 60 * 5. Sin embargo, no puede esperarseque se obtenga con el eje y sea exactamente60 y la pendiente sea exaciuna ecuacin en la que la interseccin lamente 5). Los estimadoresboy br, obtenidos por el mtodo de mnimos cuadrados,son estadsticos muestralesque tienen su propia distribucin muestral. A continuacin se presentanlas propiedadesde la distribucin muestral de b,.
DISTRIBUCIN TTUCSTNET NE A,
{thl4
que el valor esperadode b, es 0t, Pof lo que r es un estimador insesgadode Bt' ' Obsrvese Como no ," "ono"" el valor de o, se obtiene una estimacin de oo,, que se denota s6,,estimando o mediante s en la ecuacin (14.17). De esta manera se obtiene el estimador siguiente
de Obt.
A la deniacin estndar de br, se le conoce tambin como error cstndar de br. Pol lo tan o, sbt pr'aPolcio' no rna stimacin del enor estndar de b,.
DESVIACINESTANDARFSTIN{ADADE :I tu,=;m
{t/t-NNl
570
14 lineol Coptulo Regresin simple Por En el ejemplode Armand'sPizzaParlors,s : 13.829. lo tanto,dadoque )(4 - ;2 : 563 en comosemuestra la tabla 14.2,setieneque
, r ,:
13.829
\6os:0.5803
es la desviacin estndarestimadade br. La prueba t para determinar si la relacin es significativa se basa en el hecho de que el estadfstico de prueba
bt-Ft
J,
sigue una distribucin t conn - 2 grados de libertad. Si la hiptesis nula es verdadera,entonces Ft=0Y t: brls6r' Ahora se realizarestaprueba de significancia con los datos de Armand's Pizza Parlors, empleando como nivel de significancia a = 0.01. El estadlstico de prueba es b r 5 ': ,t,: or*
: 8'62
n EntosapndicesI4.3y Enlastablas deladistribucinrseencuentraquepara - 2: l0 - 2:8 gradosdelibertad, 14.4 muestra uso se el de t : 3,355 da un rea de 0.005 en la cola superior. Por lo tanto, el reaen la cola superior de la para Mintab deExcel v distribucin t correspondienteal valor del estadsticode prueba t : 8.62 debe ser menor a 0.005. el calcular valor-p Como esta prueba ", unu prueba de dos colas, este valor se dupca y se concluye que el valor-p para t : 8.62 debe ser menor a 2(0.005) : 0.01. Empleando Excel o Minitab se encuentravalor-p - 0.000. Dado que el valor-p es menor a a : 0.01 se rechazaflo y se concluye que B, no es igual a cero. Esto es suficiente evidencia para concluir que existe una relacin significativa entre la poblacin de estudiantesy las ventas trimestrales.A continuacin se presentaun resumen de la prueba r de significancia para la regresin lineal simple.
Ho:Bt=o Hu:Br*o
ESTADSTICO PRTJBBA DE b,
L _
t,
(r4.rel
REGI-ADERECHAZO Rechazarilo si valor-p = a Mtodo del valor-p: I/o Mtododel valor crftico: Rechazar si I s 'tatzo si t > t*, de dondero, se toma de la disribucin I con n - 2 grados libertad.
57r
El El estimador puntual es , y el margen de error es toDsb,. coeficiente de confianza para este intervalo es I - a y tutzes el valor / que proporciona un rea qlZ en la cola superior de la distribucin t con n - 2 grados de libertad. Supngase,por ejemplo, que en el caso de Armand's Pizza Parlors se deseaobtener una estimacin de B, mediante un intervalo de 99Vode confianza. Enlatabla2delapndiceBseencuentraqueelvalor/correspondienteaG:0.0lyn-2: : l0 - 2 : 8 gradosde libertad es /0.005 3.355. Por lo tanto, la estimacinmedianteun intervaIo de 99Vode confianza es b , - + t o , r s u ' : 5 - r 3 ' 3 5 5 ( 0 ' 5 8 0 3:) 5 a l ' 9 5 o el intervaloque va de 3.05 a6.95. Al emplear la prueba r de significancia la hiptesis probada fue H oB r : 0 : Hu:Br*0 Empleando a : 0.01 como nivel de significancia, se puede usar el intervalo de 99Vode confianza como alternativa para llegar a la conclusin de la prueba de hiptesis que se obtiene con los datos de Armand's. Como 0, que es el valor hipottico de B,, no est comprendido en el intervalo de confianza(3.05 a 6.95), se rechazaHo y se concluye que entre el tamao de la poblacin de estudiantesy las ventas trimestrales s existe una relacin estadsticamentesignificativa. En general, se puede usar un intervalo de confianza para probar cualquier hiptesis de dos colas acercade B,. Si el valor hipottico de B, est contenido en el intervalo de confianza, no se rechaza Ho. De lo contrario, se rechazaHr.
Pruebo F
Una prueba F, basadaen la distribucin de probabilidad F puede emplearsetambin para probar la significancia en la regresin. Cuando slo se tiene una variable independiente,la prueba F lleva a la misma conclusin que la prueba /; es decir, si la prueba r indica que Bt * 0 y por lo tanto que existe una relacin significante, la prueba F tambin indicar que existe una relacin significante. Pero cuando hay ms de una variable independiente,slo la prueba F puede usarse para probar que existe una relacin significante general. Lalgicadetrs del uso de la prueba F para determinar si la relacin de regresin es estadsticamente significativa se basaen la obtencin de dos estimacionesindependientede o2. Se explic cmo ECM proporciona una estimacin de o2. Si la hiptesis nula llo: F, : 0 es verdadera,la suma de cuadradosdebida a la regresin, SCR, dividida entre sus grados de libertad proporciona otra estimacin independientede o2. A estaestimacin se le llama el cuadrado medio debido a la regresin o simplementeel cuadrado medio de la regresin. Y se denota CMR. En general, CMR : SCR Gradosde libertadde la resresin
En los modelos que se consideranen este texto, el nmero de grados de libertad de la regresin es siempre igual al nmero de variables independientesen el modelo: CMR: SCR Nmero de variables independientes
(r4.2O)
Como en este captulo slo se consideran modglos de regresin con una sola variable independiente, se tiene CMR : SCR/I : SCR. Por 1o tanto, en el ejemplo de Armand's Pizza Parlors, CMR : SCR: 142Oo. indepenSi la hiptesisnula es verdadera(Hoi F t: 0), CMR y ECM son dos estimaciones sigue una distribucin F en la que el ndientes de o2 y la distribucin muestral de CMR/ECM
572
l4 Coptulo
lineolsimple Regresin
mero de grados de libertad en el numerador es igual a uno y el nmero de grados de libertad en el denominador es igual a n - 2. Por lo tanto, si r : 0 el valor de CMR/ECM deberser un valor cercano a uno. Pero, si la hiptesis nula es falsa, (8, + 0), CMR sobreestimaro2 y el valor de CMR/ECM se inflar; de esta manera valores grandes de CMR/ECM conducirn al rechasignificante. zo de Ho y a la conclusin de que la relacin entre x y y es estadsticamente realizar la prueba F en el ejemplo de Armand's Pizza Parlors. El estadsA continuacin se tico de prueba es
Hr:Br-o H8,*o
ESTAD STICO DE PRI.IEBA
r=ffi
REGLADERECTIAZO Rechaza llo si valor-p s a Mtodo del valor crtico: Rechaza Hosi F > Fo Mtodo del valor-p:
{tt"2tl
donde d es un valor de Ia distribucin F con I grado de libertad en el numeradot y n - 2 grados de libertad en el denominador.
En el captulo 13 se vio el anlisis de varianza (ANOVA) y el uso de la tabla de ANOVA para proporcionar una visin resumida de los clculos que se emplean en el anlisis de varianza. Para resumir los clculos de la prueba F de significancia para la regresin se emplea una tabla ANOVA similar. En la tabla 14.5 se presentala forma general de una tabla ANOVA para la regresin lineal simple. En la tabla 14.6 se presentala tabla ANOVA con los clculos para la prueba F del ejemplo de Armand's PizzaParlors. Regresin, error y total son los rtulos de las tres que aparecen fuentes de variacin, y SCR, SCE y STC las sumasde cuadrdoscorrespondientes los de en la columna2.En la columna 3 aparecen g'rados libertad I para SCR, n - 2paraSCE y n - 1para STC. Los valores de CMR y ECM aparecenen la columna 4. En la columna 5 aparece el valor de F : CMR/ECM, y en la columna 6 apareceel valor-p que conesponde al valor de F de la columna 5. Casi todos los resultadosproporcionados por computadoraspara el anlisis de regresin presentanuna tabla ANOVA de la prueba F de significancia.
14.5 Pruebo significoncio de TABTA I4.5 FORMA GENERALDE LA TABLA ANOVA PARALA REGRESIN LINEAL SIMPLE Suma de cuadrados SCR
SCE
573
En toda tabla para el anlisis de varianm, la suma total de cuadrados es la suma de la suma de cuadrados de la regresin ms la suma de cuadrados del error; ademds, el total de los grados de libertad es ls suma de los grados de libertad de la regresin ms los grados de libertad del error.
Grados delibertad I
n- 2 n - l
Cuadrado mdio
f
FCMR CME
Yabrp
CMR: Y
CME::SCE n - Z
src
El aruilisis de regresin, que se usa para identijlcar la relacin entre las variables, no puede emplearse como evidencia de una relacin de causa ! efecto.
Grsdof dellbertd I E
Cusdrrdo mtdlo
Valor.p
574
lineol Regresin simple EJEMPLODE UNAAPROXIMACIN LINEAL PARAUNA RELACIN QUE NO ES LINEAL
i-bo+b{
Valormenor de
Rangode los valoree de obserYados
por I : bo+ brx es buena en el rango de los valores observadosde x en la muestra, se vuelve deficiente fuera de ese rango. Dada una relacin significante, la ecuacin de regresin estimadase puede usar con confianzapara predicciones correspondientesa valores de x dentro del rango de los valores de observados en la muestra. En el ejemplo de Armand's Pizza Parlors, este rango corresponde a los valores de entre 2 y 26. A menos que haya otras razonesque indiquen que el modelo es vlido ms all de este rengo, las predicciones fuera del rango de la variable independientedeben hacerse con cuidado. En el ejemplo de Armand'sPizza Parlors, como se ha encontradoque la relacin de regresin es significante al nivel de significancia de 0.01, se puede tener confianzapura usar esta relacin para predecir las ventas de restaurantesen los que la poblacin de estudiantes correspondienteest en el intervalo de 2000 a26 OOO.
hechasacercadel trmino del Las suposiciones error (seccin 14.4) son las que permiten las pruebasde significanciaestadstica estasecde de cin. Las propiedades la distribucin muespruebas r y F tral de b, y las subsiguientes de siguendirectamente estassuposiciones. 2. No se debeconfundir la significanciaestadstica con la significancia prctica. Con tamaos de muestramuy grandes,se puedenobtenerrepara vasignificantes sultadosestadsticamente lores pequeosde 1; en tales casoshay que tener cuidado al concluir que la relacin tiene signifi cancia pr ctica. 3. Una pruebade significanciaparala relacin lineal entre y y tanin se puederealizar usando el coeficiente de correlacin muestral r-.
Empleando rxy pnra denotar el coeficiente de correlacinpoblacional,las hiptesisson las siguientes. Ho"P,, : 0 Hu: P,, * 0 Si se rechaza se puedeconcluirque existe Ho, una relacin significante.En el apndice14.2 se proporcionanlos detallesde estaprueba.Sin embargo,las pruebasr y F presentadas esta en seccindan el mismo resultadoque la prueba de significanciausandoel coeficientede correlacin. Por lo tanto, si ya se ha realizadouna pruebaf o una pruebaF no es necesario realizar una prueba de significancia usando el coeficiente de correlacin.
575
Mtodos
o"o@
a. Usandola ecuacin(14.15) calcule el error cuadradomedio. b. Usandola ecuacin(14.16) calcule el error estndar estimacin. de c. Usandola ecuacin(14.18) calcule la desviacinestndar estimadade ,. (c d. Use la pruebat paraprobar las hiptesissiguientes : 0.05) Ho:Pr=0 Hu:Br#0 e. Use la pruebaF paraprobarlas hiptesisdel inciso d) empleando como nivel de significancia 0.05. hesente los resultados el formato de tabla de anlisisde varianza. en
a. Usandola ecuacin(14.15) calcule el error cuadradomedio. b. Usandola ecuacin(14.16) calcule el error estndar estimacin. de c. Usandola ecuacin(14.18) calcule la desviacinestndar estimadade 0,. d. Use la prueba/ para probar las hiptesissiguientes(a : 0.05). Ho:Br=0 Hu:Br#0 e. Use la pruebaF paraprobarlas hiptesisdel inciso d) empleando como nivel de significancia 0.05. Presente resultados el formato de tabla de anflisis varianza. los en de
a. Cules el valor del error estndar estimacin? de b. Pruebesi existeuna relacin significanteusandola pruebaf. Use c = 0.05. Emplee la pruebaF para ver si existe una relacin significante.Use c : 0.05. Cules la conclusin?
Aplicqciones
o"o@
576
l4 Coptulo a. b.
lineolsimple Regresin
significanteentrepromedioy salariomensual? IndicaIa pruebar que haya una relacin usando la prueba F. cul es la conclusin?use Pruebe si Ia relacin es significante a :0.05. c. D la tabla ANOVA' En para excursionismo' la y 27. La revista outside Magazineprob l0 modelosde mochilas botas y precio de cadamodelo.El soportesutabla siguient" ," p."r*tun los datosde soportesuperior soy denotaexcelente perior se midi con una escaladel I al 5 en la que I significa aceptable 5 Guide 2001)' porte superior(OutsideMagazineBuyer's
Boots
Fabrlcante Y modelo Raid Super Salomon Prme Merrell Chameleon TevaChallenger Fuon GTX Vasque Boreal Maigrno Guide GTX SuPer L.L. Bear Lowa Kibo AsoloAFX 520 GTX RaichleMl Trail GTX Delta SL M3 Scarpa
$oportetuperlor 3 3
J
3 5 5 4 4 5
Pr?do(18) t20 125 130 t35 150 189 190 t95 20 229
paraestimarel precio de las a. Use estosdatosparaobtenerla ecuacinde regresinestimada con baseen el soportesuperior. mochilasy las botaspara excursionismo y superior precio. si a b. Empleand-o = 0.05.determine hay relacinentresoporte la ecuacinde regresinestimadaobtenidaen el inciso a) paraestimarel c. Confiaraen usar supeprecio de las mochilasy botas para excursincon baseen la evaluacindel soporte rior. del soportesuperior d. Estime el precio de una mochila que tiene un 4 como evaluacin de dormir de Bergans ('F) 28. En el ejercio 10,con los datosde temperatura y precio ($) de ll sacos j estimada = 359.2508- 5.277b' Empleando de Norway se obruvo la ecuacinde regresin D relacionados' la ta' y 0.05 com nivel de significancia,dterminesi temperatura precio estn esla conclusin? bla de ANOVA. Cul producciny costospara 29. Vuelva al ejercicio 2I,enelque se usaronlos datossobrevolumen de el volumende producciny los cosque relacionaba obteneruna ecuacinde regresinestimada de ope-racin produccin.Use cr = 0.05 paradeterminarsi el volumende tos de una determinada D la tablaANOVA' produccinestrelacionadode maneiasignificativacon los costostotals' Cules la conclusin? paradeterminarsi el preciode 30. Vuelva al ejercicio 22,en elque seemplearonlos datossiguientes texto (PC World' febrero una impresoraestabarelacionadocon su velocidadpara imprimir un 2003).
Nornbrt 1250W Minolta-QMSPagePro HL-l850 Brother Irmark E320 1250E Minolta-QMSPagePro HPLaserjet12fi) 4400/l'{ Xerox Phaser BrotherHL-2460N
Pdo(l) 199
'w tw
4ry
Prlntcru
t00tt vilfu!
rtr
r99
577
que hayauna relacin significanteentrevelocidadde impresiny precio? Indicanlas evidencias y Realicela pruebaestadstica apropiada d su conclusin.Use a : 0.05. En el ejercicio20 con los datossobre : precio($) y y : evaluacin 31. general l0 televisores de de plasma,de 42 pulgadasprobadaspor ConsumerReportsse obtuvo la ecuacinde regresin estimada! : 12.0169 +0.0127x.Con estos datosseobtuvieron y SCE : 540.04 STC : 982.q. Use la pruebaF paradeterminarsi el preciode los televisores plasma,de 42 pulgadas la evade y luacin generalestin relacionados. Use s = 0.05.
Esiimocin puntuol
En el ejemplo de Armand'sPizza Parlors, la ecuacin de regresin estimada.l : 60 * 5x proporciona una estimacin de la relacin enfte x el tamao de la poblacin de estudiantesy y las ventas trimestrales.Con la ecuacin de regresin estimada se puede obtener una estimacin puntual del valor medio de y correspondientea un determinado valor de x o se puede predecir el valor de y que coresponde a un valor de r. Por ejemplo, supngaseque los gerentesde Armand's deseanuna estimacin puntual de la media de las ventas trimestrales de todos los restaurantes que se encuentren cercade campusde 10 000 estudiantes. Usandola ecuacinde regresinestimada!:60+5x,con.r=10(o10000estudiantes)seobtienei:60+5(10)=ll0.Porro tanto, una estimacin puntual de la media de las ventastrimestrales de todos los restaurantes ubicadoscercade campusde l0 000 estudiantes $110 000. es Ahora supngaseque los administradoresde Armand's deseanpredecir las ventas de un deerminadorestauranteubicado cerca de Talbot College, una escuela de l0 000 estudiantes.En est caso lo que interesa no es la media correspondientea todos los restaurantesque estn cerca de campus de 10 000 estudiantes,sino nicamente predecir las ventas trimestrales de un determinado restaurante.Enrealidad,la estimacin puntual de un solo valor de y es igual a la estimacin puntual de la media de los valores de y. Por lo tanto, la prediccin de las ventas trimestrales de esterestaurante sern! : 60 + 5(10) : ll0 o $110 000.
Las estimaciones puntuales no proporcionan informacin alguna acercade la precisin de una estimacin. Para eso es necesarioobtener estimacionespor intervalo que son muy parecidasa las de los captulos 8, 10 y 11. El primer tipo de estimacin por inervalo,el intervalo de confianza es una estimacin por intervalo del valor medio de las y que correspondena un valor dado de x. El segundotipo de estimacin por intervalo, el intervalo de prediccin, se usa cuando se necesita una estimacin por intervalo de un solo valor de y para un valor dado de x. La estimacin puntual del valor medio de y es igual a la estimacin puntual de un solo valor de y. Pero las estimaciones por inervaloque se obtienen para estos dos casos son diferentes. En un intervalo de prediccin el margen de error es nryor.
578
l4 Copitulo
lineolsimple Regresin
,:rl:.#*l
(r4.22).
lr4.22l
Una estimacin de la desviacin estndarde !o est dada por la raz cuadrada de la ecuacin
[ . sr , : "sY ln "- . 1-
, ra-tf
)(x,-.i)2
(r4.23)
en obtenidos la seccin14.5parael ejemplode Armand'sPizzaParlorsse En los resultados 10,f : 14y X- i)2:56S,usandolaecuacin(14.23)seobtienes: l3.8zg.Comoto= tiene
DE INTETALO CONFIANZAPARA8(yn)
El margen de error en esta estilnac in po r inte malo (este intemalo de estimacin) es torsgr.
9p t
totzsgn
(r4.241
Paa obtener, con la frmula (14.24), un intervalo de confianza de 95Vo para la media de las ventas trimesftales de los restaurantesArmand's que se encuenan cerca de campus de l0 000 estudiantes,senecesitaelvalorderparao,l2:O.025yn-2=10-2=8gadosdelibertad.En la tabla 2 del apndice B, se encuentra to.o2s: 2.306. Por lo tanto, como !o : I l0 y el margen de error es tonsgo: 2.3M(4.95) : 11.415,la estimacinpor intervalo de 957ode confianza es 110 -'- 11.415
579
FIGURA I4.8
INTERVALOSDE CONFIANZA PARALA MEDIA DE LAS VENIAS y CORRESPONDIENTES AVALORES DADOS DELTAMAO DE LAPOBLACIN DE ESTUDIANTESx
Llmite superior
:"&9
6
'Et* e E 8 0
- -
rhiteinferior
En dlares,el intervalo de 95Vo conftanzaparalamediade las ventastrimestrales todoslos de de que restaurantes seencuentran cercade un campus l0 000 estudianes ll0 000 + $11415. de es Por lo tanto,si el tamao la poblacinde estudiantes l0 000, el intervalode 95Vo conde es de franza para la media de las ventas trimestralesen los restaurantes cercanosa un campusde l0 000 estudiantes el intervaloque va de $98 585a$L2l 4L5. es que Obsrvese la desviacin es&ndar estimada !0, dadapor la ecuacin de (14.23), menor es cuandoxp: y la cantilad - : 0. En estecaso,la desviacin xp estrindar estimada !o se de convierteen
tin:"
G-flz
2(x, - i)2
: " !F ;
Esto significa que cuando xp: i se obtiene la mejor estimacin o la estimacin rnrs precisa del valor medio de y. Entre ms aleiada estxn de i, mayor rcrl xn - . El resultado es que los intervalos de conftanza para el valor medio de y son mrsamplios a medida que rn se aleja de i. En la figura 14.8 se muestra esto grtftcanente.
580
l4 Copitulo
lineolsimple Regresin
de 10 000 estudiantes.Como ya se indic, la estimacin puntual de yo, el valor de ) que cones: * btxo.ln el caso ponde a un valor dado xo, se obtiene mediante la ecuacin de regresin!, ?o : 10, las ventas trimestrales pronosticadasserestaurante cercae talUot College, como.rp el rn i- : 60 + 5(10) : 110o $110 000. Obsrveieque estevalor es el mismo que el obtenidocomo L'stimacin puntual de la media de las ventas en los restaurantesque se encuentrancerca de campus de l0 000 estudiantes. para obtener un intervalo de prediccin, es necesariodeterminar primero la varianza cores: xp' Esta varianpondiente al uso de !o como estimacin de un valor individual de y cuando a x za estformada por la suma de los dos componentessiguientes' 1. La varianzade los valores individuales de y respectoa la media E( yo), para la cual una estimacin estdadaPor s2 2. Lavaianzacorrespondiente al uso de !o para estimar E(yr), para la cual una estimacin est dada Por s', La frmula para estimar la vaianza de un valor individual de yo que se denota sfio' es
: t-Lt*
(r4.2s)
por lo tanto, una estimacin de la desviacin estndarde un solo valor de )o es la dada por
sind :
-, ; \-
(r4.2)
En el ejemplo de Armand'sPizza Parlors, la desviacin estndarestimada que corresponde a la prediccin de las ventas de un determinado restaurante que est cerca de un campus de se 10 000 estudiantes calcula como sigue.
rro-l4f
568
in t forrs"o
(tL2rl
- tanes un velor ds la distribucin r para n dsnde el eosficients de confianza s I ! ? grados de libqtad \_ del El intervalo de prediccin de las ventastrimestgales restaurantesituado cerca de Talbot Colla: : /o.ozs 2.306 y s,no 14.69.Por lo tanto, como-in--:- ll0 y-el margen ge se encuentraempleando : " ".o. es /o/2rind 2.306(14.69) : 33.875, el intervalo de prediccin de 957o de confianza es
1 1 0+ 3 3 . 8 7 5
58r
PARALAS VENTAS y QUE CORRES. FIGUMI4.g INTERVALOSDE CONFIANZAY DE PREDICCIN PONDENA VALoRES DADOS .TDEL TAMAO NT LA POBLACINDE ESTUDIANTES
240 220
Lnites del inervalo de confianza Los iniervalosde prediccinson ms anchos Lfihites de los intprvalos ds prpdiecin
a2 W
f rro
roo
I E r40 I
.t tzo
t* * 8 0
60 2A Is dosintervalos la tienen monor amptitu!
cllS=
i-
L4
En general,tanto las lneas de los lmitespara los in' temalosde confianzncomo las de los lmitespara los intemalos dep rediccin ticten cierta curvatura.
es el En dlares, intervalode prediccin $110000 + $33 875o el intervaloqueva de $76 125a que cerparaun solorestaurante seencuentre que $143875.Obsrvese el intervalode prediccin la queel intervalode confianzapara media es ca de un campode 10 000 estudiantes msamplio de que cercade campus 10000 estudiantes. de de las ventas todoslos restaurantes seencuentran la puedeestimarcon msprecisin mediade y queun reflejael hechode que se Estadiferencia y. solo valor individualde mediante comolas estimaciones un mediante intervalode confianza Tantolas estimaciones es precisas el valor de la variableindependiente cuando un intervalo de prediccinson ms y : . En la figura 14.9semuestra forma general los intervalos confianza de los inde de la xp que sonmsanchos' tervalosde prediccin
Mrodos
Orto@
a. b.
de Use la ecuacin(14.23) para estimarla desviacinestndar j'o cuandox : 4. parael valor espeUse la expresin(14.24) para obtenerun intervalo de confianzade 95Vo : 4. radodey cuandox
582
l4 Coptulo
lineolsimple Regresin
c. d.
Use la ecuacin(14.26) paraestimarla desviacinestindarde un valor de y cuando.r : 4. un Use la expresin(14.27) para obener intervalo de prediccin de 95Vopara y cuando x:4
a. b. c. d.
de Estime la desviacinestndar j,o cuandor = 8. el de Obtengaun intervalo de 95Vode conftanzapara valor esperado y cuandox : 8. de Estime la desviacinestndar un valor individual de y cuandor : 8. Obtengaun intervalo de prediccinde 95Voparay cuandor = 8.
Obtengalos intervalosde confianzay de prediccin del 95Vopara x : 12. Explique por qu son diferentes estos dos intervalos.
Aplicociones
orto@
3sEn el ejercicio 18,con los datosde los promediosde calificaciones y los salariosmensualesy j :
SloplngBagg
1790.5+ 581.1. se obtuvo la ecuacinde regresinestimada D un intervalo de 95Vode conftanzapara el salario medio inicial de todos los estudiantes a. cuyo promediofue 3.0. b. D un intervalo de 95Vode predicci para el salariomedio inicial de Joe Heller cuyo promediofue 3.0, (oF) : x y precio ($) = y de 12 sacosde En el ejercicio 10, a partir de los datosde temperatura 36. dormir, fabricadospor Bergansof Noway, se obtuvo la ecuacinde regresinI : 359.2668 - 5 .2772x. Paraestos datoss = 37.9372. sea a. D una estimacinpuntual del precio de un sacode dormir cuya temperatura 30. de b. D un intervalode95Vode confianza parael precio medio de lodos los sacos dormir cuya sea temperatura 30. es c. Supongaque Berganselaboraun nuevo modelo cuya temperatura 30. D un intervalo de prediccinde95Vopara el precio de estenuevo modelo. a d. Explique la diferenciaentre susrespuestas los incisos b) y c).
En el ejercicio 13 se proporcionarondatossobreel ingresobruto ajustadoy el monto de las dede duccionesen las declaraciones impuestos.Los datos se dieron en miles de dlaes.Como la para es ecuacinde regresinestimada ! : 4.68 * O.lx,elmontarazanablede las deducciones, un contribuyentecuyo ingresobruto ajustadosea$52 500, es $13 080. a. D un intervalo de 95Vode conftaru,apara el monto medio de las deduccionesde todos los cuyo ingresobruto ajustadosea$52 500. contribuyentes b. D un intervalo de prediccin de 95Vopara el monototal de deduccionesde un contribuyente cuyo ingresobruto ajustadosea$52 500. de c. Si el contribuyentedel inciso b) solicita deducciones $20 400, sejustificara que se le quiera haceruna auditorla? d. Emplee su respuestaal inciso b) para indicar el monto de las deduccionesque puede solicitar un contribuyentecuyo ingresobruto ajustadosea$52 5) sin gue se le hagauna auditoa. Retomeel ejercicio 21, en el que la ecuacinde regresinestimadai :1U6.67 + 7.6x se obtu38. y vo empleando los datos de volumen de produccin r y costos otales de una dtrminadaoperacin de fabricacin. a. En el plan de produccin de la empresase ve que el mes prximo debern producirse 5) unidades.D la estimacin puntual de los costos totales.
JI.
583
parael costototal de produccinde las 500 unidades, D un intervalo de prediccinde99Vo el mes prximo. Si al final del mes prximo, el informe de costosde un contadorindica que en esemes los preocupara los gerentes haberincucostosrealesde produccinfueron $6000,debera el rrido esemes en costostotalestan altos?Analice.
39. En EstadosUnidos casi todo el sistemade tranvasusa vagoneselctricosque corrensobrevas a nivel de la calle. La Administracinde Trrnsito Federalafirma que el tranvaes uno de los meya ms seguros, que la tasade accidentes 0.99 accidentes milln de mipor dios de transporte es llas-pasajero comparacincon2.29 en los autobuses. los datossiguientes dan las millas en En se de va y la cantidadde pasajeros transportados los daslaborables, miles,de seissistemas en en de tranvas(USAToday,T de enero2003).
Millas de vlas
15 t7 38 2l 47 31 34
Use estosdatospara obtenerla ecuacinde regresinestimadaque podra emplearse para predecirla cantidadde pasajeros dadaslas millas de vas. b. Proporciona ecuacinde regresinestimadaun buen ajuste?Explique. la c. Obtengaun intervalo de 95Vode confianzapara la media de la cantidadde pasajeros transportadosen los daslaborables los sistemas tranvasque tienen 30 millas de vas. en de que Charlotteestconsiderando construccin un sistemade tranvade 30 mid. Suponga la de llas de vas.D un intervalo de prediccinde95Voparala cantidadde pasajeros transportada en un da laborablepor el sistemaCharlotte.Creeustedque el intervalo de prediccin que desarrollpuedaser til a los que estnplaneandoCharlottepara anticiparla cantidad de pasajeros un da laborableen su sistemade tranva?Explique en a.
5M FIGURA I4.IO
lineol 14 Coptulo Regresin simple DADOS PORMINTTABPARAEL PROBLEMADEARMAND'S RESUUTADOS PIZZAPARLORS I Estimatdregf,essionequation I f 6.50 8.62 P 0.000 0,000
S = 13.83
R-eg - 90.3*
R-Eq(dJ) 89.1*
sorrBcE
ItegreFeion Regiduat Error Ifotal Predictd t{ew obe I
pr 1 I 9
F 14,2*
o.oog I J
rfr
110.00
sE Fir 4.95
que de exprees Observe "R-sq = 90.3Vo" el coeficiente determinacin bondad ajuste, de "R-sq (adj) : 89.IVo"severen el capftulo15. El sadocomoporcentaje. valor Minitab usael rAnalysis of Varance. bajo el encafuzado 4. La tablaANOVA sepresenta que tulo ResidualEnor parala fuentede variacindel error' Obsrvese DF es la abreviaof cin de degrees freedom( = gradosde libertad) y que CMR est dadocomo 14 200 y de ECM como l9l. El cociene estosdosvaloresda el valor F guees 74.25y el correspondientevalor-p 0.000. como el valor-p es cero (a fies lugaresdecimales),la relrcin' significante. estadfsticamente entre ventas(Sales)y poblacin(Pop) se consider un mediante intervalode anfianndeg% y |ne6' esperadas de 5 . La estimacin lasvenas sercanoa un campusdo t0 (Xn timacin de las ventasde un determinadoresaurante de de medianteun nervalo estimacin 954ose dan abajo& l tabla ANOestudiantes de es VA. El inervalode conftanza (98.58, LZL.42,y el inervalo prediccines (76.12, 14.6. 143.88) comoseindicen la seccin
Aplicociones
o"o@
N.
La divisin comercial de una empresainmolaria realizl_unanlisis dc rcgresin de l relacin entre rentasbrutas anuales(en miles dc dlares) y y, prpcio de venta (en miles de dlares) de Se edificios de departamenos. obnvieron datos sobre varias propiedadesvendidas ltimamente y con la computadora se obtuvieron los resultadossiguientes.
585
It'hc rogreselor equatLon ie f - 20.0 + 7.21 x' Predistor contrnt tf coef, 20.000 ?.2L0 SE coef 3.a13 X.3636 T 6.2I 5.29
a. b. c. d. e.
Cuntosedificios de departamentoshaba en la muestra? Dlaecurc,i de regresinestimada Cules el valor de .rr,? Use el estadlstico F pa probar la significancia de la relacin empleando 0.05 como nivel de significancia. Estime el precio de venta de un edificio de departamentoscuyas rentas anualesbrutas son
s50000.
41. A continuacin se presentauna parte de los resultadospor computadorade un anlisis de regresin en el que se relaciona y = gastosde mantenimiento (dlares por mes) con r uso (horas por rmana) para una marca determinadade terminal de computadora.
lltre regrreseion equation is Y - 6 . 1 0 9 2+ . 8 9 5 1 x Predictor Conetarit x Anqlysis Coef 6.1092 0.8951 of Varfans* SE Coef 0.9361 0.1490
sc[tRcs
Regreeeion neidual Error ?Dotal
Dr
1 I 9
ss
1575.?6 349.14 1924.90
t{s
15?5-?6 {3.64
a. b. c.
D la ecuacinde regresinestimada. Use una prueba t para determinar si los gastos mensualesde mantenimiento estn relacionados con el uso, empleando0.05 como nivel de significancia. Utilice la ecuacin de regresin estimada para predecir los gastos mensualesde mantenimiento de una terminal que se usa 25 liora por semana'
42. Un modelo de regresinque relaciona, el nrimero de vendedorcsen una sucursal,con las ventas anualesen esa sucursal (en miles de dlares), proporcion el siguiente rcsultado de computadora empleandoanlisis de regresin de los datos.
58
is
x
Analysis
SE Coef
3.22L3 L.3626
6.2L 5.29
souRcE
Regression Residual Error TotaI
ss
41587.3 519841 .
a. b. c. d.
D la ecuacinde regresinestimada. participaronen el estudio? sucursales Cuntas Calcule el estadstico y pruebela significanciade la relacin empleando F 0.05 como nivel de significancia. Pronostique ventasanualesde la sucursalMenphis.En estasucursalhay 12 vendedores. las
que los corredores 43. Los expertosen saludrecomiendan beban4 onzasde aguapor cada 15 minutos que corran.Aunque las botellasde plstico son una buenaalternativapara la mayorade los corredores, cuandosecofTe todo un da a campotraviesaserequierensistemas hidratacinque de sellevan sobrela cintura o sobrela espalda. Estossistemas hidratacinadems permitir llede de var ms aguapermitenllevar tambinalimento o ropas.Por supuesto, medidaque aumentala a capacidad estossistemas, de aumenta tambinsu pesoy su precio.En la lista siguienteseda peso y precio de 26 de estossistemas hidratacin(Trail Runner Gear Guide, 2N3). de
Modelo Fastdraw FastdrawPlus Fitness Access Access Plus Solo Serenade Solitaire Gemini Shadow SipStream Express Lightning Elite Extender Stinger GelFlaskBelt GeIDraw GelFlaskClip-on Holster GelFlaskHolster SS Strider (W)
Peso (onzas)
J
4
J
W'o
Hydratloni
7 8 9 9 ll 2l l5 l8 9 t2 t4 l6
r6 3
I ,,
I 8
25 35 35 45 4 60 30 40 60 65 65 20 7 l0 l0 30
587
Peso (onzas) t4 9 t9 14 13
Prccio ($) 40 35 55 50 60
a. b. c. d.
e.
Con estosdatos obtengauna ecuacinde regresinestimadaque puedaser empleadapara predecirel precio de un sistemade hidratacinen funcin de su peso. Pruebela significanciade la relacin empleando 0.05 como nivel de significancia. un Proporciona buen ajustela ecuacinde regresinestimada? Supongaque la ecuacinde regresinestimadaobtenidaen el inciso a) tambinpuedausarsepara sistemas hidratacinelaborados otrasempresas. de por Obtengaun intervalo de conftanzade95Vo para estimar el precio de todos los sistemasde hidratacin que pesan l0 onzas. Supongaque la ecuacinde regresinestimadaobtenidaen el inciso a) tambinpuedausarse para sistemas hidratacinelaborados otrasempresas. de por Obtengaun intervalo de prediccin de 95Vo para estimar el precio del sistema Back Draft elaborado por Eastern Mountain Sports;estesistemade hidratacinpesa 10 onzas.
44. CushmanWakefield,Inc. recogedatos sobrela tasade desocupacin edificios de oficinas y en las tasasde las rentasen mercados EstadosUnidos. Los datossiguientes de dan la tasade desocupacin(Vo)y las tasasde rentaspromedio (por pie cuadrado)en las zonascomerciales centrales de l8 mercados.
Mercado Atlanta Bostoil Hrdord Baltimore $rashingon Philadolphia Miami T*pu Chicago SanFrmcisco Phoenix SanJos WestPatmBeach Deoit Frooldyn Downtown,NY Midtown, NY Midtown South,NY
OltRrt..
Thsa de (%) dcsocupacin 2t.9 6.0 22,8 18.1 12.7 14.5 20.0 t9.2 16.0 6.6 15.9 9.2 19.7 20.0 8.3 17.l 10.8 1 1l.
21.0r
35.09 19.41 25.28 t7.02 24.04 31.42 t8.74 26.76 27.72 18.20 25.00 29.78 37.03 28.&
a. b. c. d.
Con estosdatostraceun diagramade dispersin;en el eje horizontal grafiquela tasade desocupacin. haberalgunarelacin entre las tasasde desocupacin las tasasde rentas? y Parece D la ecuacinde regresinpara predecirla tasapromediode renta en funcin de una tasa de desocupacin dada. Empleandocomo nivel de significancia0.05 pruebela significanciade estarelacin.
588
l4 Copiulo
Regresin lineolsimple
un la e. Proporciona, ecuacinde regresinestimada, buen ajuste?Explique. en en en la f. Pronostique tasade rentaesperada los mercados los que la tasade desocupacin centraleses 25Vo. zonascomerciales generalen la zona comercial central de Ft. Lauderdalees ll.3%. E. La tasa de desocupacin en Pronostiquela tasade renta esperada Ft. Lauderdale.
entreel valor observado la de I Comoya seindic,el residualde la observacin esla diferencia (!,) (y) de variabledependiente y el valor estimado la variabledependiente
RES1DAL LA OB$ERTACIN' DE
/,*i
donde y, esel valor observado la voriabls dependiente de fi er el valaresmadode la variabledependiente
(r4.281
En otras palabras, el residual i es el error que resulta de usar la ecuacin de regresin estimada para predecir el valor de la variable dependiente.En la tabla 14.7 se calculan estosresidualescorrespondientesa los datos del ejemplo de Armand's Pizza Parlors. En la segundacolumna de la tabla se presentanlos valores observadosde la variable dependientey en la tercera columna, los valores estimadosde la variable dependienteobtenidos usando la ecuacin de regresin estimada ! : 60 * 5. Un anlisis de los residuales correspondientes,que se encuentran en la cuarta columna de la tabla, ayuda a determinar si las suposicioneshechas acecadel modelo de regresin son adecuadas. A continuacin se revisan las supopicionesde regresin en el ejemplo de Armand's Pizza Parlors. Se supusoun modelo de regresin lineal simple
(r4.2el
'
"Tr
58 105 88 ilE tt7 137 ls? 160 149
Vemtassttmds .9*6ll*$r
70 90 100 100 120 l& 10 160 l?0 t90
2 6 I 8 l? 16 20 2 72 26
w2
589
(y) que Estemodeloindicaque se supone las ventastrimestrales son funcinlineal del tamao (), msun trminodel error e. En la seccin14.4,parael trmide de la poblacin estudiantes suposiciones no del error e sehicieronlas siguientes 1. E ( e ): 0 .
La varianza de e, que se denota o2, es la misma para todos los valores de . 3. Los valores de e son independientes. 4. El trmino del error e tiene distribucin normal. Estas suposicionesson la baseterica para las pruebas r y F que se usan para determinar si la relacin entre r y ) es significativa y para las estimaciones,mediante intervalos de confianza y de prediccin, presentadas la seccin 14.6. Si las suposicionesacercadel trmino del error e son en dudosas,puede ser que las pruebasde hiptesis acercade la significancia de la relacin de regresin y los resultadosde la estimacin por intervalo no seancorrectos. Los residualesproporcionan la mejor informacin acercade e; por lo tanto, el anlisis de los residualeses muy importante para determinar si las suposicioneshechasacercade e son apropiadas. Gran parte del anlisis residual se basa en examinar grficas. En esta seccin se estudiariin las siguientes grificas de residuales.
7
1. ) 3. 4.
La La La La
grfrcade residualescontra los valores de la variable independientex grfica de residualescontra los valores pronosticadospara la variable dependiente! grfrca de residualesestandarizados grfrcade probabilidad normal.
590
lineol Regresin simple GRFICADE RESIDUALESCONTRALAVARIABLE INDEPENDIENTE OBTENIDA CON LOS DATOSDE ARMAND' S PIZZAPARLORS
t'v
+20
+10
5 (9
16 l8
?r
22 24
Para la adecuadainterpretacin de las grficas de residualesexperiencia y criterio son muy importantes. Es raro que una grrficaderesidualestenga exactamentela forma de una de las grficas presentadasen la figura 14.12. Sin embargo, los analistasque realizan frecuentementeesde tudios de regresin y grrficas residualesse vuelven expertos en reconocer las diferencias entre las formas razonablesy las que indican que se pude dudar de las suposicionesdel modelo. Una grficade residualesproporciona una tcnica para evaluar lavalidez de las suposicionesen un modelo de regresin.
Residuoles eslondorizodos
Muchas de las grficas de residualesque se obtienen con los paquetesde software utilizan una versin estandarizadade los residuales.Como se demostr en el captulo anterior, una variable aleatoria se estandarizasustrayndolesu media y dividiendo el resultado entre su desviacin es-
14.8 Anlisis residuol: confirmocinlossuposicionesmodelo de del FIGURA I4.I2 GRFICASDE LOS RESIDUALESCORRESPONDTENTES ATRES ESTUDIOSDE REGRESTONES
591
GrficaA
592
Coptulo Regresin 14 lineolsimple FIGURA I 3 GRAFICA DE RESTDUALES 14. CONTRAEL VALOR PRONOSTICADO i OBTENIDA CON LOS DATOSDE ARMAND'S PIZZA PARLORS
v*,
+2O
+I0 I
I
t o
tndar. Cuandose emplea mtodode mlnimoscuadrados, mediade los residuales cero. el la es Por lo tanto,paraobtener residual estandarizado sl slo es necesario dividir cadaresidualentre su desviacin estndar. Sepuededemostrar la desviacin que estndar residuali depende error estndar del del de estimacin y del valor correspondiente la variableindependiente s de *,.
DESVIACINESTANDARDEL RESIDUALi*
rr,*f * ttlTl*n,
donde sr,-j, - desviacinestrdafdel residuali J = errof estndardccstimscin
ltl.3ot
{tt.3tl
que Obsrvese la ecuaci6n (14.30)indicaquela desviacin estndar residual del r'depende 4, de debidoa la presencia h, en la frmula.** Una vez calculada desviacin de la esttndar cada de uno de los residuales, pueden se calculmlos residuales estandarizados dividiendocadaresidual entresusdesviaciones estndar correspondientes
'En rcolidod, eslu ecuocin proporciono uno climocin d lq dcviocin ndo dcl rrdduol I yo quc lo ur r Gl lugor dc o. " A /r, se le conocc como el influenciol d lo obcvocin i. El influcnciol a vcr co lo cccin l4.g cuondo r onridral ftl # srrruciones uyentes. infl
residuol: de 14.8 Anlisis conftrmocinlossuposicionesmodelo del TABIAI4.8 CALCULO DE LOS RESIDUALESESTANDARZADOS DEL EJEMPLO DE ARMAND'S PIZZA PARLORS
593
RcS*unnt*e
t I )
t
r*r
*12 *8 *6 *6 *2 2 6 I t?
Total
3 4 5 6 ',
r2
l6 20 26
2 6 I I
( * r)2 t4
64 3 36 4 4 36 36 & IM 58
itur - $r
0.2535 0.il2? 0.034 0.0634 0.0m0 0.0070 0.03t 0.0634 0.1t2? 0.2535
(r, - t)2
s
9 10
n,
srri, J -S *t2 lt.lt$3 r2.??09 l5 12.4CI3 - l ? 12.#93 1S *3 0.Im 13.06s? 0.10?s r3.06s2,: -3 $.163[ I1.6493 i s.lt34 12.193 r 9 0.2t77 n"nw l *2t 0"3535 rt:lt9$ ft, 0.3535 0"2127 0.163,{ 0.134
Rccidulee otandriradoe
*t.w92 L2241 *0.943? 1.4230 -0.219 *0.2296 *0.237? s.?115 -1.7114 t.7v2
{leml
Desviacioncs pequesde la rcrmalidad no tienenun efectograndeen las pruebas estadls as emple adas tc en el anlissdc regresin,
los estandarizados utilizandoel ejemplo En la tabla 14.8sepresentan clculosde los residuales que previosseobtuvos : 13 829.La fiRecurdese ya en clculos de Armand'sPizzaParlors. gura 14.14es la grficade los residuales estandarizados contrala variableindependiente x. permitever si la suposicin queel trminodel estandarizados de La gfrcade los residuales que la normales correcta. estasuposicin satisface Si se debeparecer eror tienedistribucin provienede una distribucin probabilidad estandarizados, de distribucinde los residuales norla de mal estnda.* lo tanto,al observar grfrca los residuales Por estandarizados, espera se en95Vo estandarizados estnenfre-2 y 1.2.En la contrarque aproximadamente de los residuales ftgwa 14.L4seve queen el ejemplodeArmand'stodoslos residuales estandarizados encuense con estandarizados, grficano esta tran entre -2 y +2, Por lo tanto,de acuerdo los residuales paradudarde la suposicin quee tieneunadistribucin de normal. da razones estimados !, los residuales los reside y Debidoal trabajoque significacalcularlos valores proporcionan, la de dualesestandarizados, mayorade los paquetes softwarepara estadstica de opcional,estosdatoscomo partede los resultados la regresin. de rnanera
594
l4 Coptulo
CONTRA ESTANDARIZADOS 14.14 cRFICADE RESIDUALES FTGURA X, LA VARIABLE INDEPENDIENTE OBTENIDA CON LOS DATOS DE ARMAND' S PIZZA PARLORS.
8 +l
N
a (u e tt
E o
o e)
1
14.9 TAB|
PUNTOSNORMALES PARA n : l0
Estadstico de orden I 2 4
J
6 7 8 9 l0
Punto normal - 1.55 - 1.00 -0.65 -0.37 -o.12 0.12 0.37 0.65 r.00 1.55
I4.IO TABTA
PUNTOSNORMALES Y RESIDUALESORDENADOSDEARMAND'S PTZZAPARLORS
Residuales estandarizados Puntos ordenados normales - 1.7ll4 - 1.55 -r.0792 - l.00 -0.9487 -0.65 -0.2372 -0.3'7 -0.2296 -0.12 -0.2296 0.12 0.7115 0.37 1.0792 0.65 r.2224 1.00 1.4230 1.55
ria que representael valor menor de estos varios muestreosse le conoce como el estadsticode primer orden. En la ciencia de la estadsticase ha demostrado que en muestrasde tamao 10 tomadas de una distribucin de probabilidad normal estndar,el valor esperadodel estadsticode primer orden es - 1.55. A este valor esperadose le conoce como punto normal. En el caso de una muestra de tamao n : lO, hay l0 estadsticosde orden y l0 puntos normales (ver tabla 14.9). En general, un conjunto de datos que conste de n observacionestendr n estadsticosde orden y por lo tanto ,?puntos normales. A continuacin se ve el uso de estos l0 puntos normalespara determinar si pareceser que los de residualesestandarizados Armand'sYrzza Parlors provengande una distribucin de probabilide dad normal. Para empezarlos 10 residualesestandarizados la tabla 14.8 se ordenan.En la tabla normales.Si se satisfapuntos normales y los residualesestandarizados 14.10 se presentanlos 10 normalidad, el menor residual estandarizado deber tener un valor parecido al ce la suposicin de del menor punto normal, el siguiente residual estandarizado deber tener un valor parecido al del se En siguientepunto normal, y as sucesivamente. el casode que los residualesestandarizados endistribuidos de una manera aproximadamente normal, en una gfica en la que los puntos cuentren normales correspondan al eje horizontal y los correspondientesresidualesestandarizadosal eje vertical, los puntos de la grfica estarinsituadoscercanosa una lnea recta a 45 gradosque pasepor el origen. A estagrfrca es a lo que se le conoce como gnifica de probabilidnd normal. La figura 14.15 es la grfica de probabilidad normal del ejemplo de Armand's Pizza Parlors. Para determinar si el patrn observado se desva lo suficiente de la recta como para concluir que los residuales estandarizadosno provienen de una distribucin de probabilidad normal habr que emplear el propio criterio. En la figura 14.15,todos los puntos se encuentrancerca de esta recta. Se concluye, por lo tanto, que la suposicin de que los trminos del enor tienen una distribucin de probabilidad normal es razonable. En general, entre ms cerca de la recta a 45 grados se encuentren los puntos, ms fuefe es la evidencia a favor de la suposicinde normalidad. Cualquier curvatura sustancial en la grfica de probabilidad normal es evidencia de que los residuales no provienen de una distribucin de probabilidad normal. Tanto los puntos normales como la correspondientegrfica de probabilidad normal pueden obtenersefcilmente empleando paquetescomo Minitab.
595
!t c! t{ t!
8 I
g 5
I x
1. Las grficas de residualesy de probabilidad normal se usanpara confirmar las suposiciones de un modelo de regresin.Si en estarevisin que una o ms de las suposiciones se encuentra son dudosas, habrque considerarotro modelo o una transformacinde los datos. Cuando se violan las suposiciones, medidasa tomar delas ben basarseen un criterio adecuadotlas recomendaciones una personacon experiencia de puedenser tiles. en estadstica 2. El anlisisde residuales el principal mtodo es para verificar si las suposiciones estadstico del
modelo de regresinson vlidas. Aun cuando no se encuentreninguna violacin, esono necesariamente implica que el modelovaya a proporcionarbuenaspredicciones. Pero,si adems existen otras pruebasestadsticas que favorezcan la conclusinde significanciay si el coeficiente de determinacines grande,deber ser posible obtenerbuenasestimaciones predicy cionesempleando ecuacinde regresinestila mada.
Mtodos
45. Dadoslos datosde las dos variables v v.
a. b. c.
A partir de estosdatosobtengaunu ""uu"in de regresinestimada. Calcule los residuales. Traceuna grfrcade residuales contrala variableindependiente Parecen x. satisfacerse las suposiciones acercade los trminosdel error?
59
l4 Coptulo
Regresin lineolsimple
d. Calcule los residuales estandarizados. e. Elaboreuna grfica de residuales estandarizados contrai. Quconclusinpuedesacarde estagrfica? 46. En un estudiode regresinse emplearonlos datossiguientes.
Observacin xi 1 2
1 a
lt 4
q
Observacln
xt
lt
3 4 5
4 5 7
& 4
6 7 8 9
7 7 8 9 1
6 9 5 1
a. b.
A partir de estosdatosobtengauna ecuacinde regresinestimada. Traceuna grficade residuales. satisfacerse suposiciones trminodel error? las del Parecen
Aplicociones
o,'o@47.il::il:i::l?l"::^:.:"'Jn:*::sobre.losgaStoSenpublicidadylosingresos(enmilesded
"-*;*
&Urs$o 19 32 4 N 52 53 54
a. b. c. d.
Seax igual gastosen publicidad y y igual a ingresos.Utilice el mtodode mnimos cuadrados para obteneruna lnea recta que aproximela relacin entre las dos variables. Empleandocomo nivel de significancia0.05, pruebesi los ingresosy los gastosen publicidad estnrelacionados. Elaboreuna grfica de residuales y - i contra !. Use el resultadodel inciso a) paraobde tener los valoresde !. se Quconclusiones puedensacardel anlisisde residuales? Sepuedeusar estemodelo o se debebuscaruno mejor?
48. En el ejercicio 9 se obtuvo una ecuacinde regresinestimadaque relacionalos aosde experiencia con las ventasanuales. y a. Calcule los residuales traceuna grfica de residuales paraesteproblema. b. A la luz de la grfica de residuales, razonables suposiciones las acercade los trparecen minos del error? 49. American DepositoryReceipts(ADR) son,certificados cotizan en la bolsa de NuevaYork y que que representanaccionesde empresasextranjerasque mantienenun depsito en un banco de su propio pas.En la tabla siguientesepresenta relacinprecio/ganancia (P/G) y el porcentaje la de rendimientode la inversin (ROE, por sussiglasen ingls), de l0 empresas hindesque es probable que seannuevos(BloombergPersonalFinance,abril 2000).
I .9
597
Bhti ?d.?erc! &js4t Atql ccI!t IoLo !4qcte8 IqCI Mrsr T.l?boo. Nig.n tT Pta.dir GDbi Syan CopE Srrvic't SfYrrlirc lbdnolotiD!' Vd.d S6ci Nii6
28.m
n.u
P/G 3.88 27,O3 1033 5.15 13.35 .9 L&t 189.21 75. t3,17
paraobtener ecuacin grsin que una de cstinada rclaEnplee un paquet software de ciony=P/Gy:ROE. contrala variableindepediente. b. Construya gfiade residuales na razoables suposicion$4.erc3de los rlas A la luz de la gficade r$iduales, paecen mios del eror y de la foma del nodelo?
Deteccinde observocionesoiipicos
qu de de u La figuraI 4.| 6 esun diagrama dispersi un conju o dedatos contiene oltser' vacionalptca,un dsto(unaobservacn) no sigue tendencia rrsto dr lo3dot$. L3 que la dd que y quc cuidaobservaciones alpicassonobservaciones sonsospechosas $quicranuanluii8 l,l.l IGURA ATtrtCA UN CONruNTODB DATOS CONIJNAOBSERVACIN
598
Coptulo14
Regresin lineolsimple
TABIA 14.I I
CONITJNTO DEDATOS PARA ILUSIRAREL ETtsCTODETJNA OBSERVACINTFIC
I I 2 3 3 3 4 4 5 6
It 45 55 50 75 & 45 30 35 25 l5
doso.PuedeEatarsede daoserrneos;si es asf, esosdatosdebeser coregidos, Itrede tratarse de una violacin a las suposiciones modelo; si es asf, habrque consideraroo modelo,Por del que ltimo, puedetratarse, simplemente, valoresinusuales sepresenten casualidad. ese por de En caso,esosvalores debern conservafse. Paamostrarcmo se detectanlas observaciones atfpicas,considrens daos la tabla los de I4.lI;laftgwa 14.L7muesfta diagrama dispersin esos el de de datos. Con exc*,pindela obparecenseguir un patrn que indicar una relacin liservacin4 (x4: 3, !+ = 75), estosdaos neal negativa.En efecto,dadoel pan que pareceseguirel restode los dafos,seesperarfa que yofuera mucho mspequeo, lo gue a estaobservacinse le consideraconrc un da|oa{pipor co. En el casode la regresinlineal simple,las observaciones atfpicaspuedendetectarse mediante un simple examendel diagramade dispersin. Paradetectarobservaciones atfpicastambinsepuedenusarlos residualee estandarizados. Si observacin alejamuchodel patrndel reso los datos(porejemplo, laobservacinatfse una de pica de la figura 14.16),el valor absolutodel correspondiente residual estadazah *r grande. Muchoe paque$es software identifican de tnanera auurtomtica observaciones de las cuyos residuales tienen un valor absoluto grande. la figura 14.18e presentan resultados En los dados por Minitab parael anlisis regresin los datos&latabla l4.Ll.Enel penrfltimo de de rengln de los resultados dadospor Minitab se lee gue el resdual estandarizah do la observacin es 4 2.67, Minrtab identifica como una observacin inusual toda obscrvacincuyo residualestandaz,adowa menora -2 o mayor a *2; en talescasosla ofuwactn aparece un renglnaparen tc con unaR al lado del residualestandarzado, como seobervaen lafigwa 14.18.Si los erorcs . estndisribuidos normalmenfc slo5% de los residualesestandiz,aM seenconEarn fuera& , estoslfmitps, Paradecidr qvhacercon una observacinatlpica"primoro hay que verificar si es una observacincorrecta.Puede gue $etratede un enor al anotarlor datoso al ingresarlos la comscr a putadora.Supngase, ejemplo, que al verificar la obervacn ulpica de l^ tabl, 14.17,* por encuenaque hubo un ern)r; el valor conecto dc la observacin etaxo : 3, !+ = 30. En la fi4 gura 14.19sepresena resultadoque proporcionaMinitab rnavezcorregido el valor de ya.Se el observaque el dato incorreco afectasustancialmene bondaddc ajuste.Con el dafo conpco, la el valor de R-sqaumenta 49.7%a83.8% y el valor de bodisminuye& 64.958a 59.237.L2 de pendientede la rectacambiade *7.33 a -6.949. t a identificacinde los dafosalpicoe permib corregir errorsen los datosy mejora los rcsultadosde la regresin.
599
14.18 RESUUTADOS FIGURA 1SIS DERE6RESIN eUEDAMINITABpARAELANA CONUNA OBSERVACIN ATPICA DELCONruNTODE DATOS
quation 1l'he regreeeion y = 65.0 - 7.33 x Predictor Congtant x S L2.67 Coef 64.958 -7.331 R-aq is
R-eq(adi)
enalysie
Olsewations
rit ;-: sE Bit neaLdual st Rssid il;-l-32.03 2.67R 4 3.00 75.00 42.97 4.0{
R denotee an obeeration with a large standrdlzed resldual.
FIGURA 14.19 RESUL:ADOS eUE DAMINITAB pARAELCONJUNTO DE DATOS CON UNA OBSERVACINATFICA YA CORREGIDA
AriaIyBlB of Varianec sorrRcE Regreceion RBBiduaI Error Toral p F DF ss t{s 1 1139.7 f139.7 11.38 0.000 220.3 27.5 8 9 1360.0
00
lineolsimple 14 Copltulo Regresin 14.20 CONJUNT6 DE DAOS coN UNA 9BSERVACININFLUYENTE FIGURA
observacintiene mucha ms influencia sobre la regtade regresinestimadaque cualquiera soel o6a observacin; efecto que tiene la eliminacin de cualquierade las otras observaciones es de regresinestimada muy pequeo. bre la ecuacin influyentespuedenidenlas Cuandoslo setiene una variableindependiente, observaciones un diagramade dispersn,Una observacininfluyente puedeser una obsertificarse mediante de vacin alpica (una observacincuyo valor de y se desvfa susancialmente la endencia (por ejemplo, ver la frgtua L4.20)o general),puedeser un valor de I muy aleiadode la mediia puedetratarsede la combinacinde estasdos cosas(un valor de y algo fuera de la tendenciay un valor de un pocoextremo). que dadoel granefeco tiecuidadosamente influyentesdebenexaminarse Las ob$ervaciones de regresinestimada.[.o primero que hay que haceres verificar gue no nen sobrela ecuacin Si ro hayacometidoalgrtnerror al recolectarlos daos. secometalgrlnenor, secorrige y seobpuedeuno consies de regresinestimada.S la observapin correca, tiene una nuevaecuacin contribuyea una mejor comprensin cuandoes coffeco, tenerlo,Tal dao, derarseafortunadode y del modelo adecuado conducea una mejor ecuacinderegresinetimada.Enlafrgtral4.?n, influyente, si es correcta,llevarl atr tar dp obtenerdafoscon vapresencia la obpcrvacin dp la que permtancomprendermejor la telrcin entrex y y, loree intermcdioo, valore extremossedenominan oma en Lae obeervacione las quo lavariable independiente de datos(puntos,observaciones) gran influencia. s6servacin influyentc&lafigwa 14.?fi punode graninflveneia. La influencia dp una obgetttrctndryfu' de qntan lejoc eot es un de el valor & la vuiable indaperirlnra- su meda.En el casode una sola variableindependien(leverage')dala obrewrci&r i, qW rc d?,ta htrc calot mcdiantcla *srcim te, la influencit (14.33).
rlt
ftf.ft!
De acuerdocon estafrmula es claro que cnhe,ms aletase cocucnEex, de su mediai ma. yor rcrla influencia (leverage)de la obeervacin oomo partede los repam idnfifican automticamene, Muchos de los paquee$ estadfstic de sultadosestndar regresin,los puntosde gran influencia Parailustrar cmo identifrcaMinide el tab los puntosde gran influencia, seconside,rar conjuno dato6&latabla 14.L2.
0r
t|Gt RAt4.2t
,,'
OUo*t*fOo. raninftPnair
I4.I2 TABTA
c{tur()
I'EDtrOS CONI.JNA GSEIVACINDE GNANNFLT.'ENCIA
t,
del de la Observando figura 14.21,que es el diagrama dispersin conjuntode datospresenen 7 tadoen la tabla l4-r2, seve quela observacin (r = 70,y = 100)esunaobservacin la que que el valor de esun valor extremo.Por lo tanto,esde esperarse seaidentificadocomoun pun(14.33). la se to de gtan influencia.La influenciade estaobservacin calculausando ecuacin (*, - )' I = - { - )2 7 2(x, (70 - 24.28q2 - 0,94
to
l5
ro m m
m
25
hr=L+
n
2621..43
sofrwarc Iosgunsdc gnc*lrio|,s Nmlncer lu cInlasry pcrmiten &cnmlas obsemaciones fuflryawl Aqu se discuc b nglade selacitt qE crnpldMilttu-
de En el casode la regresinlineal simple,Minitab identifica como observaciones gran influen' paralas queh, ) 6lno h, = 0.99,lo que seamenof.En el conjuntode dacia las observaciones tos de la tabla 14.12,6ln = 6f7 = 0.86. Como h = 0,94 > 0.86. Minitab identificala cuyo valot tiene una Bsn influencia. En la frgva 14.22 7 observacin como una observacin que da Minitab del anlisisde regresinde esteconjunto de datos.A la el se pesenta resultado de 7 observacin (x = 7O,y = 100)la identifica como una observacin gran influencia; estaobcon presenta un rengln aparteen la pte inferior de lo resultdos una X en el en servacinla margenderccho. de influyentesdebidasa la interaccinde un observacin gran influen[s observaciones de grandes,suelenser dif[ciles de detectar.Existen procedimientos diagnscia y de residuales es obsenracin influyente tomari en cuentaambascosas.En el tico que para determinarsi una D el uno de estosprocedimientos, estadlstico de Cook. caphrlo 15 seesnrdiard
una observrcincomo po' Un rezidencada influyene, dbi& e que tien un tencielnrente ' opmserde groninfluerci,su im' reskhulgralrde de' prcto sobrcl ecurcinde rcgrtsinestimad se be ser evluado.En extcs ms evanzudos fsntrn los nr&ods de dilgnstico apropiedos.
con no Pem,cuando e etfamiliarizado el mateuna rial ms av&nzado, manerasencillade hacer de estediagnrticoesrealizarel anlisis rcgrcsin Este mtodopermite con y sin era observacin. poaprcciarla influenciaquc tienela obsenacin influyentesobreel resultado. tencialmente
602
Coptulo Regresin 14 lineolsimple FtcURA14.22 RESULTADODE MINITAB EMPLEANDO EL CONJUNTODE DATOS CON TJNAOBSERVACIN GRAN INFLUENCIA DE lilre regreseio equation ia y 2 L27 * 0.rt?5 x Pradictor Constant x Coef SE Coef p T I27.466 2.96L 43.04 0.000 -0.{2507 0.09537 -4.46 0.007 R-sq(adj) = 75.9t
S - 11.883 R-sq = ?9.9t Analysis of Variance SO{IRCE Regr.ession Residual Error sotal
Unusual Obserations y x Obs Ftt SE Fit Residual St Resid ? 70,0 100.00 97.7L 4.73 2.29 1.91 X X denotee an obaersetlon whose X value givas it Large influence.
Mtodos
50. Considrense datos siguientes para las variablesx y y. los
160 120
1 0 1 2 1 2 2 2
t 2 t 4 1 6 1 5 1 8 2 0 z . 1 9
Calcule los residuales estandarizadosde estos datos. Hay entre los datos alguna observacin atpica? Explique. Calcule las observacionesde influencia que haya en estos datos. Entre estos datos, parece haber alguna observacin influyente? Explique. Con estos datos elabore un diagrama de dispersin. Se observa en el diagrama de dispersin la presenciade alguna observacin atpica?Explique.
c.
l4.g
03
Aplicociones
en bbls. (millones) de 52. Los datos siguientes muestran los gastos (en millones Oe$) Y los envlos de l0 inrportantes rnrcrs cerveza.
Mcg Budweisr Bud Light MinerLit CousLight Busch Naturel Light MitlorCmuinc Draft Miner Higb Life BuscbLigbt Mih*-mkee's Bcst
W'o
w
a. b.
6toc mcdloc (mlllonerde$) 120.0 68.1 100.1 76,6 8.7 0.1 2l.s 1.4 5.3 L.l
r3.2
Con estosdatosobtengauna ecuacinde regresinestimada' Emplee el anlisis resldual para hallar observacionesatfpicas u observacionesinfluyentes. Resumasushallazgosy conclusiones' unos 200 rrll de agua 53. Los especialistasen salud recomiendanque las personasque corren tomen tres a ocho horas, requiecada 15 minutos mientras estncorriendo. Las personasque colren de a contiren sistemasde hidratacin que se llevan sobre la cintura o sobre la espalda.En los datos oz. flu = 30 ml aprox') y el precio de 26 sistemasde nuacin se da el volumen (en onzasfluidas, I hidratacinque sellevan sobrela cintura o sobrela espalda(Trail RunnerGear Guide,2OO3).
Modelo Fastdraw FastdrawPlus Fitness Access AcccssPlus Solo Selenade Sotire Gemini Shdow SipStream Exprcss Lighming ElitE Er,tender Stinger GelFlaekBelt OelDraw c"mo[ crip.n Holster CelFtaskHolster SS Srider(W) Walkabout(V/) SolitudcI.C.E. GetawayLC-E. i.c.e. PnoRle I.C.E. Thaverse
Yalumtn (rft)
Pr{io
(s)
10 12 t2 20
z0
20 20
ffi'"
?r
20 N 20 [0 & 96 20 28
m ,m
!2 4 4 4 t 20 230 ?0 4.0 64 64
25 35. 35 45 10 60 30 40 60 65 65 2g 7 10 10 30 40 35 55 50 60
04
Coptulo14 a. b.
lineolsimple Regresin
Obtenga la ecuacin de regresin estimada que sirva para predecir el precio de un sistema de hidratacin, dado su volumen. influUse el anlisis residual para determinar si hay observacionesatlpicas u observaciones yentes.Resumasushallazgosy conclusiones.
54, En la tabla siguientesepresentala capitalizacin de mercadoy los salariosdel presidentedel consejo de administracin (CEO, por sus siglas en ingls) de 20 empresas(The WaIl StreetJournal, 24 de febrero de 2000 y 6 de abril de 2000).
tsM
& Johns Jsiton f{tnbetly{ta* Morrill Lynch Maorola PHlipMorrls Prcowr&Gamble ftr4comm $choring-Ptough $unMicrosystoms tbxaco WWest lValtDiney
Caplullzaclndemcrtado (mtll'once $) de 32977.4 162 365.r 31363.8 56849.0 8848.0 507216.8 44 180.1 191455.9 131.0 143 35 377.5 31062.1 92923.7 54421.2 r4r'.152.9 lt6 840.8 62259.4 r209ffi.5 30040.7 36450.8 61288.1
Slrl'DddCEO (n& lileS) 1130 1100 800 t3f0 1000 ?t25 9?8 20m l35 9S0 700
rn5 r6?s
r318.3 n3 r200 n6
950
sgt
?50
Obtenga la ecuacin de regresin estimadapara predecir el salario del CEO dada la capitalizacin de mercado. Use el anlisis de residualespara determinar si hay observacionesatpicas u observaciones influyentes.Resumasus hallazgosy conclusiones.
En estecapftulo se mostr el uso del anlisisde regresinpara determinarcmo es la relacin x. y entreuna variabledependiente y una variableindependiente En la regresinlineal simple,el lineal simpleE(y)= de es modelo de regresin y: flo+ flrx * e. La ecuacin regresin de + F{ describela relacin de la media o valor esperado y con x.Para obtenerla ecuacin Fo y datosmuestrales el mtodode mlnimos cuade regresinestimada : bo * b,.r seemplearon I muesalesque se usanpara estirnarlos parmetros drados.En efecto, bo y bt son estadsticos del desconocidos modelo,Fol Fy El coeficientede determinacinse presentcomo una medidade la bondadde ajustede la ecuacin de regresin estimada;el coeficiente de determinacinse puede interp,retarcomo que la proporcinde la variacinen la variabledependiente puedeserexplicadapor la ecuacin Se de regresinestimada. volvi a ver la correlacincomo una medidadescriptivade la intensidad de la relacinnealentrelas dosvariables. trmiacercadel modelo de regresiny del co'rrespondienrc Se discutieronlas suposiciones como un mediopaen t las no del error,y sepresentaron pruebas y F, basadas esassuposiciones, significativa. Se mostr ra determinarsi la relacin entre las dos variableses estadfsticamente
Glosorio
05
por paraobtener estimaciones mediode intervalos de estimada cmousarla ecuacin regresin papor parael valor mediode y y estimaciones mediode intervalosde prediccin de confianza ra valoresindividualesde y. por de de El captuloconcluycon una seccinsobresoluciones computadora los problemas paraverificarlassuposiciones moresidual del y el sobre usodel anlisis regresin dossecciones atfpicase influyentes. delo e identificar las observaciones
Variable dependiente La variable que se predice o explicada. Se denota y. Variable independienls Variable que predice o explica. Se denota . Regrcsin lineal simple Anlisis de regresin en el que participan una variable independientey una variable dependiente,y en el que la relacin entre estasvariables se aproxima mediante una lfnea recta. Modelo de regresin Ecuacin que describe cmo estn relacionadas) y ms un trmino del error; en la regresin lineal simple, el modelo de regresin es y : Bo * Btx * e. Ecuacin de regresin Ecuacin que describe cmo est relacionada la media o valor esperado de la variable dependiente con la variable independiente; en la regresin lineal simple,
E(y):fotArx. de obtenida parth de daa de Ecuacinde regresinss1rnEstimacin la ecuacin regresin En neal simple,la empleando mtodode mfnimoscuadrados. la regresin el tos muestrales, estimada i : bo I btx. es de ecuacin regresin paraobtener ecuacin regresin la de empleado Mtodo de mnimos cuadradosProcedimiento El estimada. objetivoes minimizarXy, l)t. va en Diagrama de dispersi Grficade datosbivariados la que la variableindependiente en va el eje horizontaly la variabledependiente en el eje vertical. de estiCoeficientede determins6 Medidade la bondadde ajustede la ecuacin regresin y mada.Se puedeinterpretarcomo la proporcin de la variabilidad de la variable dependiente por estimada. que esexplicada la ecuacin regregin de y de Residual; Diferenciaque existeentreel valor observado la variabledependiente el valor parala observacin el residuali es estimada; i, pronosticado la de empleando ecuacin regresin li- 9r (ya de Coeficientede correlaci Medidade la intensidad la relacinlineal entredosvariables visto en el capltulo3). insesgada la varianza trminodel error d. Sedenota de del Error cuadrado medio Estimacin ECM o s2. medio,sedenota Es unaess. del Error estndarde estimacinRalz cuadrada errorcuadrado del estndar error. timacinde o. la desviacin tablaque seusapararesumirlos clculosnecesarios Tabla ANOVA En el anlisisde varianza, en la pruebaF de significancia. por Intervalo de confianzaEstimacin intervalodel valor mediode y paraun valor dadode . por Estimacin intervalode un solovalor de y paraun valor dadode. Intervalo de predicci1 que si ser Antisis residualAnlisisde los residuales seusaparadeterminar parecen vlidaslas tambinseusapara El de acerca modeloderegresin. anrlisis residuales del hechas suposiciones y influyentes. atfpicas observaciones identificaobservaciones grficade los residuales, usaparadeterminar parese si Representacin Grfica de residuale5 hechas acerca modelode regresin. del cen sef vlidaslas suposiciones estndar. ResidualestandarizsdsValor obtenidoal dividir un residualentresu desviacin
Coptulo14
lineolsimple Regresin
grafican Grfica de probabilidad normal Grfica en la que los residuales estandarizados se los puhtos normales. Esta grfica ayuda a determinar si parece ser vlida la suposicin de contra que los trminos del error tienen una distribucin de probabilidad normal. Observacin atpica Dato u observacin que no sigue la tendencia del resto de los datos. Observacin influyente Observacin en la que la variable independiente tiene un valor extremo. puntos de gran influencia Observaciones en las que la variable independiente tiene valores extremos.
(r4.r)
E(y): fo + f{
Ecuacin de regresin lineal simple estimada j: bo* btx Criterio de mnimos cuadrados mn}(y, - j,)2 Interseccin con el ejey y pendiente de la ecuacin de regresin lineal simple
- -y) , r : X - '')(..r. D
21, _ bo=j-bri
SCE-2(y,-9,)'
Suma de cuadrados total
SCR: >(i, - if
Relacin entre STC, SCR y SCE
STC=SCR+SCE
Coeficiente de determinacin
t'-:-
(r4.r l lr4.r2l
"
scR sTc
(r4.r3)
Frmulqs clove
607
s2 : ECM:
SCEa n - z
(r4.rs)
(r4.t)
"'
o
-
VX. - )2
lr4.r7l
V>(r,- tF
b,
JD,
(t4.t8)
(r4.re)
CMR =
SCR
Nmerode variablesindependientes
(r4.2O)
CMR CME
(r4.2r)
(r4.23)
Intervalo de confianza para E$o) lp ! tatzsjo Desviacin estndar estimada para un solo valor
(r4.24)
sin:rVI+-+>@-E
Intervalo de prediccin para Je
l. r
6"-F
(r4.261
9, ! t*rs^o
(r4.271 (t4.28)
Residual de la observacin i
t-9
08
Jy,-i,= s'll-h,
(r4.3Ol
(r4.321
1 -.
n
>1r-
(r4.331
55. Si el valor & f es elevado, implica eso que entre las dos vaiables hay rma lrfrcin de causa
y efecto^?
56. Explique con suspropias palabrasla diferencia entre estimacin por intervalo del valu medio de
las y para un valor dado de r y estimacin por intervalo de un valor de y para una dada.
57. Quobjeto tiene probar si Pr=Q2 Si sc rechazajve Ft= 0, significaesoun btenajuste? 58. En la tabla siguiente se da el nmero de accionesvendidas (en millones) y elprecio csperdo (cl
promedio del precio mnimo y del procio mximo) de l0 acciones& oferrr.pblica inicial.
Acdonq Enprura Amcrican Phyrician ,dpcx Silvcr lr{irrca DarRiva Frarrchisc Mqtgago Gerrel-ogfc Intrnatidal Hmlo Foods PmCrotp Raywoc ReqlNetworks SoftwmeAGSystems
ftrd
W'o
FO
mmlftl 5.0 p.0 6.? 8.?S 3.0 13.6 4.6 6.1 3.0 1.?
cryirro($ 15 l4 tf 11 tt l9 t1 14 TO ll
a. b. c. d.
Obtenga la ecuacin de regresin estimada en la que la cantidad de accioncs vendids rca la variable independientey el precio la variable dcpendiente. Empleando0.05 como nivel de significancia,eristeuna relacin rignificativa encla do variables? la Proporciona ecuacinde regresinestimadaun buen ajuste?Explique. Empleando la ecuacinde regresinestimada,estime el precio esperadoen una emprci guc considera una oferta ptiblica inicial de 6 millones de acciones.
59. Los programasde recompra de accionescorporativas, suelenpromoversecomo un bercficio para los accionistas.Pero Robert 6abele, director de investigacin interna de First Call/Ihomrcn Fi. nancial, hizo notar que muchos de estosprogram&sserealizn nicamentecon el objevo dc olr tener acciones que se emplean como opciirnes como incenvo para los altor dircctivo dc l en las existentes 199Erepescrtaban el 6.2 En empresa. todaslas emprcsas, opcionesde acciones por ciento de todas las accionescomuflesen circulacin. En los datos siguientesse da l cantidad (BloombcrgPery en de opcionesotorgadas la cantidadde acciones circulacinde 13 emp,resat | sonal F inance, enerc f ebrcro, 2000)
Eiercic'ros omplemenbrios
09
Opdon
Adobo Syetems ApphComgncr Appliodl'{*mials Aumdcnk Beet Buy Fnitof theLoom ITTlrdusties MorrillLynch Novell Parareuic Technology Reebok Inteffintional Silioon Srghian Toys'R'Ut
20.] 52.t
Acdm*csmuc endrcd#n {cn dnoncs) 61.8 tdCI"g 3?5.4 5E.9 203.8 6.9 87"9 365.5 335.0 ?6S.t
a. b. c.
Obtenga una ecuacin de regresin estimada que sirva para estimar la cantidad en ciculacin de opc'ionesotorgadasdada la cantidad de accionescomunesen ciculacin. Emplee la ecuacin de regresin estimadapara estimar la cantidad en circulacin de opciones otorgadaspor una emprsaque tiene 150 millones de accionescomunesen ciculacin. Creeque la ecuacin de regresin estimadaproporcione una buena prediccin de la cantidad en ciculacin de opciones otorgadas?Emplee I parajustifrcar su respuesta.
60. El promedio industrial Dow Jones(DJIA) y el Estndar& Poor's 5) (S & P) son ndices que se emplean como una medida del movimiento general del mercado de valores. El DJIA se basaen los movimientos de los precios de 30 empresasgrandes;el S&P 500 es un ndice compuestode 5(X)acciones.Algunos dicen gue el S&P 500 es una mejor medida de la actividad del mercado de valores porgue tiene una basems amplia. A continuacin se presentael precio de cierre del a del DJIA y del S&P 5fi) durante20 semanas partir del 9 de septiembre 2005 (Borrcn's,30 de enero de 2fi)),
FGct
NTA
s&P50r) rul
l2r5 !?29
rzss
DX/r3P!0
W'o
2l dCI,opfln? ?S doocn!
l0 s7
rqsss
to 718 ro9$9 lCI$0 1067
rr48 l28s
t?r
1288
l?t57 1269
r0
Copitulo14 a. b. c. d. e. f.
lineolsimple Regresin
D el diagrama de dispersin de estosdatos empleandoDJIA como variable independiente. Obtenga la ecuacin de regresin estimada' huebe la significanciade la relacin.Use a = 0.05' Explique. hoporciona un buen ajustela ecuacinde regresinestimada? Supongaque el precio de cierre del DJIA es I I 000. Estime el precio de cierre del S&P 500. Debepreocupar que el valor de I I 000 del DJIA empleado en el inciso e) para predecir el del S&P 5(X) se encuentre fuera del intervalo de los datos empleado para obtener la ecuacin de regresin estimada? 61. JensenTire & Auto estpor decidi si firma un contrato de mantenimiento para su nueva mquina de alineamiento y balanceo de neumticos.Los gerentespiensan que los gastosde mantenimiento debernestarrelacionadoscon el uso y recolectanlos datos siguientessobre uso semanal (horas) y gastosanualesde mantenimiento (en cientos de dlares).
Jorn
32.s
Obtenga la ecuacin de regresin estimada que relaciona gastos anualesde mantenimiento con el uso semanal. b. Pruebela significancia de la relacin del inciso a) con 0.05 como nivel de significancia. c. Jensenpiensa que usar la nueva miiquina 30 horas a la semana.Obtenga un intervalo de prediccin de 95Vopara los gastosanualesde mantenimiento de la empresa. firmar el cond. Si el precio del conftato de mantenimiento es $3000 anuales,recomendara por qu no? fiato de mantenimiento? Por qu sl o 62. En un determinado procesode fabricacin se cree que la velocidad (pies por minuto) de la lnea halladasen el procesode inspeccin.Pade ensambladoafectabaal nmero de partesdefectuosas ra probar esto, los administradoresidearon un procedimiento en el que la misma cantidad de partes por lote se examinaba visualmente a diferentes velocidades de la lnea. Se recolectaron los datossiguientes. a.
Obtenga la ecuacin de regresin estimada que relaciona velocidad de la lnea de produccin con el nmero de partes defectuosasencontradas.
Eiercicios complemenforios b.
tl
Empleandoel nivel de significancia0.05, determinesi la velocidadde la lnea y el nmero de partes defectuosashalladas estn relacionadas. c. Seajustabien a los datosla ecuacinde regresinestimada? d. D un intervalo de confianza de 95Vopara predecir el nmero medio de partes defectuosas si la velocidadde la lnea es 50 pies por minuto. 3' Un hospital grande de una ciudad contrat a un socilogo prira que investigara la relacin entre el nmero de daspor ao de ausenciacon autorizacin, y la distancia (en millas) entre la casa y el trabajo del empleado. Se tom una muestra de l0 empleadosy se obtuvieron los datos siguientes.
Ab.ont
Dfutrncieet trsbClo I 3 4 6 I 10 t? 14 t4 t8
a. Elabore, con estos datos, un diagrama de dispersin. b. Obtenga la ecuacin de regresin de mnimos cuadrados. c. Existeuna relacin significativa entre las dos variables?Explique. d. Proporcionala ecuacin de regresin estimadaun buen ajustefExplique e. Emplee la ecuacin de regresin estimadaobtenida en el inciso b) para calcular un intervalo de confianzade9SVopara el nmero esperado ausencias (das)de los empleados de que vivan a 5 millas de la empresa. &. La autoridad de trnsito de una zona metropolitana importante deseadeterminar si hay relacin entre la antigedadde un autobs y los gastosde mantenimiento del mismo. En una muestra de l0 autobuses obtuvieronlos datossiguientes. se
Agpco.r
I 7" 2 2 2 3 4 4 5 5
Cooto mnhnnlento (S) de . 350 370 480 5N 590 550 750 800 790 95()
a. Empleando el mtodo de mnimos cuadradosobtenga la ecuacin de regresin estimada. b. Haga una prueba para determinar si las dos variables estn relaconadasde manera significativacon a = 0.05. Proporcionala recta de mnimos cuadradosuna buena aproximacin a los datos observados?Explique. Calcule un intervalo de prediccin de95Vopara los gastosde mantenimiento de un determinado autobs cuya antigiiedad es de 4 aos.
612
l4 Coptulo
lineolsimple Regresin
de 65. Un profesorde mercadotecnia una universidaddeseasabercul es la relacinentrelas horas los de de estudioy la calificacinen un curso.A continuacinsepresentan datosobtenidos l0 estudiantesque tomaronel curso el trimestrepasado.
Ilons dt s$dlo
10s
HourPt
45 30 90 60
65 90 EO 55 15
Cattfi*aatn otsl S0 35 75 5 90 50 90 80 45 65
a. b. c. d.
Obtengala ecuacinde regresinestimadaque indica la relacin entre calificacin y horas de estudio. Empleandoa = 0.05 pruebela significanciadel modelo. l la Pronostique calificacin que obtendrMark Sweeney. estudi95 horas' Calcule un intervalo de prediccinde 95Vopara la calificacin de Mark Sweeney'
BloombergPersonalFinance (ulio/agosto 2001) public que la beta del mercadode TexasInstrumentera l.46.Labetadel mercadode cadaaccinsedeterminamedianteregresinlineal simple. En cadacaso,la variable dependientees la rentabilidad porcentual trimestral (revalorizacin ms dividendos) menosel rendimiento porcentual que se hubiera obtenido en una inversin libre de riesgos(como tasalibre de riesgo se emplela tasaTreasuryBill). La variableindependiente es la rentabilidad porcentual trimestral (revalorizacin de capital ms dividendos) para el mercado de valores (S&P 500) menosla rentabilidadporcentualde una inversin libre de riesgos.A partir de los datos trimestrales se desarrolla la ecuacinde regresin estimada;la beta del mercado de la accinen cuestines la pendientede la ecuacinde regresinestimada(r). La betadel mercado suele interpretarsecomo una medida de lo riesgoso de la accin. Si la beta del mercado es mayor a 1, la volatilidad de la accines mayor al promedioen el mercado;si la betadel mercado es menor a l, la volatilidad de la accin es menor al promedio en el mercado.Supngase que las cifras siguientesson diferencias entre rentabilidad porcentual y rentabilidad libre de riesgos a lo largo de l0 trimestresde S&P 500 y Horizon Technology.
llklBct
o5 n,5
Hotm *0.? -?.0 -5.5 4.7 1.8 4.1 2.6 2.0 * 1.3 5.5
Eiercicios complementorios a.
13
que sirve paradeterminarla betadel mercadode Obtengala ecuacinde regresinestimada Horizon Technology.Cules la beta del mercadode Horizon Technology? pruebela significancia la relacin. b. Empleando 0.05 como nivel de significancia, de la c. Proporciona ecuacin regresin de estimada buenajuste? un Explique. d. Utilice las betasdel mercadode Horizon Techologyy de TexasInstrumentpara comparr los riesgos estas de dos acciones. RecordAccessClearinghouse Ia Universidadde Syracuse 67. La Transactional de publica datosque muestranlas posibilidadesde una auditoradel Departamento Tesorea de los EstadosUnide dos.En la tablasiguientese muestrala mediadel ingresobruto ajustadoy el porcentaje declade racionesque fueron auditadas 20 municipios en
Municipio Los ngeles Sacramento Atlanta Boise Dallas Providence San Jos Cheyenne Fargo Nueva Orleans Oklahoma City Houston Portland Phoenix Augusta Albuquerque Greensboro Columbia Nashville Buffalo
Porcentaje auditado
1.3 l.l l.l l.l
3 2s t z 3453r
35 995 37 799 33 876 3 05 r 3 30 t74 30 060 37 t53 3 49 1 8 33 291 31 504 29 199 33 072 30 859 32 566 34 296
lRSAudlt
1.0 1.0 0.9 0.9 0.9 0.9 0.8 0.8 0.7 0.7 0.7 0.6 0.6 0.5 0.5 0.5
Obtengala ecuacinde regresinestimadaque sirve parapronosticarel porcentaje audide toras dado un ingresobruto ajustado. b. Empleando como nivel de significancia 0.05,determine hay relacinentreel ingreso si bruto ajustadoy el porcentajede auditoras. c. Proporciona ecuacin regresin la de estimada buenajuste? un Explique. d. Empleela ecuacin regresin de estimada incisoa) paracalcularun intervalode 95Vo del de parael porcentaje auditoras un municipioen el que el promediodel ingreconfianza de en so bruto ajustado $35 000. es paspublicevaluaciones 68. Una institucin un determinado de sobrela satisfaccin el trabacon jo. Unade lascosas sepedan la encuesta elegir(deunalistade factores) cincofacque en era los tores principales para la satisfaccinen el trabajo. Despusse peda a los encuestados que indicaransu nivel de satisfaccincon cada no de esoscinco factores.En la tabla siguientese presentan porcentajes personas paralos que el factor indicado fue uno de los cinco factolos de junto con una evaluacinobtenidaempleando porcentaje personas conres principales, el que de "muy satisfechos" "satisfechos" sideraronal factor como uno de los principalesy que estaban o con esefactor.(www.apse.gov.au/stateoftheservice).
a.
614
Coptulo14
Regresin lineolsimple
Factor
Evaluacin (vo) 49
@
Jobsat
Cargade trabajoadecuada Posibilidadde sercreativoo de hacerinnovaciones de Posibilidad hacercontribuciones lesa la sociedad planteadas Obligacionesy expectativas claramente Condicionesflexibles de trabajo Buenarelacinde trabajo Trabajointeresante Oportunidadde hacercarrera Oportunidadde desarrollarsushabilidades Oportunidadde utilizar sushabilidades y al Retroalimentacin reconocimiento esfuerzorealizado Salario Poderver resultados tangiblesdel trabajo
67 69 86 85 74 43 6 70 53 62 69
c.
Elaboreun diagramade dispersincolocandoen el eje horizontallos porcentajes los facde toresprincipalesy en el eje vertical la evaluacincorrespondiente. Quindica, respectoa la relacin entre las dos variables,el diagramade dispenin elaborado en el inciso a)? Obtengala ecuacinde regresinestimadaque sirva para pronosticarla evaluacin(Vo) dado el porcentajedelfactor (Vo). Empleandocomo nivel de significancia0.05 realice una pruebapara determinarla significanciade la relacin. la Proporciona ecuacinde regresinestimadaun buen ajuste? D el valor del coeficientede correlacinmuestral.
CD
Cosoproblemo2
r5
W.o
Safoty
Accidentes fatales por 10fi) licencias 2.962 0.708 0.885 1.652 2.O9r 2.627 3.830 0.368 1.t42 0.45 1.028 2.801 1.405 t.433 0.039 0.338 1.849 2.246 2.855 2.352 1.294
2.r n
3.623 2.623 0.835 0.820 2.8W t.267 3.2U 1.014 0.493 1.43 3.6t4 r.926 t.&3 2.943 1.913 2.814 2.634 o.926 3.256
Informe qdministrotivo
l. Presente resmenes numricos graR.. de los datos. y 2. Empleeel anlisisde regresin parainvestigar relacinentreel nmerode accidentes la fatalesy el porcentaje conductores de menores 21 aos. de Analicesushallazgos. 3. Quconclusin qurecomendaciones y puedededucirde su anlisis?
l4 Copitulo
lineolsimple Regresin
Reporte qdministrqtivo
1. Presenteresmenesnumricos y grficos de los datos. ) Emplee el anlisis de regresin para obtener una ecuacin de regresin estimada que sirva para pronosticar el porcentajede los estudiantesque hacen donacionesdado el porcentaje de grupos con menos de 20 estudiantes. 3. Use el anlisis de regresin para obtener una ecuacin de regresin estimada que sirva para pronosticar el porcentaje de los alumnos que hacen donaciones dada la proporcin de estudiantespor facultad. 4. Cul de las dos ecuacionesde regresinestimadamuestra un mejor ajuste?Con esa y ecuacinde regresinestimadarealiceun anlisisde residuales discutasushallazgosy conclusiones. puedeobtenerde esteanlisis? y 5 . Quconclusiones recomendaciones
Informe odministrqtivo
numricosy grficos de los datos. resmenes 1. Presente 2. Use el anlisisde regresinpara investigarla relacin entre valor e ingreso.Discuta sus hallazgos. Discuta 3. Use el anlisisde regresinpara investigarla relacin entre valor y ganancias. sus hallazgos. puedesacarde esteanlisis? y 4. Quconclusiones recomendaciones
Cosoproblemo 4 TABIAI4.I3
617
Alumnl
BostonCollege Brandeis University Brown University CaliforniaInstituteof Technology Carnegie Mellon University Western Reserve Univ. Case Collegeof William andMary ColumbiaUniversity Comell University DartmouthCollege Duke University EmoryUniversity University Georgetown HarvardUniversity JohnsHopkinsUniversity LehighUniversity Massachusetts of Technology Inst. New York University Northwestern University Pennsylvania StateUniv. Princeton University RiceUniversity Stanford University Tufts University TulaneUniversity U. of California-Berkeley U. of Califomia-Davis U. of California-Irvine U. of California-LosAngeles U. of California-San Diego Barbara U. of California-Santa U. of Chicago U. of Florida U. of lllinois-UrbanaChampaign U. of Michigan-AnnArbor U. of North Carolina-Chapel Hill U. of NotreDame U. of Pennsylvania U. of Rochester U. of Southern California U. of Texas-Austin U. of Virginia U. of Washington U. of Wisconsin-Madison Vanderbilt University WakeForestUniversity Washington University-St.Louis YaleUniversity
39 68 60 5 67 52 45 69 72
10 8 t2 l3 10 8 l0 8 9 ll 6 l3 8 t9 ) 8 9 t2 t7 t9 20 18 l9 20 4 23 l5 l5 l6 l3 10 l3 2l l3 t2 l3 9 11
6r
68 65 54
IJ
&
55 65 63 66
JZ
68 62 69 67 56 58
t
42 4l 48 45 65 3l 29 5l 40 53 65 63 53 39 44
5t JI
68 59
r8
lineolsimple Coptulo14 Regresin TABLAt4.r4 DATOS DE LOS EQUIPOS DE LALIGAMAYOR DE BASQUETBOL Ingreso 18.7 14.3 -29.6 -11.4 9.5 t4.l -3.6 -6.5 16.8 6.7 4.1 3.2 7.9 -3.9 -5.1 t2.3 9.5 18.8 2.6 -3.8 5.7 4.3 5.7 -20.6 .8 2.2 -.1 1.4 3.6 -3.4
Equipo
New York Yankees New York Mets Los AngelesDodgers BostonRed Sox Atlanta Braves SeattleMariners Clevelandlndians TexasRangers SanFranciscoGiants ColoradoRockies HoustonAsFos Baltimore Orioles ChicagoCubs Arizona Diamondbacks St. Louis Cardinals Dtroit Tigers PittsburghPirates Milwaukee Brewers PhiladelphiaPhillies ChicagoWhite Sox SanDiego Padres Cincinnati Reds AnaheimAngels TorontoBlue Jays OaklandAthletics KansasCiB Royals TampaBay Devil Rays Florida Malins MinnesotaTlvins Montreal Expos
ilLB
Vlor 730 482 435 426 44 373 360 356 355 347 337 319 287 280 271 262 242 238 231 223 207 204 195 r82 157 r52 142 137 t27 108
r52
160
r66
150 134 t42 129 t25 t33 131 127
r23
lt4 108 108 94 l0l 92 87 103 9l 90 85 92 8l 75 63
14.1 Apndice
como expresinque hay que minimizar. parciales respecto boy bt, se a (14.14),se sacan derivadas las Paraminimizarla expresin estoseobtiene Haciendo igualana ceroy despeja.
r9
(14.35) (r4.3)
(14.35)entredosy haciendo sumas separado, obtiene Dividiendola ecuacin las por se -)y*)o*),x,:0 Llevandoly, al otro lado del signoigual y observando )o : nbo,seobtiene que nbo* (2x,)br : )y Simplificaciones algebraicas similares (14.36)producen aplicadas la ecuacin a
(r4.371
(t4.38)
(14.37)y (1a.38)se les conocecomoecuaciones A las ecuaciones normales. Despejando en o (14.37)seobtiene la ecuacin b^:2t - b,h, (14.39) Usando ecuacin la parasustituir (14.38) aboen la ecuacin da )r,)y, 1)x)2, q + (>xlbt: *),i
(r4.3e)
(r4.4O)
(r4.4r)
(r4.421
(14.41) Oa.aD sonlas frmulas Las ecuaciones y (1a.6)y (14.7)usadas estecaptulo en para calcularlos coeficientes la ecuacin regresin de de estimada.
Hu: P', * 0
620
l4 Copitulo
Regresin lineolsimple
Si tlo es rechazada,se concluye que el coeficiente de correlacin no es igual a cero y que la relacin entre las dos variables no es significativa. A continuacin se presentaesta prueba de significancia. PRUEBA DE SIGNIFICANCIA USANDO CORRELACIN Ho: P', : O Hu: P,, * 0
ESTADISTICO PRUEBA DE
(r4.43)
donde to,rpertenece a la distribucin / con n - 2 gradosde libertad. En la seccin 14.4 con una muestra n : lO se encontr que el coeficiente de correlacin muestral para la poblacin de estudiantesy las ventas trimestrales era rxy : 0.9501. El estadstico de prueba es t : r . . t )i \ t ^
ln-z
- r. i: ,0 . 9 5 0 1 lr ' - , o n t o l z : 8 ' 6 1
rc-z
En la tabla de la distribucin r se encuentraque para n - 2: lO - 2: 8 gradosde libertad, t -- 3.355 proporciona un irea de 0.005 en la cola superior. Por lo tanto, al trea la cola supeen rior que correspondeal estadsticode prueba t = 8.61 debe ser menor a 0.005. Como esta prueba es una prueba de dos colas, se duplica este valor y se concluye que el valor r que corresponde a t:8.62 debe ser menor a 2(0.005) = 0.01. Con Excel o con Minitab se obtiene valor-p : 0.000. Como el valor-p es menor a a : 0.01, se rechazat/o y se concluye que rrryno es igual a cero. Esta evidencia es suficiente para concluir que entre la poblacin de estudiantesy las ventas trimestrales existe una relacin lineal significativa. Obsrveseque el valor del estadsticode prueba t y la conclusin sobre la significancia de la relacin son idnticos con los resultadosobtenidos en la prueba r de la seccin 14.5, en donde se us la ecuacin de regresin estimada ! : 60 * 5. El anlisis de regresin permite obtener una conclusin sobre la relacin entre las variables x y y; adems,permite obtener la ecuacin que indica cul es la relacin entre las variables. Por consiguiente, la mayora de los analistas emplean paquetesmodernos de software para realizar el anlisis de regresin y encuentranque el empleo de la correlacin como prueba de significancia es innecesario.
En la seccin 14.7 mostrando los resultadosque da Minitab para el problema de Armand's Pizza Parlors se estudi la solucin de los problemas de regresin mediante el empleo de paquetes de software. En este apndice se describen los pasosnecesariosal emplear Minitab para generar esos resultados. Primero, en una hoja de clcul de Minitab se ingresan los datos. Los datos de las poblaciones de estudiantesse ingresan en la columna C1 y los datos de las ventas trimestrales se ingresan en la columna C2. Los nombres de las variables Pop y Sales (Ventas) se ingresan como encabezados esascolumnas. En la descripcin de los pasosa seguir, para referirse a los de datos se emplearin los nombres de las variables o los indicadores de las columnas Cl y C2. Los
62r
describencmo usar Minitab para obtenerlos resultadosdel anlisisde l'egrepasossiguientes sin que se muestranen la figura 14.10. Paso l. Paso 2. Paso 3. Paso 4. el Seleccionar men Stat el Seleccionar men Regression Elegir Regression el Cuando aparezca cuadro de dilogo Regresin: IngresarSalesen el cuadro Response Ingresar Pop en el cuadro Predictors Clic en el botn Options el Cuando aparezca cuadro de dilogo Regression-Options: lngresar 10 en el cuadro Prediction intervals for new observations Clic en OK Cuando aparezcael cuadro de dilogo Regression: Clic en OK
seEl cuadro de dilogo de Minitab tiene otrasposibilidadesms que se puedenaprovechar en Por leccionandolas opcionesdeseadas. ejemplo,paraobteneruna grfica de residuales, la que estanen los valores pronosticados aparezcan el eje horizontal y los valoresde los residuales ! darizadosen el eje vertical, el paso4 deberser colno sigue: cuadrode dilogo Regression: Paso 4 Cuando apanezcael IngresarSalesen el cuadro Response IngresarPop en el cuadro Predictors Clic en el botn GraPhs el Cuando aparezca cuadro de dilogtl Regression-Graphs: Standardized en Residualslbr Plots Seleccionar Residuals versus fits en ResidualPlots Seleccionar Clic en OK el Cuando aparezc' cuadro de dilogo Regression: CIic en OK
de se En esteapndice ilustrael uso de la herramicnta Excel pararcalizarl<lsclculosdel anlila Clonsltcse ligura 14.23, el empleando problemade Annand's PizzttParlors. sis de regresin de | :C I clc la htr.ia clculo se ingresanlos para seguir la descripcilnde los pasos.En las ccldasA se una dc las l0obscrvaciones, iny Paraidentillcarcada Poblacin Ventas. rtulosRestaurante, se en mucslralcs ingrcsan lascelA2:A I l. Los datos del I al l0 en las celdas gresan nmeros los de dcl indicancmo obtencrlos resultados anlisis rcgresin. das 82:Cll. Los pasossiguientes Paso 1. Paso 2. Paso 3. Paso 4. Paso 5. el Seleccionar men Herranlientas Elegir el men Anlisis de datos Elegir Regresin en el men de Funcionespara anlisis Clic en OK el Cuando aparezca cuadrode dilogo Regresitin: Cl:Cl I en el cuadroRango Y de entrada Ingresar IngresarBl:Bl I en el cuadro Rango X de entrada Rtulos Seleccionar SeleccionarNivel de confianza Ingresar 99 en el cuadro Nivel de confianza Rango de salida Seleccionar lngresarA13 en el cuadro Rango de salida (Tambin se puede ingresarcualquier celda, de la esquinasupcrior izttricrda, para indicar dnde debernempezarlos resultados.) Clic en OK
622 FIGURA14.23
[dffiSfrJ'fuid:r', i.l'i
Restaurant
Population Sales
s
4
tl'
5t 10: 8t
I 7
t,
!fr
I
2l
2l 2i
5i
6t
4t
2(
202
;T,JMMARYOI,-TTPUT
Regression Statistics
df Resression Residual
Total Cofficients lntercept Population
ss
I
MS
Significance F
2.55E-05
Standard Errot
Inwer 95Vo
6t
38,7U7 3.6619
8r.2153
29.4$t
90.959
6.3381
3.0s30
6.9470
La primera seccin de los resultados,titulada Estadsticas de regresin, contiene resmenesestadsticos como el coeficiente de determinacin (R*2). La segundaseccin de los resultados,titulada Anlisis de varianza, contiene la tabla del anlisis de varianza. La ltima seccin de los resultados, que no tiene ningn ttulo, contiene los coeficientes de regresin estimados e informacin relacionada con ellos. A continuacin se da la interpretacin de los resultados de la regresin empezandocon la informacin contenida en las celdas A28:I30
623
El valor en la celda E30 es el valor -p que correspondea la prueba t de significancia. El valor-p que da Excel en la celda E30, esten notacin cientfica. Paraobtenerestevalor en notacin decimal, se recorre el punto decimal 5 lugares a la izquierda, con lo que se obtiene 0.0000255. - 0.01, se rechaza/oy se concltrye que entre la poblacin Dado que valor-p : 0.0000255 < u de estudiantesy las ventas trimestrales existe una relacin significativa. La informacin de las celdas F28:I30 se emplea para obtener estimacionespor lntervalos de confianza para la interseccin con el eje y y la pendiente de la ecuacin de regresin estimada. Excel siempre da los lmites inferior y superior de un intervalo de 95Vode confianza. Como en el paso 4 se seleccionIntervalo de confianza y se ingres 99 en el cuadro de Nivel de Confianza,lahenamienta de Excel para regresin da tambin los lmites inferior y superior de un intervalo de 997o de confianza. El valor en la celda H30 es el lmite inferior de la estimacin por intervalo del99%ode confianza de b, y el valor en la celda I30 es el lmite superior. Por lo tanto, una vez redondeada,el intervalo de 997o de confianza para estimar b, va de 3.05 a 6.95. Los valores en las celdas F30 a G30 proporcionan los lmites inferior y superior del intervalo de 95Vo de confianza.El intervalo de 95Vade confianzava de 3'66 a 6.34.
El rtulo Valor crtico de F se entende mejor si se con' sidera el valor en la ceda F24 como el nivel de significancia observado en la prueba E