Estadistica Texto Paralelo
Estadistica Texto Paralelo
Estadistica Texto Paralelo
c
Facultad de Ciencias Jurídicas y Sociales
4to. Semestre
Sección ͞B͟
ESTADISTICA
c
Los comienzos de la estadística pueden ser hallados en el antiguo Egipto, cuyos faraones
lograron recopilar, hacia el año 3050 antes de Cristo, prolijos datos relativos a la población
y la riqueza del país. De acuerdo al historiador griego Heródoto, dicho registro de riqueza
y población se hizo con el objetivo de preparar la construcción de las pirámides. En el
mismo Egipto, Ramsés II hizo un censo de las tierras con el objeto de verificar un nuevo
reparto.
La estadística es una ciencia referente a la recolección, análisis e interpretación de datos,
ya sea para ayudar en la resolución de la toma de decisiones o para explicar condiciones
regulares o irregulares de algún fenómeno o estudio aplicado, de ocurrencia en forma
aleatoria o condicional. Sin embargo estadística es mucho más que eso, dado que en otras
palabras es el vehículo que permite llevar a cabo el proceso relacionado con la
investigación científica.
También se denominan estadísticas (en plural) a los datos estadísticos.
Distribución normal.
Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias
sociales, desde las ciencias de la salud hasta el control de calidad. Se usa para la toma de
decisiones en áreas de negocios o instituciones gubernamentales.
La estadística se divide en dos grandes áreas:
OV La estadística descriptiva, que se dedica a los métodos de recolección, descripción,
visualización y resumen de datos originados a partir de los fenómenos en estudio.
Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de
parámetros estadísticos son: la media y la desviación estándar. Algunos ejemplos
gráficos son: histograma, pirámide poblacional, clústers, entre otros.
OV La estadística inferencial, que se dedica a la generación de los modelos, inferencias
y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la
aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y
extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden
tomar la forma de respuestas a preguntas si/no (prueba de hipótesis),
estimaciones de características numéricas (estimación), pronósticos de futuras
observaciones, descripciones de asociación (correlación) o modelamiento de
relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento
incluyen anova, series de tiempo y minería de datos.
Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada. Hay también
una disciplina llamada estadística matemática, la cual se refiere a las bases teóricas de la
materia. La palabra «estadísticas» también se refiere al resultado de aplicar un algoritmo
estadístico a un conjunto de datos, como en estadísticas económicas, estadísticas
criminales, entre otros
HISTORIA
Los comienzos de la estadística pueden ser hallados en el antiguo Egipto, cuyos faraones
lograron recopilar, hacia el año 3050 antes de Cristo, prolijos datos relativos a la población
y la riqueza del país. De acuerdo al historiador griego Heródoto, dicho registro de riqueza
y población se hizo con el objetivo de preparar la construcción de las pirámides. En el
mismo Egipto, Ramsés II hizo un censo de las tierras con el objeto de verificar un nuevo
reparto.
También los chinos efectuaron censos hace más de cuarenta siglos. Los griegos efectuaron
censos periódicamente con fines tributarios, sociales (división de tierras) y militares
(cálculo de recursos y hombres disponibles). La investigación histórica revela que se
realizaron 69 censos para calcular los impuestos, determinar los derechos de voto y
ponderar la potencia guerrera.
Pero fueron los romanos, maestros de la organización política, quienes mejor supieron
emplear los recursos de la estadística. Cada cinco años realizaban un censo de la
población y sus funcionarios públicos tenían la obligación de anotar nacimientos,
defunciones y matrimonios, sin olvidar los recuentos periódicos del ganado y de las
riquezas contenidas en las tierras conquistadas. Para el nacimiento de Cristo sucedía uno
de estos empadronamientos de la población bajo la autoridad del imperio.
Durante los mil años siguientes a la caída del imperio Romano se realizaron muy pocas
operaciones Estadísticas, con la notable excepción de las relaciones de tierras
pertenecientes a la Iglesia, compiladas por Pipino el Breve en el 758 y por Carlomagno en
el 762 DC. Durante el siglo IX se realizaron en Francia algunos censos parciales de siervos.
En Inglaterra, Guillermo el Conquistador recopiló el Domesday Book o libro del Gran
Catastro para el año 1086, un documento de la propiedad, extensión y valor de las tierras
de Inglaterra. Esa obra fue el primer compendio estadístico de Inglaterra.
Aunque Carlomagno, en Francia; y Guillermo el Conquistador, en Inglaterra, trataron de
revivir la técnica romana, los métodos estadísticos permanecieron casi olvidados durante
la Edad Media.
Durante los siglos XV, XVI, y XVII, hombres como Leonardo de Vinci, Nicolás Copérnico,
Galileo, Neper, William Harvey, Sir Francis Bacon y René Descartes, hicieron grandes
operaciones al método científico, de tal forma que cuando se crearon los Estados
Nacionales y surgió como fuerza el comercio internacional existía ya un método capaz de
aplicarse a los datos económicos.
Para el año 1532 empezaron a registrarse en Inglaterra las defunciones debido al temor
que Enrique VII tenía por la peste. Más o menos por la misma época, en Francia la ley
exigió a los clérigos registrar los bautismos, fallecimientos y matrimonios. Durante un
brote de peste que apareció a fines de la década de 1500, el gobierno inglés comenzó a
publicar estadísticas semanales de los decesos. Esa costumbre continuó muchos años, y
en 1632 estos Bills of Mortality (Cuentas de Mortalidad) contenían los nacimientos y
fallecimientos por sexo. En 1662, el capitán John Graunt usó documentos que abarcaban
treinta años y efectuó predicciones sobre el número de personas que morirían de varias
enfermedades y sobre las proporciones de nacimientos de varones y mujeres que cabría
esperar. El trabajo de Graunt, condensado en su obra Natural and Political
Observations...Made upon the Bills of Mortality (Observaciones Políticas y Naturales ...
Hechas a partir de las Cuentas de Mortalidad), fue un esfuerzo innovador en el análisis
estadístico.
Por el año 1540 el alemán Sebastián Muster realizó una compilación estadística de los
recursos nacionales, comprensiva de datos sobre organización política, instrucciones
sociales, comercio y poderío militar. Durante el siglo XVII aportó indicaciones más
concretas de métodos de observación y análisis cuantitativo y amplió los campos de la
inferencia y la teoría Estadística.
Los eruditos del siglo XVII demostraron especial interés por la Estadística Demográfica
como resultado de la especulación sobre si la población aumentaba, decrecía o
permanecía estática.
En los tiempos modernos tales métodos fueron resucitados por algunos reyes que
necesitaban conocer las riquezas monetarias y el potencial humano de sus respectivos
países. El primer empleo de los datos estadísticos para fines ajenos a la política tuvo lugar
en 1691 y estuvo a cargo de Gaspar Neumann, un profesor alemán que vivía en Breslau.
Este investigador se propuso destruir la antigua creencia popular de que en los años
terminados en siete moría más gente que en los restantes, y para lograrlo hurgó
pacientemente en los archivos parroquiales de la ciudad. Después de revisar miles de
partidas de defunción pudo demostrar que en tales años no fallecían más personas que en
los demás. Los procedimientos de Neumann fueron conocidos por el astrónomo inglés
Halley, descubridor del cometa que lleva su nombre, quien los aplicó al estudio de la vida
humana. Sus cálculos sirvieron de base para las tablas de mortalidad que hoy utilizan
todas las compañías de seguros.
Durante el siglo XVII y principios del XVIII, matemáticos como Bernoulli, Francis Maseres,
Lagrange y Laplace desarrollaron la teoría de probabilidades. No obstante durante cierto
tiempo, la teoría de las probabilidades limitó su aplicación a los juegos de azar y hasta el
siglo XVIII no comenzó a aplicarse a los grandes problemas científicos.
Jacques Quételect es quien aplica las Estadísticas a las ciencias sociales. Este interpretó la
teoría de la probabilidad para su uso en las ciencias sociales y resolver la aplicación del
principio de promedios y de la variabilidad a los fenómenos sociales. Quételect fue el
primero en realizar la aplicación práctica de todo el método Estadístico, entonces
conocido, a las diversas ramas de la ciencia.
Kendall y Buckland (citados por Gini V. Glas / Julian C. Stanley, 1980) definen la estadística
como un valor resumido, calculado, como base en una muestra de observaciones que
generalmente, aunque no por necesidad, se considera como una estimación de parámetro
de determinada población; es decir, una función de valores de muestra.
"La estadística es una técnica especial apta para el estudio cuantitativo de los fenómenos
de masa o colectivo, cuya mediación requiere una masa de observaciones de otros
fenómenos más simples llamados individuales o particulares".
Murria R. Spiegel, (1991) dice: "La estadística estudia los métodos científicos para recoger,
organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar
decisiones razonables basadas en tal análisis.
A su vez, las ciencias sociales se han visto apabulladas en los últimos años por avances
vertiginosos en informática y aplicaciones estadísticas (Manheim, 1982; Rossi y otros,
1983), y muy especialmente en la psicología (Judd y otros, 1995), lo que favorece una
absorción de poca calidad por parte de los especialistas en áreas no metodológicas. Por
otro lado, la adopción de procedimientos informáticos para realizar tareas metodológicas
no parece ser una solución inmediata, considerando la ansiedad que generan los
ordenadores, fenómeno muy generalizado (Fariña y Arce, 1993).
ESTADÍSTICA
Es el conjunto de procedimientos y técnicas empleadas para recolectar, organizar y
analizar datos, los cuales sirven de base para tomar decisiones en las situaciones de
incertidumbre que plantean las ciencias sociales o naturales.
ESTADÍSTICA INDUCTIVA Y DEDUCTIVA
Uno de los problemas fundamentales de la Estadística es el estudio de la relación
existente entre una población y sus muestras. Según la dirección de tal relación la
Estadística puede ser:
Deductiva, cuando a partir del conocimiento de la población se trata de caracterizar cada
muestra posible.
Inductiva, cuando a partir del conocimiento derivado de una muestra se pretende
caracterizar la población.
ESTADÍSTICA DESCRIPTIVA E INFERENCIAL
Estadística Descriptiva se refiere a la recolección, presentación, descripción, análisis e
interpretación de una colección de datos, esencialmente consiste en resumir éstos con
uno o dos elementos de información (medidas descriptivas) que caracterizan la totalidad
de los mismos. La estadística Descriptiva es el método de obtener de un conjunto de datos
conclusiones sobre si mismos y no sobrepasan el conocimiento proporcionado por éstos.
Puede utilizarse para resumir o describir cualquier conjunto ya sea que se trate de una
población o de una muestra, cuando en la etapa preliminar de la Inferencia Estadística se
conocen los elementos de una muestra.
Estadística Inferencial se refiere al proceso de lograr generalizaciones acerca de las
propiedades del todo, población, partiendo de lo específico, muestra. las cuales llevan
implícitos una serie de riesgos. Para que éstas generalizaciones sean válidas la muestra
deben ser representativa de la población y la calidad de la información debe ser
controlada, además puesto que las conclusiones así extraídas están sujetas a errores, se
tendrá que especificar el riesgo o probabilidad que con que se pueden cometer esos
errores. La estadística inferencial es el conjunto de técnicas que se utiliza para obtener
conclusiones que sobrepasan los límites del conocimiento aportado por los datos, busca
obtener información de un colectivo mediante un metódico procedimiento del manejo de
datos de la muestra.
En sus particularidades la Inferencia distingue la Estimación y la Contrastación de
Hipótesis. Es estimación cuando se usan las características de la muestra para hacer
inferencias sobre las características de la población. Es contrastación de hipótesis cuando
se usa la información de la muestra para responder a interrogantes sobre la población.
ANALISIS ESTADÍSTICO
El análisis estadístico es todo el proceso de organización, procesamiento, reducción e
interpretación de datos para realizar inferencias.
DATOS Y VARIABLES
Cuando se consideran los métodos de organización, reducción y análisis de datos
estadísticos, se hace necesario aclarar los siguientes conceptos.
Variables: es toda característica que varía de un elemento a otro de la población.
Datos: son medidas o valores de las características susceptibles de observar y contar, se
originan por la observación de una o más variables de un grupo de elementos o unidades
CLASIFICACIÓN DE VARIABLES
Las variables pueden clasificarse en: categóricas o cualitativas (atributos), no tienen
ningún grado de comparación numérica, ejemplo: sexo, estado civil; y numéricas o
cuantitativas, son características factibles de expresar por medio de números, estas
pueden ser Discretas, que solo pueden tomar ciertos valores aislados en un intervalo, y
Continuas, que pueden tomar cualquier valor en un intervalo.
REPRESENTACIÓN DE DATOS
Los datos son colecciones de un número cualquiera de observaciones relacionadas entre
si, para que sean útiles se deben organizar de manera que faciliten su análisis, se puedan
seleccionar tendencias, describir relaciones, determinar causas y efectos y permitan llegar
a conclusiones lógicas y tomar decisiones bien fundamentadas; por esa razón es necesario
conocer lo métodos de Organización y Representación, la finalidad de éstos métodos es
permitir ver rápidamente todas las características posibles de los datos que se han
recolectado.
Representación Tabular:
Presenta las variable y las frecuencias con que los valores de éstas se encuentran
presentes en el estudio.
Representación Gráfica :
Se llaman gráficas a las diferentes formas de expresar los datos utilizando los medios de
representación que proporciona la geometría.
METODOS DE REPRESENTACIÓN DE DATOS CUANTITATIVOS
Arreglo de Datos. Es una forma de presentar los datos en un arreglo ascendente o
descendente. Ofrece las ventajas siguientes: describe los valores mínimos y máximos, en
él se pueden dividir los datos fácilmente en secciones, permite darse cuenta de los valores
que aparecen más de una vez, se puede observar la distancia entre valores consecutivos.
Diagrama de Puntos. Muestra la frecuencia con que aparece cada uno de los valores
Diagrama de Tallo y Hoja. Es útil para realizar una exploración preliminar del conjunto,
genera una imagen adecuada de ellos sin perder información.
Distribución de Frecuencias. Es una forma de sintetizar los datos y consiste en valerse de
una tabla para clasificar los datos según su magnitud, en ella se señala el número de veces
que aparece cada uno de los valores. Cuando se dispone de un gran número de valores
discretos o cuando las variables son continuas, tiene sentido formar una tabla que
presente la distribución de frecuencias de los datos agrupados en intervalos o clases, de
igual tamaño si es posible, sin embargo una tabla de este tipo supone una concentración
de datos que produce pérdida de información.
DISTRIBUCIÓN DE FRECUENCIAS
Organización de datos agrupados
Definiciones
Clases o intervalos de clase: Grupo de valores que describen una característica. Deben
incluir todas las observaciones y ser excluyentes. Los intervalos contienen los límites de
clase que son los puntos extremos del intervalo. Se denominan intervalos cerrados,
cuando contienen ambos límites e intervalos abiertos si incluyen solo un límite.
Limites Reales: Sirven para mantener la continuidad de las clases
Anchura o tamaño del intervalo: es la diferencia entre los límites reales de una clase
Número de clases: es el número total de grupos en que se clasifica la información, se
recomienda que no sea menor que 5 ni mayor que 15
Marca de Clase: Es el punto medio del intervalo de clase, se recomienda observar que los
puntos medios coincidan con los datos observados para minimizar el error.
Frecuencia: es el número de veces que aparece un valor
Frecuencia Acumulada: Indica cuantos casos hay por debajo o arriba de un determinado
valor o límite de clase.
Frecuencia Relativa: Indica la proporción que representa la frecuencia de cada intervalo de
clase en relación al total, es útil para comparar varias distribuciones con parámetros de
referencia uniformes.
Frecuencia Acumulada Relativa: Indica la proporción de datos que se encuentra por arriba
o debajo de cierto valor o límite de clase.
Gráficos de una Distribución de Frecuencias
Los gráficos son útiles porque ponen en relieve y aclaran las tendencias que no se captan
fácilmente en la tabla, ayudan a estimar valores con una simple ojeada y brinda una
verificación gráfica de la veracidad de las soluciones.
Histograma:
Esta formado por rectángulos cuya base es la amplitud del intervalo y tiene la
característica que la superficie que corresponde a las barras es representativa de la
cantidad de casos o frecuencia de cada tramo de valores, puede construirse con clases
que tienen el mismo tamaño o diferente ( intervalo variable). La utilización de los
intervalos de amplitud variable se recomienda cuando en alguno de los intervalos , de
amplitud constante, se presente la frecuencia cero o la frecuencia de alguno o algunos de
los intervalos sea mucho mayor que la de los demás, logrando así que las observaciones se
hallen mejor repartidas dentro del intervalo.
Polígono de Frecuencias
Se puede obtener uniendo cada punto medio (marca de clase) de los rectángulos del
histograma con líneas rectas, teniendo cuidado de agregar al inicio y al final marcas de
clase adicionales, con el objeto de asegurar la igualdad del áreas.
Curvas de frecuencia
No es más que la curva suavizada que se traza sobre el polígono y representa la asimetría
y la curtosis que tiene la distribución, permite visualizar un esquema más claro del patrón
de datos. Existen varios tipos de curva de frecuencia: Curvas J, Simétricas o Asimétricas
(sesgada a la derecha o a la izquierda), Unimodales, Bimodales y Multimodales.
Ojivas: Cuando se trata de relacionar observaciones en un mismo aspecto para dos
colectivos diferentes no es posible ejecutar comparaciones sobre la base de la frecuencia,
es necesario tener una base estándar, la frecuencia relativa. La ojiva representa
gráficamente la forma en que se acumulan los datos y permiten ver cuantas
observaciones se hallan por arriba o debajo de ciertos valores. Es útil para obtener una
medida de los cuartiles, deciles , percentiles.
Por otra parte, en ocasiones, el muestreo puede ser más exacto que el estudio de toda la
población porque el manejo de un menor número de datos provoca también menos
errores en su manipulación. En cualquier caso, el conjunto de individuos de la muestra son
los sujetos realmente estudiados.
El número de sujetos que componen la muestra suele ser inferior que el de la población,
pero suficiente para que la estimación de los parámetros determinados tenga un nivel de
confianza adecuado. Para que el tamaño de la muestra sea idóneo es preciso recurrir a su
cálculo.
1) RANGO.
Es una medida de dispersión que se obtiene como la diferencia entre el número mayor y
el número menor de los datos.
R = N_max - N_min
Ejemplo. Dados los números: 5, 10, 12, 8, 13, 9, 15 R= 15- 5
2) AMPLITUD TOTAL.
Simplemente se obtiene sumándole 1 al rango. AT = (R+1)
3) LAS CLASES.
Están formadas por dos extremos. el menor se llama límite inferior el mayor se llama
límite superior. hay distintos tipos de clases.
Ej. Notas (20-26) Edades (20-26.5) Salarios (20-26.99)
Las medidas de posición nos facilitan información sobre la serie de datos que estamos
analizando. Estas medidas permiten conocer diversas características de esta serie de
datos. Las medidas de posición son de dos tipos:
!!"#$: informan sobre los valores medios de la serie de datos.
% ! ! !"#$: informan de como se distribuye el resto de los
valores de la serie.
!!"#$
Las principales medidas de posición central son las siguientes:
&'(: es el valor medio ponderado de la serie de datos. Se pueden calcular diversos
tipos de media, siendo las más utilizadas:
#")*"+se calcula multiplicando cada valor por el número de veces que se
repite. La suma de todos estos productos se divide por el total de datos de la muestra:
Xm (X1 * n1) + (X2 * n2) + (X3 * n3) + .....+ (Xn-1 * nn-1) + (Xn * nn)
= ---------------------------------------------------------------------------------------
n
% ,)*"#+ se eleva cada valor al número de veces que se ha repetido. Se
multiplican todo estos resultados y al producto fiinal se le calcula la raíz "n" (siendo "n" el
total de datos de la muestra).
Según el tipo de datos que se analice será más apropiado utilizar la media aritmética o la
media geométrica.
La media geométrica se suele utilizar en series de datos como tipos de interés anuales,
inflación, etc., donde el valor de cada año tiene un efecto multiplicativo sobre el de los
años anteriores. En todo caso, la media aritmética es la medida de posición central más
utilizada.
Lo más positivo de la media es que en su cálculo se utilizan todos los valores de la serie,
por lo que no se pierde ninguna información.
Sin embargo, presenta el problema de que su valor (tanto en el caso de la media
aritmética como geométrica) se puede ver muy influido por valores extremos, que se
aparten en exceso del resto de la serie. Estos valores anómalos podrían condicionar en
gran medida el valor de la media, perdiendo ésta representatividad.
ë'( !: es el valor de la serie de datos que se sitúa justamente en el centro de la
muestra (un 50% de valores son inferiores y otro 50% son superiores).
No presentan el problema de estar influido por los valores extremos, pero en cambio no
utiliza en su cálculo toda la información de la serie de datos (no pondera cada valor por el
número de veces que se ha repetido).
-'(: es el valor que más se repite en la muestra.
.)$+ vamos a utilizar la tabla de distribución de frecuencias con los datos de la
estatura de los alumnos que vimos en la lección 2ª.
&'(#")*"+
Xm = 1,253
ë'(,)*"#+
Luego:
Xm = 1,253
-'(!+La mediana de esta muestra es 1,26 cm, ya que por debajo está el 50% de los
valores y por arriba el otro 50%. Esto se puede ver al analizar la columna de frecuencias
relativas acumuladas.
2'(+
Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo tanto esta
seria cuenta con 3 modas.
Existen diversas ) # !, entre las más utilizadas podemos destacar las
siguientes:
&'(!,: mide la amplitud de los valores de la muestra y se calcula por diferencia entre
el valor más elevado y el valor más bajo.
ë'(#!3: Mide la distancia existente entre los valores de la serie y la media. Se calcula
como sumatorio de las difrencias al cuadrado entre cada valor y la media, multiplicadas
por el número de veces que se ha repetido cada valor. El sumatorio obtenido se divide por
el tamaño de la muestra.
La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más
concentrados están los valores de la serie alrededor de la media. Por el contrario,
mientras mayor sea la varianza, más dispersos están.
2'( 5!" 0#3 ! #!: se calcula como cociente entre la desviación
típica y la media.
.)$+ vamos a utilizar la serie de datos de la estatura de los alumnos de una clase
(lección 2ª) y vamos a calcular sus medidas de dispersión.
&'( !,+ Diferencia entre el mayor valor de la muestra (1,30) y el menor valor (1,20).
Luego el rango de esta muestra es 10 cm.
ë'( #!3+ recordemos que la media de esta muestra es 1,253. Luego, aplicamos la
fórmula: Por lo tanto, la varianza es 0,0010
Cv = 0,0320 / 1,253
Luego,
Cv = 0,0255
El interés del coeficiente de variación es que al ser un porcentaje permite comparar el
nivel de dispersión de dos muestras. Esto no ocurre con la desvación típica, ya que viene
expresada en las mismas unidas que los datos de la serie.
Por ejemplo, para comparar el nivel de dispersión de una serie de datos de la altura de los
alumnos de una clase y otra serie con el peso de dichos alumnos, no se puede utilizar las
desviaciones típicas (una viene vienes expresada en cm y la otra en kg). En cambio, sus
coeficientes de variación son ambos porcentajes, por lo que sí se pueden comparar.
c
veremos que la media y la varianza son casos particulares de cantidades más generales
llamadas momentos.
[4.6]
[4.7]
[4.10]
[4.11]
[4.12]
cc c
En algunos casos se pueden calcular los momentos directamente usando la definición, sin
embargo, habrá ocasiones en que resulta más sencillo si usamos una función auxiliar,
y calculamos su esperanza, esto es:
[4.13]
[4.14]
Cuando ,
[4.15]
Las probabilidades son muy útiles, ya que pueden servir para desarrollar estrategias. Por
ejemplo, algunos automovilistas parecen mostrar una mayor tendencia a aumentar la
velocidad si creen que existe un riesgo pequeño de ser multados; los inversionistas
estarán más interesados en invertirse dinerosi las posibilidades de ganar son buenas. El
punto central en todos estos casos es la capacidad de cuantificar cuan probable es
determinado evento. En concreto decimos que las probabilidades se utilizan para expresar
cuan probable es un determinado evento.
* Al realizar el experimento sólo son posible dos resultados: el suceso A, llamado éxito, o
su contrario A͛, llamado fracaso.
Todo experimento que tenga estas características se dice que sigue el modelo de la
"#%/ !!)$"#%/ !#!/$$.
Como el cálculo de estas probabilidades puede resultar algo tedioso se han construido
tablas para algunos valores de R y que facilitan el trabajo.
$/$$"#%/ !#%%$%!)$#"#)*"+
b) Utilización de la fórmula
Por ejemplo:
Donde:
OV
OV donde:
OV p() = probabilidad de que ocurran x éxitos, cuando el número promedio de
ocurrencia de ellos es l.
OV l = media o promedio de éxitos por unidad de tiempo, área o producto
OV e = 2.718 (base de logaritmo neperiano o natural)
OV = variable que nos denota el número de éxitos que se desea que ocurra
OV Hay que hacer notar que en esta distribución el número de éxitos que ocurren por
unidad de tiempo, área o producto es totalmente al azar y que cada intervalo de
tiempo es independiente de otro intervalo dado, así como cada área es
independiente de otra área dada y cada producto es independiente de otro
producto dado.
OV 6$/$$"#%/ !#%%$!#"#)*"+
OV a) Utilización del Minitab 15.
OV b) Utilización de la fórmula
OV c) Utilización de las tablas de Poisson
OV
OV Por ejemplo:
OV Si un banco recibe en promedio (l=) 6 cheques sin fondo por día, ¿cuáles son las
probabilidades de que reciba:
OV a) cuatro cheques sin fondo en un día dado (x),
OV b) 10 cheques sin fondos en cualquiera de dos días consecutivos?
OV (e= 2.718281828)
c
Existen dos razones básicas por las cuales la distribución normal ocupa un lugar tan
prominente en la estadística:
Propiedad:
No importa cuáles sean los valores de µ y ʍ para una distribución de probabilidad normal,
el área total bajo la curva siempre es 1, de manera que podemos pensar en áreas bajo la
curva como si fueran probabilidades. Matemáticamente es verdad que:
Para cualquier distribución normal de probabilidad, todos los intervalos que contienen el
mismo número de desviaciones estándar a partir de la media contendrán la misma
fracción del área total bajo la curva para cualquier distribución de probabilidad normal.
Esto hace que sea posible usar solamente una tabla de la distribución de probabilidad
normal estándar.
En la que:
Muestreo Aleatorio
Una muestra se dice que es extraída al azar cuando la manera de selección es tal, que
cada elemento de la población tiene igual oportunidad de ser seleccionado. Una muestra
aleatoria es también llamada una muestra probabilística son generalmente preferidas por
los estadísticos porque la selección de las muestras es objetiva y el error muestral puede
ser medido en términos de probabilidad bajo la curva normal. Los tipos comunes de
muestreo aleatorio son el muestreo aleatorio simple, muestreo sistemático, muestreo
estratificado y muestreo de conglomerados.
Error Estándar:
La desviación estándar de una distribución, en el muestreo de un estadístico, es
frecuentemente llamada el error estándar del estadístico. Por ejemplo, la desviación
estándar de las medias de todas la muestras posibles del mismo tamaño, extraídas de una
población, es llamada el error estándar de la media. De la misma manera, la desviación
estándar de las proporciones de todas las muestras posibles del mismo tamaño, extraídas
de una población, es llamada el error estándar de la proporción. La diferencia entre los
términos "desviación estándar" y "error de estándar" es que la primera se refiere a los
valoresoriginales, mientras que la última está relacionada con valores calculados. Un
estadístico es un valor calculado, obtenido con los elementos incluidos en una muestra.
Estimación de Parámetros
s2 = ( N-1/ N ) 2
donde 2 es la varianza poblacional y N es el tamaño de la muestra .Entonces, la varianza
muestral s2 es un estimado sesgado de la varianza poblacional 2. Usando la varianza
modificada.
2 =( N/ N-1 )s2
Estimados Eficientes
En un estudio de investigación, el error de tipo I también mal llamado error de tipo alfa (ɲ)
(ɲ es la probabilidad de que ocurra este error), es el error que se comete cuando el
investigador rechaza la hipótesis nula (Ho) siendo ésta verdadera en la población. Es
equivalente a encontrar un resultado falso positivo, porque el investigador llega a la
conclusión de que existe una diferencia entre las hipótesis cuando en realidad no existe.
es también conocido como nivel de significancia, si el nivel de confianza es 95% el nivel de
significancia vendría a ser 5%
En un estudio de investigación, el error de tipo II, también llamado error de tipo beta (ɴ)
(ɴ es la probabilidad de que exista éste error), se comete cuando el investigador no
rechaza la hipótesis nula siendo ésta falsa en la población. Es equivalente a la probabilidad
de un resultado falso negativo, ya que el investigador llega a la conclusión de que ha sido
incapaz de encontrar una diferencia que existe en la realidad.
Se acepta en un estudio que el valor del error beta debe estar entre el 5 y el 20%..
Caracterización
donde
donde
donde ʆ es igual a n о 1.
c:c
X20 =
Puede demostrar que X²0 sigue aproximadamente la distribución ji cuadrada con k-p-1
grados de libertad, donde p representa el numero de parámetros de la distribución
hipotética estimada por el medio de estadística de muestra. Esta aproximación se mejora
cuando n aumenta. Rechazaríamos la hipótesis de que X se ajusta ala distribución
hipotética si X²0>X²ɲ k-p-1
Un punto que debe advertirse en la aplicación de este procedimiento de prueba se refiere
ala magnitud de las frecuencias esperadas. Si estas frecuencias esperadas son demasiado
pequeñas, entonces X²0 no reflejan la desviación de las observaciones respecto alas
esperadas, si no solo las mas pequeñas de las frecuencias esperadas. No hay un acuerdo
general en relación con el valor mínimo de las frecuencias esperadas, aunque los valores
de 3,4 y 5 se utilizan ampliamente como mínimos. Si la frecuencia esperada es demasiado
pequeña, puede combinarse con la frecuencia esperada en un intervalo de clase
adyacente. Las frecuencias observadas correspondientes se combinaran también en ese
caso, y k se reducirá en 1. No se requiere que los intervalos de clase sean de igual ancho.
Ejemplo
Una distribución completamente especificada Un científico de computadoras ha
desarrollado un algoritmo para generar enteros pseudoaleatorios sobre el intervalo 0-9.
Codifica el algoritmo y genera 1000 dígitos pseudoaleatorios. Los datos se muestran en la
tabla 11-3. ¿Existe evidencia de que el generador de números aleatorios esta trabajando
correctamente?
Si esta trabajando de manera correcta, entonces los valores 0-9 deben seguir la
distribución uniforme discreta, la cual implica que cada uno de los enteros debe ocurrir
exactamente 100 veces. Esto es, las frecuencias esperadas E =100 para I=0,1,͙.,9 Puesto
que estas frecuencias estimadas pueden estimarse sin que sea necesario estimular ningún
parámetro a partir de los datos de muestra, la prueba resultante de bondad de ajuste de
la ji cuadrada tendrá k-p-1=10-0-1=9 grados de libertad.
Total
0123456789
Frecuencia Observada O 94 93 112 101 104 95 100 99 108 94 1000
Frecuencias Esperada E 100 100 100 100 100 100 100 100 100 100 1000
El valor esperado de la estadística de prueba es 2 2 2 2
X20 = =
Puesto que X =16.92 no somos capaces de rechazar la hipótesis de que los datos proviene
de una distribución uniforme discreta. En consecuencia, el generador de números
aleatorios parece estar trabajando en forma satisfactoria.
1.V Test de Kolmogorov-Smirnov
Donde:
Fn (x): frecuencia observada acumulada.
n: N° total de orden
N: N° total de datos.
En el caso de la frecuencia teórica acumulada, ésta se determina a través de la
función de Gumbel.
Representaciones de Spline
En la terminología del dibujo mecánico, una spline es una banda flexible que se utiliza para
producir una curva suave a través de un conjunto de puntos designados. Varios pesos
pequeños se distribuyen a lo largo de la banda para mantenerla en posición sobre la mesa
de dibujo mientras se traza la curva. Es habitual describir la curva spline como una función
cúbica polinómica cuyas primera y segunda derivada son continuas a través de las
distintas secciones de la curva. Por otra parte, una superficie spline se puede describir
como dos conjuntos de curvas ortogonales de spline
Existe una gran variedad de curvas y superficies spline. Además se les prefiere por la gran
diversidad de formas que pueden tomar, Fig 1 y Fig 2
Especificación de spline
Existen tres métodos equivalentes para especificar una representación de spline
particular:
1. Podemos establecer el conjunto de condiciones de frontera que se imponen en la spline
2. Podemos establecer la matriz que caracteriza la spline
3. podemos establecer un conjunto de funciones de combinación que determinan la
manera en que se combinan las restricciones geométricas en la curva para calcular
posiciones a lo largo de la trayectoria de la curva.
A partir de las condiciones de frontera, obtenemos la matriz que caracteriza esta curva de
spline al volver a expresar de nuevo la ecuación (1) como el producto
x(u ) = a x u 3 + bx u 2 + c x u + d x ,
y (u ) = a y u 3 + b y u 2 + c y u + d y ,
z (u ) = a z u 3 + bz u 2 + c z u + d z , 0 ч u ч 1
Para obtener los coeficientes incógnitos, debemos establecer suficientes condiciones de
frontera en las uniones entre las secciones de la curva de manera que podamos obtener
los valores numéricos para todos ellos.
Curvas de Bézier
Para cualquier nº de puntos de control, el nº de ptos de control que se debe aproximar y
su posición relativa determinar el grado del polinomio de Bézier. Del mismo modo que con
las spline de interpolación, se puede especificar una curva de Bézier con condiciones de
frontera con una matriz característica o con funciones de combinación. Usualmente se
utiliza esta última técnica.
El calculo recursivo de las funciones de combinación de Bézier ,es dado por la expresión:
Bk ,n (u ) = (1 о u )Bk ,n о1 (u ) + uBk о1,n о1 (u ), n > k ш 1
##$ ! !$
##$!
Correlación no lineal
Regresión con Mínimos Cuadrados.
Regresión Lineal
El ejemplo mas simple de una aproximación por mínimos cuadrados es el ajuste de una
línea recta a un conjunto de parejas de datos observadas: (x1,y1), (x2,y2), ...,(xn,yn). La
expresión matemática de una línea recta es:
Una estrategia que obtiene la ͞mejor͟ línea a través de los puntos debe minimizar la suma
de los errores residuales, como en:
Otro criterio seria minimizar la suma de los valores absolutos de las diferencias, esto
es:Una tercera estrategia en el ajuste de una línea optima es el criterio de mínimas. En
este método, la línea se escoge de tal manera que minimice la distancia máxima a la que
se encuentra un punto de la línea recta. Esta estrategia esta mal condicionada para
regresión ya que influye de manera indebida sobre un punto externo, aislado, cuyo error
es muy grande. Se debe notar que el criterio mínimas algunas veces esta bien
condicionado para ajustar una función simple a una función complicada.
Una estrategia que ignora las restricciones anteriores es la de minimizar la suma de los
cuadrados de los residuos, Sr, de la siguiente manera:
Este criterio tiene muchas ventajas, incluyendo el que ajusta una línea única a un conjunto
dado de datos. Antes de analizar estas propiedades, se muestra un método que determina
los valores de a0 y a1 que minimizan la ecuación.
Para determinar los valores de las constantes a0 y a1, se deriva la ecuación (3) con
respecto a cada uno de los coeficientes:
Nótese que se han simplificado los símbolos de la sumatoria; a menos que otra cosa se
indique, todas las sumatorias van desde i=1 hasta n. Igualando estas derivadas a cero, se
genera un mínimo Sr. Si se hace así, las ecuaciones anteriores se expresaran como:
Este resultado se puede usar junto con la ecuación para obtener: en donde son la media
de y y x, respectivamente, quedándonos entonces la siguiente ecuación para a0:
Pasos:
1.V Elaborar una tabla en la que se ordenen las observaciones de las diferentes
variables: x, y, z, etc.
4.V Calcular los coeficientes de correlación parcial para cada variable estudiada,
6.V Comparar los valores de coeficiente múltiple y parcial de correlación con los valores
Hipótesis.
Ha. Entre las variables cantidad de lectura, edad y diámetro de la cabeza existe correlación
significativa, así como dependencia.
Ho. Entre las variables cantidad de lectura, edad y diámetro de la cabeza no existe
correlación significativa, así como dependencia.
Hay significancia entre la edad de los niños y su cantidad de lectura, y no hay significancia
entre el radio de sus cerebros.
? @
Se suele representar por MST, se le denomina varianza total o cuadrados medios totales,
es también un cociente y al numerador se le llama suma de cuadrados total y se
representa por SST, y el denominador (kn -1) grados de libertad.
Los resultados de un anova se suelen representar en una tabla como la siguiente:
Fuente de variación G.L. SS MS F
Entre grupos k-1 SSA SSA/(k-1) MSA/MSE
Tratamientos
Dentro Error (n-1)k SSE SSE/k(n-1)
Total kn-1 SST
Y el cociente F se usa para realizar el contraste de la hipótesis de medias iguales. La región
crítica para dicho contraste es F > F(k-1,(n-1)k)a
Algunas propiedades
Es fácil ver en la tabla anterior que
GLerror+ GLtrata = (n - 1) k + k - 1 = nk - k + k - 1 = nk - 1 = GLtotal
No es tan inmediato, pero las sumas de cuadrados cumplen la misma propiedad, llamada
identidado propiedad aditiva de la suma de cuadrados:
SST = SSA + SSE
El análisisde la varianza se puede realizar con tamaños muestrales iguales o distintos, sin
embargo es recomendable iguales tamaños por dos motivos:
La F es insensible a pequeñas variaciones en la asunción de igual varianza, si el tamaño es
igual.
Igual tamaño minimiza la probabilidad de error tipo II.
-'$!6$$0#!3
El anova permite distinguir dos modelos para la hipótesis alternativa:
$5"5. en el que la H1 supone que las k muestras son muestras de k
poblaciones distintas y fijas.
$ 5" $"#en el que se supone que las k muestras, se han
seleccionado aleatoriamente de un conjunto de m>k poblaciones.
Un ejemplo de modeloI de anova es que se asume que existen cinco poblaciones (sin
tratamiento, con poca sal, sin sal, etc.) fijas, de las que se han extraído las muestras.
Un ejemplo de modelo II sería: un investigador está interesado en determinar el
contenido, y sus variaciones, de grasas en las células hepáticas de cobayas; toma del
animalario 5 cobayas al azar y les realiza, a cada una, 3 biopsias hepáticas.
La manera más sencilla de distinguir entre ambos modelos es pensar que, si se repitiera el
estudio un tiempo después, en un modelo I las muestras serían iguales (no los individuos
que las forman) es decir corresponderían a la misma situación, mientras que en un
modelo II las muestras serían distintas.
Aunque las asunciones iniciales y los propósitos de ambos modelos son diferentes, los
cálculos y las pruebas de significación son los mismos y sólo difieren en la interpretación y
en algunas pruebas de hipótesis suplementarias.
!6$$0#!35"#
Es un diseñode anova que permite estudiar simultáneamente los efectos de dos fuentes
de variación.
En cualquier caso, el investigador puede estar interesado en estudiar si hay, o no,
diferencia en la evolución según el sexo. En un anova de dos vías se clasifica a los
individuos de acuerdo a dos factores (o vías) para estudiar simultáneamente sus efectos.
En este ejemplo se harían cinco grupos de tratamiento para los hombres y otros cinco
para las mujeres, en total diez grupos; en general, si el primer factor tiene a niveles y el
segundo tiene b, se tendrán ab muestras o unidades experimentales, cada una con n
individuos o repeticiones.
Una observación individual se representa como:
El primer subíndice indica el nivel del primer factor, el segundo el nivel del segundo factor
y el tercero la observación dentro de la muestra. Los factores pueden ser ambos de
efectos fijos (se habla entonces de modelo I), de efectos aleatorios (modelo II) o uno de
efectos fijos y el otro de efectos aleatorios (modelo mixto). El modelo matemático de este
análisis es:
i o Ai b el efecto del nivel i del 11 factor, j es la media global, Donde o Bj e el efecto del
nivel j del 2º factor y ijk las desviaciones aleatorias alrededor de las medias, que también
se asume que están normalmente 2.distribuidas, son independientes y tienen media 0 y
varianza
A las condiciones de muestreo aleatorio, normalidad e independencia, este modelo añade
la de aditividad de los efectos de los factores.
B)ij, se les )ij, (AB)ij, ( A los términos ( denomina interacciónentre ambos factores y
representan el hecho de que el efecto de un determinado nivel de un factor sea diferente
para cada nivel del otro factor.
Para entender mejor este concepto de interacción veamos un ejemplo sencillo sobre un
anova de dos factores, cada uno con dos niveles: supóngase un estudio para analizar el
efecto de un somnífero teniendo en cuenta el sexo de los sujetos. Se eligen al azar dos
grupos de hombres y otros dos de mujeres. A un grupo de hombres y otro de mujeres se
les suministra un placebo y a los otros grupos el somnífero. Se mide el efecto por el
tiempo que los sujetos tardan en dormirse desde el suministro de la píldora.
Se trata de un anova de dos factores (sexo y fármaco) fijos, cada uno con dos niveles
(hombre y mujer para el sexo y somnífero y placebo para el fármaco). Los dos tipos de
resultados posibles se esquematizan en la figura
En la figura A se observa que las mujeres tardan más en dormirse, tanto en el grupo
tratado como en el grupo placebo (hay un efecto del sexo) y que los tratados con placebo
tardan más en dormirse que los tratados con somnífero en ambos sexos (hay un efecto del
tratamiento). Ambos efectos son fácilmente observables.
Sin embargo en la figura B es difícil cuantificar el efecto del somnífero pues es distinto en
ambos sexos y, simétricamente, es difícil cuantificar el efecto del sexo pues es distinto en
ambos grupos de tratamiento. En este caso, se dice que existe interacción.
Podría, incluso, darse el caso de que se invirtieran los efectos de un factor para los
distintos niveles del otro, es decir, que las mujeres se durmieran antes con el somnífero y
los hombres antes con el placebo.
La interacción indica, por tanto, que los efectos de ambos factores no son aditivos: cuando
se dan juntos, su efecto no es la suma de los efectos que tienen cuando están por
separado, por lo que, si en un determinado estudio se encuentra interacción entre dos
factores, no tiene sentido estimar los efectos de los factores por separado. A la
interacción positiva, es decir, cuando el efecto de los factores actuando juntos es mayor
que la suma de efectos actuando por separado, en Biología se le denomina sinergiao
potenciación y a la interacción negativa inhibición. En el ejemplo de la figura B, se diría
que el ser mujer inhibe el efecto del somnífero, o que el ser hombre lo potencia (según el
sexo que se tome como referencia).
2'!6$#!3/!04+A)$")!"$"#3
Hay varias formas en las cuales puede diseñarse un experimento ANOVA. Quizás el más
común es el diseño completamente aleatorizado a una vía. El término proviene del hecho
que varios sujetos o unidades experimentales se asignan aleatoriamente a diferentes
niveles de un solo factor. Por ejemplo: varios empleados (unidades experimentales)
pueden seleccionarse aleatoriamente para participar en diversos tipos (niveles diferentes)
de un programa de capacitación (el factor).
El análisis de varianza se basa en una comparación de la cantidad de variación en cada uno
de los tratamientos. Si de un tratamiento al otro la variación es significativamente alta,
puede concluirse que los tratamientos tienen efectos diferentes en las poblaciones.
a.V Esta variación entre el número total de las 14 observaciones. Esto se llama 0# !
""$.
b.V Existe variación entre los diferentes tratamientos (muestras). Esto se llama
0# !!"#)/"#.
c.V Existe variación dentro de un tratamiento dado (muestra). Esto se denomina
0# !!"#$)/"#.
OV http://www.indec.mecon.ar/
OV http://www.isapre.cl/lado-graficos99.htm
Utilizamos esta página para extraer los gráficos con los que apoyamos o contrariamos nuestra
hipótesis.
OV http://www.ing.unp.edu.ar/estadisitio/graficos.htm
OV http://www.ull.es/publicaciones/latina/z8/r4el.htm
OV
OV http://www.monografias.com/trabajos15/estadistica/estadistica.shtml
OV
OV http://es.wikipedia.org/wiki/Estad%C3%ADstica
OV
OV http://www.hrc.es/bioest/estadis_1.html
OV
OV http://www.eumed.net/cursecon/libreria/drm/ped-drm-est.htm
OV
OV http://thales.cica.es/rd/Recursos/rd97/UnidadesDidacticas/53-1-u-indice.html
OV
OV http://es.wikipedia.org/wiki/Estad%C3%ADstica_inferencial
OV
OV http://www.mitecnologico.com/iem/Main/EstadisticaInferencial
OV
OV http://sitios.ingenieria-usac.edu.gt/estadistica/estadistica2/estadisticadescriptiva.html
OV
OV http://www.ditutor.com/inferencia_estadistica/estadistica_inferencial.html
OV
OV http://www.slideshare.net/freddygarcia/estadistica-inferencial-presentation
OV
OV http://eilae12007.blogspot.com/