Probabilidad y Estadística - Resumen
Probabilidad y Estadística - Resumen
Probabilidad y Estadística - Resumen
Estadística inferencial: utiliza los datos de una muestra para inferir algo acerca de una población.
Población: conjunto de todos los individuos o elementos individuales de un tipo específico. A veces representa
un sistema científico.
Muestra aleatoria simple: elegida por un método en el que cada colección de n elementos de la
población tiene la misma probabilidad de formar la muestra.
Muestra de conveniencia: no se selecciona por un método aleatorio bien definido, sino que se eligen
deliberadamente los elementos a ser estudiados.
Muestra sesgada: cuando la muestra tomada de una población no refleja a la población original, sino a una
región confinada de la misma.
Variabilidad del muestreo: dos muestras diferentes de una misma población serán, por lo general, diferentes
entre sí.
Variables
Unidad experimental: elemento de la población. Es aquella sobre la cual se efectúan mediciones o se intenta
clasificar en categorías.
Dato: toda característica de una unidad experimental que se registra durante un proceso de medición u
observación.
Clasificación de variables
Categóricas o Cualitativas:
Numéricas o Cuantitativas:
Discretas: toman valores separados entre sí, por alguna cantidad. Toman un número finito de
valores en un rango predeterminado.
Continuas: mediciones efectuadas sobre cada unidad experimental. Pueden tomar infinitos
valores en un rango predeterminado.
Medición: Asignación de números o códigos a las observaciones mediante el empleo de una escala apropiada.
Escala: Herramienta sobre la que se referencian los datos observados en una medición.
Escala de intervalo: asigna una medición de distancia entre los valores de la variable.
Distribución de frecuencias
Frecuencia absoluta (f): número de veces que se repite un dato en particular. La suma de las frecuencias
absolutas es igual al número de datos u observaciones.
Distribución de frecuencias o tabla de frecuencias: arreglo tabular de los datos por clases junto con sus
correspondientes frecuencias de clase.
Frecuencia absoluta acumulada (F): número resultante de sumar la frecuencia de la clase (de la cual se desea
saber su frecuencia) con las frecuencias de las clases que la anteceden.
Frecuencia absoluta relativa (fr): cociente entre la frecuencia de la clase (f) y el número total de datos (n).
Frecuencia acumulada relativa (Fr): cociente entre la frecuencia absoluta acumulada de la clase (F) y el
número total de datos (n).
Frecuencia del intervalo (f): cantidad de datos que quedan comprendidos dentro de un intervalo de clase.
Amplitud del intervalo (h): la diferencia entre el límite superior y el límite inferior del intervalo de clase.
Raíz: 𝐾 ≈ √𝑛
3. El primer intervalo debe contener el menor de los datos, y el ultimo intervalo el mayor de los
datos. Criterio: se usan intervalos cerrados a la izquierda y abiertos a la derecha.
4. Se construye la distribución de frecuencias.
Representación gráfica:
Histograma: representación visual de los datos. Se evidencian tres aspectos fundamentales:
1. Forma
2. Acumulación o tendencia posicional
3. Dispersión o variabilidad.
Polígono de frecuencias: Se obtiene al trazar una curva que une los puntos medios de cada uno de los
elementos del histograma. Con él es posible observar las características de la distribución.
Gráfico de tendencias acumuladas: Ídem al histograma, pero para las frecuencias acumuladas de la
distribución.
Polígono de frecuencias acumuladas u ojiva: Se obtiene al realizar el trazado de una curva por los puntos
finales (ubicados a la derecha) de las barras del gráfico de tendencias acumuladas.
1. Para datos sin agrupar: cociente entre la suma de todos los valores y el número total de ellos.
𝑋1 + 𝑋2 + 𝑋3 + ⋯ + 𝑋𝑛 ∑𝑛𝑖=1 𝑋𝑖
𝑋̅ = =
𝑛 𝑛
2. Para datos agrupados en una tabla de frecuencias:
∑𝐾
𝑖=1 𝑋𝑖 × 𝑓𝑖
𝑋̅ = ; 𝑓𝑖 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎𝑠 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎𝑠 𝑑𝑒 𝑙𝑜𝑠 𝑣𝑎𝑙𝑜𝑟𝑒𝑠
𝑛
3. Para datos agrupados en intervalos de clase:
∑𝐾
𝑖=1 𝑀𝑐 × 𝑓𝑖
𝑋̅ = ; 𝑀𝑐: 𝑚𝑎𝑟𝑐𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒
𝑛
Propiedades:
𝑋𝑛 +𝑋𝑛
+1
2 2
Número de datos par: 𝑀𝑒 =
2
(𝑂𝑟𝑑𝑒𝑛−𝐹𝑎 )×ℎ
3. Se determina la mediana: 𝑀𝑒 = 𝑎 +
𝑓𝑐
h: amplitud de la clase.
Modo (Mo): valor de la variable que presenta la mayor frecuencia en una distribución.
Consideraciones generales:
1. La media aritmética utiliza más información que la mediana. Para calcular la media aritmética nos
servimos de la totalidad de los datos, en tanto que para mediana sólo de los datos centrales.
2. Siempre que una distribución sea fuertemente asimétrica, la mediana será por lo general más
apropiada que la media aritmética.
Medidas de dispersión
Dan la idea de la separación o concentración de los valores de una variable. Se emplean junto con las
medidas de tendencia central para definir o caracterizar una serie dada.
Rango: la diferencia entre los extremos (máximo y mínimo) del conjunto de datos.
𝑅 = 𝑋𝑀𝐴𝑋 − 𝑋𝑀𝐼𝑁
Varianza: grado de dispersión de los valores de la variable con respecto a su media.
Varianza poblacional:
∑𝑛𝑖=1(𝑋𝑖 − 𝜇)2
𝜎2 =
𝑛
Varianza muestral:
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2
𝑆2 =
𝑛−1
Para datos agrupados en intervalos de clase:
∑𝐾 ̅ 2
𝑖=1(𝑀𝑐𝑖 − 𝑋 )
𝑆2 = × 𝑓𝑖
𝑛−1
Desviación típica o estándar: la raíz cuadrada de la varianza, medida en unidades del conjunto de datos. Es la
medida de desviación que más se utiliza.
Coeficiente de variación: permite comparar dos variables, ya que no depende de las unidades de medición de
las mismas. Es una unidad de medida relativa sin unidades.
𝑠
𝐶𝑉 =
𝑋̅
Medidas de orden o posición
Cuantiles: valores que dividen al conjunto de datos en partes iguales.
3×(𝑛+1)
𝑄3 = 𝑋𝑞3 → 𝑞3 = 4
Profundidades: número de hojas acumuladas que hay desde el extremo más próximo del lote hasta la
línea (digito principal) considerada. En la línea que contiene el dato medio del lote se indica entre paréntesis la
cantidad de hojas que hay en ella.
Diagrama de caja: gráfica que incluye la mediana (segundo cuartil), el primer y tercer cuartil, y cualquier dato
atípico que se presente en un lote de datos.
𝑑𝑐 = 𝑄3 − 𝑄1
Se grafican los bigotes: máximo y mínimo valor del conjunto que no superan los puntos de
corte.
Datos atípicos: valores que superan los puntos de corte.
Datos atípicos extremos: valores menores que 𝑄1 − 3 × 𝑑𝑐 o mayores que 𝑄3 + 3 × 𝑑𝑐
Probabilidad (Tema 2)
Probabilidad: existencia de incertidumbre sobre un evento.
Experimento aleatorio: cuando el mismo se efectúa de acuerdo a un conjunto bien definido de reglas, puede
repetirse y el resultado depende exclusivamente de la casualidad.
Espacio muestral discreto: contiene una cantidad finita de posibilidades (valores que puede tomar la
variable).
Espacio muestral continuo: contiene un número infinito de posibilidades, con una cantidad infinita de
números existentes en un intervalo cualquiera.
Evento simple: subconjunto que contiene solamente un elemento del espacio muestral.
Operaciones:
Técnicas de enumeración
Principio de multiplicación: para varios sucesos consecutivos independientes, la cantidad de formas en las
que se puede realizar el procedimiento que consta de dicha ejecución consecutiva es igual al producto de las
respectivas cantidades de los sucesos independientes.
Principio de adición: para varios sucesos que no pueden ser realizados conjuntamente, las formas en las que
se puede producir el evento es igual a la suma de las posibilidades de cada suceso.
Permutación: es un arreglo de todos, o parte de, los elementos de un conjunto. Cantidad de todos los posibles
arreglos u órdenes de un grupo de objetos.
𝑃𝑛 = 𝑛!
Combinación: cantidad de formas posibles de seleccionar “x” objetos de un total de “n”, sin importar el orden.
𝑛 𝑛!
𝐶𝑛,𝑥 = 𝐶𝑛𝑥 = ( ) =
𝑥 𝑥! × (𝑛 − 𝑥)!
Binomio de Newton:
𝑛
𝑛
(𝑎 + 𝑏) = ∑ ( ) × 𝑎𝑘 × 𝑏 𝑛−𝑘
𝑛
𝑘
𝑘=0
Pirámide de coeficientes:
1 2 1
1 3 3 1
Teorías de la probabilidad
Teoría clásica: si un experimento puede producir “n” resultados igualmente probables, y si “na” de estos
resultados corresponden al evento “A”, la probabilidad de que ocurra “A” es:
𝑛𝑎
𝑃(𝐴) =
𝑛
Teoría de las frecuencias relativas: si un suceso puede ocurrir de “n” maneras mutuamente excluyentes e
igualmente verosímiles, y “na” es el número de casos que un suceso “A” ocurre, entonces:
𝑛𝑎
𝑃(𝐴) =
𝑛
Definiciones:
Muestreo con reemplazo o sustitución: luego de extraer un elemento para estudiarlo, se lo regresa
nuevamente al total de la muestra.
Teoría axiomática: dado un experimento aleatorio descrito por el espacio muestral “S”, la probabilidad es una
función “P()” que asigna a cada evento un número real no negativo, indicado como “P(E)” (la probabilidad de E).
Axioma 1: 𝑃(𝐸) ≥ 0 ∀𝐸
Axioma 2: 𝑃(𝑆) = 1
Por lo tanto: La probabilidad de un evento A es la suma de los pesos de todos los puntos
muestrales de A.
Teoremas importantes:
𝑃(∅) = 0
𝑃(𝐴̅) = 1 − 𝑃(𝐴)
𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴 ∪ 𝐵 ∪ 𝐶) = 𝑃(𝐴) + 𝑃(𝐵) + 𝑃(𝐶) − 𝑃(𝐴 ∩ 𝐵) − 𝑃(𝐵 ∩ 𝐶) − 𝑃(𝐶 ∩ 𝐴) + 𝑃(𝐴 ∩ 𝐵 ∩ 𝐶)
𝑆𝑖 𝐴 ⊂ 𝐵 ⇒ 𝑃(𝐴) ≤ 𝑃(𝐵)
𝑆𝑖 𝐴 ⊂ 𝐵 ⇒ 𝑃(𝐵 − 𝐴) = 𝑃(𝐵) − 𝑃(𝐴)
Sucesos independientes: dos sucesos son independientes si y solo si la probabilidad conjunta es igual al
producto de las probabilidades marginales. Cuando dos sucesos son independientes, la ocurrencia de uno no afecta la
probabilidad de ocurrencia del otro.
Variable aleatoria discreta: puede surgir por conteo de objetos/observaciones en cada elemento del espacio
muestral.
Espacio muestral discreto: aquel que contiene una cantidad finita de posibilidades, o una cantidad infinita,
pero contable. La variable aleatoria definida en ese espacio se denomina variable aleatoria discreta.
Función de cuantía o masa: función 𝑓(𝑥𝑖 ) = 𝑃(𝑋 = 𝑥𝑖 ) que cumple, para todo resultado posible:
𝑓(𝑥) ≥ 0
∑∀𝑥 𝑓(𝑥) = 1
𝑃(𝑋 = 𝑥) = 𝑓(𝑥)
Función de probabilidad acumulada: distribución F(x), dada por:
Propiedades:
𝐹(−∞) = 0
𝐹(∞) = 1
Siempre es una función creciente
Esperanza o media:
1
𝐸[𝑋] =
𝑝
𝑋 ~ 𝑔(𝑥, 𝑝) → 𝑞
𝑉[𝑋] = 2
{ 𝑝
Distribución hipergeométrica: es la probabilidad de seleccionar “x” éxitos de entre los “k” artículos
denominados éxitos, y “n – x” fracasos de entre los “N – k” artículos denominados fracasos, cuando se selecciona una
muestra de tamaño “n” de entre los “N” artículos, sin reposición.
(𝑘𝑥) × (𝑁−𝑘
𝑛−𝑥
)
𝑥 = 0, 1, 2, … , max(𝑛, 𝑘)
𝑃(𝑋 = 𝑥) = ℎ(𝑥, 𝑁, 𝑛, 𝑘) = (𝑁
𝑛
)
{ 0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑙𝑢𝑔𝑎𝑟
𝑘
𝐸[𝑋] = 𝑛 ×
𝑋 ~ ℎ(𝑥, 𝑁, 𝑛, 𝑘) → { 𝑁
𝑘 𝑘 𝑁−𝑛
𝑉[𝑋] = 𝑛 × × (1 − ) × ( )
𝑁 𝑁 𝑁−1
𝑁−𝑛
Donde 𝑁−1 es el factor de corrección que tiende a 1 cuando “n” es pequeño comparado con “N”. Si
𝑛 𝑛
“N” es muy grande, se convierte en 1 − 𝑁 , donde 𝑁 se denomina tasa de muestreo.
Distribución de Poisson: deviene de los experimentos de mismo nombre, que retornan el número de éxitos
que ocurren en un intervalo de tiempo dado o en una región especificada. Expresa la probabilidad de que ocurran un
número específico de eventos durante un cierto período o en una determinada región, indicado por “t”.
𝑒 −𝜆 × 𝜆𝑥
𝑥 = 0, 1, 2, … , ∞
𝑃(𝑋 = 𝑥) = 𝑝(𝑥, 𝜆) = 𝑥!
{ 0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑙𝑢𝑔𝑎𝑟
Donde λ es el promedio esperado de éxitos que ocurre en el periodo de tiempo o en la región
determinada.
Se puede determinar el valor de la misma de la siguiente forma:
𝜆 =𝛼×𝑡
Donde α es el promedio de éxitos que ocurre por unidad de tiempo u área/longitud/etc.
𝐸[𝑋] = 𝜆
𝑋 ~ 𝑃𝑜(𝜆) → {
𝑉[𝑋] = 𝜆
La distribución de Poisson es un caso especial de la distribución binomial, cuando:
𝑛 𝑒 −𝜆 × 𝜆𝑥
lim ( ) × 𝑝 𝑥 × 𝑞 𝑛−𝑥 =
𝑃(𝑋 = 𝑥) = 𝑛→∞
𝑝→0
𝑥 𝑥!
𝑛𝑝→𝜆
Para valores grandes de λ, se puede aproximar la distribución de Poisson a una Normal con μ=0 y σ=1
Aproximaciones:
Variable aleatoria bidimensional: dado n espacio con dos variables aleatorias “X” e “Y”, la distribución de
ocurrencia conjunta:
𝑓(𝑥, 𝑦) = 𝑃(𝑋 = 𝑥, 𝑌 = 𝑦)
Proporciona a probabilidad de que ambos resultados ocurran al mismo tiempo.
Covarianza: para las variables aleatorias “X” e “Y”, con distribución de probabilidad conjunta, y sus
respectivas esperanzas E[X] y E[Y], la covarianza se define como:
Si las variables son independientes, 𝐸[𝑋𝑌] = 𝐸[𝑋] × 𝐸[𝑌] , por lo tanto, la covarianza es igual
a 0.
Espacio muestral continuo: aquel que contiene un número infinito de posibilidades, igual a la cantidad de
puntos en un segmento de recta. La variable definida en este espacio se denomina variable aleatoria continua.
𝑓(𝑥) ≥ 0
∞
∫−∞ 𝑓(𝑥)𝑑𝑥 = 1
𝑏
𝑃(𝑎 < 𝑋 < 𝑏) = ∫𝑎 𝑓(𝑥)𝑑𝑥
𝑎
Dado lo anterior, la función de densidad en un punto es igual a 0 (∫𝑎 𝑓(𝑥)𝑑𝑥 = 0)
Distribución acumulada:
𝑥
𝐹(𝑥) = 𝑃(𝑋 ≤ 𝑥) = ∫ 𝑓(𝑡)𝑑𝑡
−∞
𝐹(−∞) = 0
𝐹(∞) = 1
𝐹(𝑥) 𝑒𝑠 𝑢𝑛𝑎 𝑓𝑢𝑛𝑐𝑖ó𝑛 𝑐𝑟𝑒𝑐𝑖𝑒𝑛𝑡𝑒
Esperanza o media:
∞
𝐸[𝑋] = ∫−∞ 𝑓(𝑥)𝑑𝑥
Varianza o variancia:
∞
𝑉[𝑋] = ∫−∞(𝑥 − 𝐸[𝑋])2 × 𝑓(𝑥)𝑑𝑥 = 𝐸[𝑋 2 ] − (𝐸[𝑋])2
Distribución uniforme o rectangular: presenta una probabilidad constante dentro de un rango de datos para
el cual está definida. Su función de densidad es:
1
𝑎≤𝑥≤𝑏
𝑓(𝑥) = { 𝑏−𝑎
0 𝑒𝑛 𝑜𝑡𝑟𝑎 𝑝𝑎𝑟𝑡𝑒
𝑏 + 𝑎 (𝑏 − 𝑎)2
𝑋 ~𝑅( , )
2 12
𝑋 ~ 𝑅( 𝐸[𝑋] , 𝑉[𝑋] )
Distribución exponencial: probabilidad de que pase un determinado tiempo hasta que ocurra el primer evento
de Poisson. Su función de densidad está dada por:
𝜆 × 𝑒 −𝜆𝑥 𝑥≥0
𝑓(𝑥) = {
0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑙𝑢𝑔𝑎𝑟
1 1
𝑋 ~ 𝐸𝑥𝑝 ( , )
𝜆 𝜆2
Distribución normal: es la distribución de variable aleatoria continua más importante en todo el campo de la
estadística. La ecuación matemática para la distribución de probabilidad depende de los parámetros μ y σ 2 (media y
varianza muestral).
1 1 𝑥−𝜇 2
− ×( )
𝑓(𝑥) = 𝑛(𝑥, 𝜇, 𝜎) = 𝑁(𝜇, 𝜎 2 ) = ×𝑒 2 𝜎
√2𝜋 × 𝜎
𝑋 ~ 𝑁(𝜇, 𝜎 2 )
𝑋 ~ 𝑁(𝐸[𝑋], 𝑉[𝑋])
El modo ocurre en x = μ.
La curva es simétrica alrededor de su eje vertical (en x = μ).
La curva tiene puntos de inflexión en x = μ ± σ. Es cóncava hacia abajo si μ – σ < X < μ + σ,
y es cóncava hacia arriba en cualquier otro punto.
La curva es asintótica al eje horizontal en cualquiera de las dos direcciones, alejándose de
la media.
El área total bajo la curva, y arriba del eje horizontal, es igual a 1.
Función acumulada:
𝑥 1 𝑡−𝜇 2
1 − ×( )
𝐹(𝑥) = ∫ × 𝑒 2 𝜎 𝑑𝑡
−∞ 𝜎 × √2𝜋
Estandarización: dado que el proceso para obtener las probabilidades para distintos casos de la
distribución normal es tedioso, se hace necesaria la tabulación de las áreas de la curva normal para una referencia
rápida. Sin embargo, es imposible tabular de forma separada distribuciones con cada valor de μ y σ posibles. Por lo
tanto, se procede a transformar todas las observaciones de cualquier variable aleatoria normal “X” en un conjunto de
observaciones de una variable aleatoria normal “Z”, con media igual a 0 y varianza 1, proceso conocido como
estandarización, y la distribución obtenida, distribución normal estándar.
𝑋−𝜇
𝑍=
𝜎
𝑋 ~ 𝑁(𝜇, 𝜎 2 ) ; 𝑍 ~ 𝑁(0,1)
Propiedad reproductiva: sean dos distribuciones normales, cuyas variables aleatorias “X” e “Y”,
independientes, se distribuyen de acuerdo a:
𝑀 =𝑋+𝑌
Se distribuirá de acuerdo a:
Aproximaciones:
Si “X” es una variable aleatoria binomial con media μ = np y variancia σ2 = npq, entonces la forma límite
de la distribución de “Z”:
𝑋 − 𝑛𝑝
𝑍=
√𝑛𝑝𝑞
𝑍 ~ 𝑁(𝑛𝑝, 𝑛𝑝𝑞)
Sera necesario un factor de corrección de ± 0,5 debido al hecho de que en una distribución normal
(continua) no se incluye al valor extremo.
Población: la totalidad de las observaciones que interesan al estudio. El tamaño de la población se define como
el número de observaciones que contiene. Cada observación es un valor de la variable aleatoria “X” que tiene alguna
distribución de probabilidad.
𝑋 ~ 𝑓(𝐸[𝑋], 𝑉[𝑋])
Muestra: subconjunto de una población. Las mismas deben realizarse de forma aleatoria para evitar un
procedimiento sesgado, que luego pueda resultar en una subestimación o sobreestimación de alguna característica
de la población. Por cada muestra de tamaño “n” de una población con función de probabilidad “f(x)” deben definirse
“n” variables aleatorias independientes “Xi” (una por cada elemento de la muestra, donde i = 1, 2, 3, …, n), cuyas
distribuciones de probabilidades son idénticas a la de la población. Fruto del estudio de los elementos que componen
la muestra, se obtendrán “xi” valores observados, de todos los posibles que pueden tomar las “n” variables de la
muestra.
Estadístico: se define como cualquier función de las variables aleatorias que constituyen una muestra
aleatoria. Depende únicamente de la muestra aleatoria observada. Puede ser descrito también como cualquier valor
calculado a partir de una muestra aleatoria.
𝑥
Media muestral: 𝑋̅ = ∑𝑛𝑖=1 𝑛𝑖
Distribución de medias:
𝑛
𝑥𝑖
𝐸[𝑋̅] = 𝐸 [∑ ] = 𝐸[𝑋] = 𝜇
𝑛
𝑖=1
𝑛
𝑥𝑖 1 𝜎2
𝑉[𝑋̅] = 𝑉 [∑ ] = × 𝑉[𝑋] =
𝑛 𝑛 𝑛
𝑖=1
Teorema central del límite: si X̅ es la media de una muestra aleatoria de tamaño “n”, tomada
de una población con media “μ” y varianza finita “σ2”, entonces su distribución es:
𝑋̅ − 𝜇
𝑍=𝜎
⁄ 𝑛
√
Y en el límite, cuando “n” tiende a infinito, es la distribución normal estandarizada N(0, 1).
(𝑛 − 1) × 𝑆 2
𝑈=
𝜎2
Tiene una distribución chi cuadrada con “n – 1” grados de libertad.
𝑈 ~ χ2𝛼,(𝑛−1)
La probabilidad de que una muestra produzca un valor de “U” mayor que un cierto valor específico es
2 2
igual al área bajo la curva a la derecha de ese valor. El 95% de la probabilidad está comprendida entre 𝜒0,975 y 𝜒0,025 .
Distribución “t” de Student: sea “Z” una variable aleatoria normal estándar y “V” una variable
aleatoria chi cuadrada con “v” grados de libertad, y siendo “Z” y “V” independientes, entonces la variable aleatoria
“T”, dada por:
𝑍
𝑇=
√𝑉⁄𝑣
La mayoría de las veces no se conoce la variancia de la población que se está estudiando. Para muestras
grandes (n ≥ 30), se produce una buena estimación de “σ2” al calcular el valor de “S2”. Sin embargo, si el tamaño
de la muestra es pequeño, los valores de “S2” fluctuarán considerablemente, y la distribución de la variable
aleatoria “Z” se desviará de forma apreciable de la distribución normal estándar. En estos casos se trata con
un estadístico “T”:
𝑋̅ − 𝜇
𝑇=
𝑆⁄
√𝑛
Que tiene una distribución “t” de “n – 1” grados de libertad.
Distribución “F” de Fisher: el estadístico “F” se define como la razón de dos variables aleatorias
independientes chi cuadrada (V1 y V2), cada una dividida por su número de grados de libertad (v1 y v2):
𝑉1⁄
𝑣1
𝐹=
𝑉2⁄
𝑣2
Que se distribuye según una distribución “F” de v1 y v2 grados de libertad.
𝐹 ~ 𝐹𝛼,(𝑣1 , 𝑣2 )
Propiedades:
Distribución de cociente de varianzas: se emplea la distribución “F”. Si (S1)2 y (S2)2 son las varianzas de
dos muestras aleatorias independientes de tamaños “n1” y “n2”, tomadas de dos poblaciones normales con varianzas
(σ1)2 y (σ2)2 respectivamente, entonces:
𝑆1 2⁄ 2
𝜎 2 𝑆1 × 𝜎2 2
𝐹= 2 1 = 2 ~ 𝐹𝛼,(𝑣1 , 𝑣2 )
𝑆2 ⁄ 𝑆2 × 𝜎1 2
𝜎2 2
Distribución de diferencia de medias:
𝐸[𝑋̅1 − 𝑋̅2 ] = 𝜇1 − 𝜇2
𝜎1 2 𝜎2 2
𝑉[𝑋̅1 − 𝑋̅2 ] = +
𝑛1 𝑛2
(𝑋̅1 − 𝑋̅2 ) − (𝜇1 − 𝜇2 )
𝑍= ~ 𝑁(0, 1)
𝜎1 2 𝜎2 2
√
𝑛1 + 𝑛2
(𝑛1 − 1) × 𝑆1 2 + (𝑛2 − 1) × 𝑆2 2
𝑆𝑐 = √
𝑛1 + 𝑛2 − 2
Estimación (Tema 6)
Estimación puntual: definida como un único valor θ̂ del estadístico Θ
̂ referido a un parámetro θ de la
población.
Estimador: el estadístico Θ ̂ que se utiliza para obtener la estimación puntual. Denominada también función
de decisión. En un caso ideal, se encontrará un estimador que represente al parámetro de forma exacta. A diferencia
de lo anterior, de forma general, no se espera que se logre estimar el parámetro de la población sin error (dado que
el mismo es función de varias variables aleatorias muestrales), sino que dicha estimación no se encuentre muy alejada
del valor real. Por lo tanto, se dice que:
θ̂ = θ + 𝑒𝑟𝑟𝑜𝑟 𝑑𝑒 𝑒𝑠𝑡𝑖𝑚𝑎𝑐𝑖ó𝑛
Buen estimador o estimador preciso: aquel que produzca solo pequeñas diferencias de estimación.
Insesgado: un estadístico Θ ̂ es un estimador insesgado del parámetro θ si, para todo valor
posible de θ, se tuviese que:
̂] = 𝜃
𝐸[Θ
Si el estimador no es insesgado, entonces la diferencia:
̂] − 𝜃
𝐸[Θ
Es conocida como sesgo de Θ ̂.
Eficiente: aquel estadístico, de varios estimadores insesgados considerados, cuya distribución
muestral posee la menor variancia, o variancia mínima.
Suficiente: aquel estimador que resume toda la información relevante contenida en la
muestra, de forma tal que ningún otro estimador pueda proporcionar información adicional
sobre el parámetro desconocido de la población.
Consistente: cuando el estimador converge al valor verdadero del parámetro cuando el
tamaño de la muestra tiende a infinito. Para estimadores insesgados:
̂] = 0
lim 𝑉[Θ
𝑛→∞
Método de máxima verosimilitud: empleado para elegir un buen estimador, a partir de su influencia en la
función de verosimilitud, cuando el parámetro a estimar es desconocido.
Función de verosimilitud: suponiendo una variable aleatoria “X” con función de probabilidad f(x, Θ),
donde “Θ” es un parámetro desconocido, y teniendo una muestra aleatoria de tamaño “n”, de donde se obtienen “xi”
(i = 1, 2, …, n) valores observados, se define como función de verosimilitud de la muestra a:
𝑛
Estimador de máxima verosimilitud (EMV): aquel valor de Θ (denominado θ0) que maximiza la función
de verosimilitud ℓ̂(Θ) de la muestra.
Intervalos de confianza: se define al intervalo formado por dos valores “θi” y “θs” del parámetro Θ, de tal
forma que la probabilidad encerrada en el mismo sea igual a “1 – α”:
Siendo “1 – α” el coeficiente o grado de confianza del intervalo, y los valores “θi” y “θs” los límites de
confianza inferior y superior.
𝑋̅ − 𝜇
𝑍= → 𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑓𝑢𝑛𝑑𝑎𝑚𝑒𝑛𝑡𝑎𝑙
𝜎/√𝑛
El mejor intervalo de confianza es el que tiene menor longitud. Dado que una distribución
simétrica implica un intervalo de confianza simétrico, se demuestra que su longitud es mínima cuando sus extremos
son iguales, pero de signo contrario.
𝑋̅ − 𝜇
𝑃 (−𝑧1−𝛼 < 𝜎 < 𝑧1−𝛼 ) = 1 − 𝛼
2 ⁄ 𝑛 2
√
𝜎 𝜎
𝑃 (𝑋̅ − 𝑧1−𝛼 × < 𝜇 < 𝑋̅ + 𝑧1−𝛼 × )=1−𝛼
2 √𝑛 2 √𝑛
Por lo que el intervalo de confianza para la media con varianza poblacional conocida queda
expresado como:
𝜎
𝜇 = 𝑋̅ ± 𝑧1−𝛼 ×
2 √𝑛
El error del intervalo “E” y la longitud del intervalo “L” se definen como:
𝜎
𝐸 = 𝑧1−𝛼 × ; 𝐿 = 2𝐸
2 √𝑛
2. Población normal con σ2 desconocida:
𝑋̅ − 𝜇
𝑡= ~ 𝑡(𝑛−1)
𝑆/√𝑛
𝑋̅ − 𝜇
𝑃 (−𝑡1−𝛼 < < 𝑡1−𝛼 ) = 1 − 𝛼
2 𝑆⁄ 2
√𝑛
𝑆 𝑆
𝑃 (𝑋̅ − 𝑡1−𝛼 × < 𝜇 < 𝑋̅ + 𝑡1−𝛼 × )=1−𝛼
2 √𝑛 2 √𝑛
Por lo que el intervalo de confianza para la media con varianza poblacional desconocida queda
expresado como:
𝑆
𝜇 = 𝑋̅ ± 𝑡1−𝛼 ×
2 √𝑛
Intervalo de confianza para la varianza:
Se hace uso de una variable fundamental “U”, que tiene una distribución chi cuadrada de “n – 1”
grados de libertad, y se emplea como estimador insesgado de la varianza poblacional a “S2”.
(𝑛 − 1) × 𝑆 2
𝑈= ~ χ2(𝑛−1)
𝜎2
(𝑛 − 1) × 𝑆 2
𝑃 (χ2𝛼 < 2
2
< χ1− 𝛼) = 1 − 𝛼
2 𝜎 2
Se invierten los términos de la probabilidad, invirtiéndose además los operadores de la inecuación:
1 𝜎2 1
𝑃( < < 2) = 1 − 𝛼
χ2 𝛼 (𝑛 − 1) × 𝑆 2
χ𝛼
1−
2 2
(𝑛 − 1) × 𝑆 2 (𝑛 − 1) × 𝑆 2
𝑃( < 𝜎2 < )=1−𝛼
χ2 𝛼 χ2𝛼
1−
2 2
𝑝̂ − 𝑃
𝑃 −𝑧1−𝛼 < < 𝑧1−𝛼 =1−𝛼
2 2
√𝑃 × 𝑄⁄𝑛
( )
𝑃×𝑄 𝑃×𝑄
𝑃 (𝑝̂ − 𝑧1−𝛼 × √ < 𝑃 < 𝑝̂ + 𝑧1−𝛼 × √ )=1−𝛼
2 𝑛 2 𝑛
Debido a la aparición de “P” y “Q”, parámetros a estimar, en el intervalo de confianza, se realiza una
aproximación empleando sus estimadores “𝑝̂ ” y “𝑞̂”:
𝑝̂ × 𝑞̂ 𝑝̂ × 𝑞̂
𝑃 (𝑝̂ − 𝑧1−𝛼 × √ < 𝑃 < 𝑝̂ + 𝑧1−𝛼 × √ )=1−𝛼
2 𝑛 2 𝑛
𝜎1 2 𝜎2 2 𝜎1 2 𝜎2 2
𝑃 ((𝑋̅1 − 𝑋̅2 ) − 𝑧1−𝛼 × √ + < 𝜇1 − 𝜇2 < (𝑋̅1 − 𝑋̅2 ) + 𝑧1−𝛼 × √ + )=1−𝛼
2 𝑛1 𝑛2 2 𝑛1 𝑛2
Este intervalo de confianza puede ser empleado también cuando no se posee conocimiento
de la normalidad de las poblaciones y se desconocen las varianzas poblacionales, reemplazando σ12 y σ22 por S12 y S22
cuando n1 y n2 son grandes.
(𝑛1 − 1) × 𝑆1 2 + (𝑛2 − 1) × 𝑆2 2
𝑆𝑐 = √
𝑛1 + 𝑛2 − 2
1 1 1 1
𝑃 ((𝑋̅1 − 𝑋̅2 ) − 𝑡1−𝛼 × 𝑆𝑐 √ + < 𝜇1 − 𝜇2 < (𝑋̅1 − 𝑋̅2 ) + 𝑡1−𝛼 × 𝑆𝑐 √ + ) = 1 − 𝛼
2 𝑛1 𝑛2 2 𝑛1 𝑛2
Intervalo de confianza para cociente de varianzas: se emplea una variable fundamental “v”:
𝑆1 2 × 𝜎2 2
𝑣= ~ 𝐹(𝑛1 −1,𝑛2 −1)
𝑆2 2 × 𝜎1 2
𝑆1 2 1 𝜎1 2 𝑆1 2 1
𝑃( × < 2< 2× )=1−𝛼
𝑆2 2 𝐹1−𝛼,(𝑛
1 −1,𝑛2 −1)
𝜎2 𝑆2 𝐹𝛼,(𝑛 −1,𝑛 −1)
1 2
2 2
𝑆1 2 1 𝜎1 2 𝑆1 2
𝑃( 2× < < × 𝐹1−𝛼,(𝑛 −1,𝑛 −1) ) = 1 − 𝛼
𝑆2 𝐹1−𝛼,(𝑛 𝜎2 2 𝑆2 2 2 2 1
2 1 −1,𝑛2 −1)
Hipótesis nula (H0): es la afirmación que se supone al principio como cierta. Se expresa como una
afirmación de igualdad:
𝐻0 : 𝜃 = 𝜃0
Donde θ0 es un número especificado, denominado valor nulo del parámetro. El mismo se determina
a partir de:
Hipótesis alternativa (H1): aseveración contradictoria a la hipótesis nula. Tendrá alguna de las
siguientes formas:
𝐻1 : 𝜃 < 𝜃0
𝐻1 : 𝜃 > 𝜃0
Hipótesis alternativa bilateral
𝐻1 : 𝜃 ≠ 𝜃0
Los problemas siempre se formularán de tal forma que desde el principio se favorezca una de las
afirmaciones (hipótesis nula). La misma no se rechazará a menos que la evidencia muestral la contradiga y proporcione
un fuerte respaldo a la aseveración alternativa. Si la muestra no contradice de forma contundente a la hipótesis nula,
se continúa con la suposición de su veracidad.
Contraste de hipótesis: procedimiento de prueba, con base en datos muestrales, para decidir si se rechaza o
no la hipótesis nula.
Estadístico de prueba: función de los datos muestrales en la que se basará la decisión (rechazar o no la
hipótesis nula)
Región crítica o de rechazo: conjunto de los valores del estadístico de prueba para los que se rechazará la
hipótesis nula.
Región de aceptación: conjunto de los valores del estadístico de prueba para los que no se rechazará la
hipótesis nula.
Error tipo I: cuando se rechaza la hipótesis nula, siendo esta verdadera. Se define a la probabilidad de
cometer el error del tipo I de un determinado test de hipótesis al único valor “α” (dado que existe un único valor θ 0),
denominado nivel de significancia de la prueba:
𝑃(𝐸𝑟𝑟𝑜𝑟 𝑡𝑖𝑝𝑜 𝐼) = 𝛼
Es posible reducir el valor de “α” al aumentar la región de aceptación o el tamaño de la
muestra con la que se realiza el test de hipótesis.
Error tipo II: cuando no se rechaza la hipótesis nula, siendo esta falsa. La probabilidad de cometer
error del tipo II se denota con “β”. El valor de “β” es imposible de determinar a menos que se considere un valor de
parámetro específico para la hipótesis alternativa (H1: θ = θ1). Por consiguiente, existe un valor de “β” distinto para
cada valor del parámetro consistente con la hipótesis alternativa (ya que el mismo puede variar).
Ambos errores están relacionados. Una disminución en la probabilidad de cometer un tipo de error
significa un aumento en la probabilidad de cometer el otro.
Potencia de la prueba: se define como la probabilidad de rechazar la hipótesis nula cuando la hipótesis
alternativa es verdadera. El valor de la potencia de la prueba está dado por “1 – β”.
Estadístico de prueba: 𝑋̅
𝐻0 : 𝜇 = 𝜇0
𝐻1 : 𝜇 ≠ 𝜇0
Estandarizando:
𝑋̅ − 𝜇0
𝑍=
𝜎/√𝑛
𝑋̅ − 𝜇0
𝑃 (−𝑧1−𝛼 < 𝜎 < 𝑧1−𝛼 ) = 1 − 𝛼
2 ⁄ 𝑛 2
√
𝜎 𝜎
𝑃 (𝜇0 − 𝑧1−𝛼 × < 𝑋̅ < 𝜇0 + 𝑧1−𝛼 × )=1−𝛼
2 √𝑛 2 √𝑛
Por lo tanto, nuestros valores críticos son:
𝜎 𝜎
𝑎 = 𝜇0 − 𝑧1−𝛼 × ; 𝑏 = 𝜇0 + 𝑧1−𝛼 ×
2 √𝑛 2 √𝑛
Test de hipótesis para la media con varianza desconocida:
Estadístico de prueba: 𝑋̅
𝐻0 : 𝜇 = 𝜇0
𝐻1 : 𝜇 ≠ 𝜇0
𝑋̅ − 𝜇0
𝑡=
𝑆/√𝑛
𝑋̅ − 𝜇0
𝑃 (−𝑡1−𝛼 < < 𝑡1−𝛼 ) = 1 − 𝛼
2 𝑆⁄ 2
√𝑛
𝑆 𝑆
𝑃 (𝜇0 − 𝑡1−𝛼 × < 𝑋̅ < 𝜇0 + 𝑡1−𝛼 × )=1−𝛼
2 √𝑛 2 √𝑛
𝑆 𝑆
𝑎 = 𝜇0 − 𝑡1−𝛼 × ; 𝑏 = 𝜇0 + 𝑡1−𝛼 ×
2 √𝑛 2 √𝑛
Test de hipótesis para la varianza:
Estadístico de prueba: S2
𝐻0 : 𝜎 2 = 𝜎02
𝐻1 : 𝜎 2 > 𝜎02
(𝑛 − 1) × 𝑆 2
𝑈= ~ χ2(𝑛−1)
𝜎02
(𝑛 − 1) × 𝑆 2 2
𝑃( 2 < χ1−𝛼,(𝑛−1) )=1−𝛼
𝜎0
2 𝜎02
𝑃 (𝑆 2 < χ1−𝛼,(𝑛−1) × )=1−𝛼
(𝑛 − 1)
2 𝜎02
𝑐 = χ1−𝛼,(𝑛−1) ×
(𝑛 − 1)
Test de hipótesis para proporciones:
Es posible trabajar con una aproximación a una distribución normal cuando el tamaño de la muestra
es grande.
Estadístico de prueba: 𝑝̂
𝐻0 : 𝑝 = 𝑝0
𝐻1 : 𝑝 ≠ 𝑝0
𝑝̂ − 𝑝0
𝑍= ~ 𝑁(0, 1)
√𝑝0 × 𝑞0⁄𝑛
𝑝0 × 𝑞0 𝑝0 × 𝑞0
𝑎 = 𝑝0 − 𝑧1−𝛼 × √ ; 𝑏 = 𝑝0 + 𝑧1−𝛼 × √
2 𝑛 2 𝑛
Test de hipótesis de diferencia de medias con varianzas conocidas:
𝐻0 : 𝜇1 − 𝜇2 = 𝑑0
𝐻1 : 𝜇1 − 𝜇2 ≠ 𝑑0
(𝑋̅1 − 𝑋̅2 ) − 𝑑0
𝑍=
𝜎1 2 𝜎2 2
√
𝑛1 + 𝑛2
𝜎1 2 𝜎2 2 𝜎1 2 𝜎2 2
𝑃 (𝑑0 − 𝑧1−𝛼 × √ + < 𝑋̅1 − 𝑋̅2 < 𝑑0 + 𝑧1−𝛼 × √ + )= 1−𝛼
2 𝑛1 𝑛2 2 𝑛1 𝑛2
𝜎1 2 𝜎2 2 𝜎1 2 𝜎2 2
𝑎 = 𝑑0 − 𝑧1−𝛼 × √ + ; 𝑏 = 𝑑0 + 𝑧1−𝛼 × √ +
2 𝑛1 𝑛2 2 𝑛1 𝑛2
𝐻0 : 𝜇1 − 𝜇2 = 𝑑0
𝐻1 : 𝜇1 − 𝜇2 ≠ 𝑑0
(𝑋̅1 − 𝑋̅2 ) − 𝑑0
𝑡= ~ 𝑡𝑛1 +𝑛2−2
1 1
𝑆𝑐 √ +
𝑛1 𝑛2
(𝑛1 − 1) × 𝑆1 2 + (𝑛2 − 1) × 𝑆2 2
𝑆𝑐 = √
𝑛1 + 𝑛2 − 2
1 1 1 1
𝑃 (𝑑0 − 𝑡1−𝛼 × 𝑆𝑐 √ + < 𝑋̅1 − 𝑋̅2 < 𝑑0 + 𝑡1−𝛼 × 𝑆𝑐 √ + ) = 1 − 𝛼
2 𝑛1 𝑛2 2 𝑛1 𝑛2
1 1 1 1
𝑎 = 𝑑0 − 𝑡1−𝛼 × 𝑆𝑐 √ + ; 𝑏 = 𝑑0 + 𝑡1−𝛼 × 𝑆𝑐 √ +
2 𝑛1 𝑛2 2 𝑛1 𝑛2
𝐻0 : 𝑝1 − 𝑝2 = 𝑑0
𝐻1 : 𝑝1 − 𝑝2 ≠ 𝑑0
(𝑝1 − 𝑝2 ) − (𝑃1 − 𝑃2 )
𝑍= ~ 𝑁(0, 1)
√𝑃1 × 𝑄1⁄𝑛 + 𝑃2 × 𝑄2⁄𝑛
1 2
𝜎12
𝐻0 : =𝑘
𝜎22
𝜎12
𝐻1 : ≠𝑘
𝜎22
𝑆1 2 × 𝜎2 2
𝑣= ~ 𝐹(𝑛1 −1,𝑛2 −1)
𝑆2 2 × 𝜎1 2
𝑆1 2 × 𝜎2 2
𝑃 (𝐹𝛼 < < 𝐹1−𝛼 ) = 1 − 𝛼
2 𝑆2 2 × 𝜎1 2 2
𝑆1 2 1
𝑃 (𝐹𝛼 < 2 × < 𝐹1−𝛼 ) = 1 − 𝛼
2 𝑆2 𝑘 2
𝑆1 2
𝑃 (𝑘 × 𝐹𝛼 < < 𝑘 × 𝐹1−𝛼 ) = 1 − 𝛼
2 𝑆2 2 2
𝑎 = 𝑘 × 𝐹𝛼,(𝑛 ; 𝑏 = 𝑘 × 𝐹1−𝛼,(𝑛
2 1 −1,𝑛2 −1) 2 1 −1,𝑛2 −1)
𝐻0 : 𝑋 ~𝑓(𝑥)
𝐻1 : 𝑋 ≁ 𝑓(𝑥)
Las pruebas de bondad de ajuste se basan en la cantidad:
𝑘
(𝜃𝑖 − 𝑒𝑖 )2 2
𝑈=∑ ~ 𝜒1−𝛼,(𝑘−𝑟−1)
𝑒𝑖
𝑖=1
Donde “k” es el número de celdas (intervalos de clase o valores de la v.a.d.), “θi” las frecuencias
observadas de cada celda, “ei” las frecuencias esperadas, y “r” el número de parámetros estimados en la prueba. Se
debe tener en cuenta al realizar la prueba de bondad de ajuste que las frecuencias esperadas de cada celda sean
iguales o mayores a 5, agrupándose las celdas adyacentes caso contrario.
Obteniendo el valor de “U”, se procede a realizar un test de hipótesis sobre dicha variable a una cola,
modificándose nuestras hipótesis a:
2
𝐻0 : 𝑈 < 𝜒1−𝛼,(𝑘−𝑟−1)
2
𝐻1 : 𝑈 ≥ 𝜒1−𝛼,(𝑘−𝑟−1)
Dado esto, se procede a calcular el valor del límite crítico y se lo compara con el valor de “U” obtenido.
En base a esto se decide el rechazo o no de la hipótesis nula original. Las frecuencias esperadas “ei” se obtienen de la
siguiente manera:
Análisis de regresión: es el estudio para encontrar la mejor relación entre una respuesta y un regresor,
cuantificando la fuerza de dicha relación, y empleando métodos que permitan predecir los valores de la respuesta
dados los valores del regresor.
Regresión múltiple: cuando existe más de una variable independiente que ayuda a explicar a la respuesta.
Regresión lineal simple: trata el caso de una sola variable regresora “x” para una respuesta “Y”, en el que la
relación entre ambas es lineal:
𝑌 = 𝛽0 + 𝛽1 × 𝑥
Donde β0 es la intersección (ordenada al origen) y β1 la pendiente.
Se denota una muestra aleatoria de tamaño “n” mediante el conjunto {(𝑥𝑖 , 𝑦𝑖 ); 𝑖 = 1, 2, … , 𝑛}. Por la
naturaleza de los procesos a los que se le realiza una regresión, si se toman muestras adicionales con los mismos
valores de “x”, se esperaría que los valores de “y” fueran variando. Por lo tanto, los valores “𝑦𝑖 ” en el par ordenado
“(𝑥𝑖 , 𝑦𝑖 )” son valores de cierta variable aleatoria “Yi”. Dado esto, debe existir un componente aleatorio en la ecuación
que relaciona las variables, generándose un modelo estadístico, en donde “Y” se relaciona con “x” por medio de:
𝑌 = 𝛽0 + 𝛽1 × 𝑥 + 𝜖
Siendo 𝜖 el error aleatorio o alteración aleatoria, una variable aleatoria que se supone se encuentra
distribuida con 𝐸[𝜖] = 0 y 𝑉[𝜖] = 𝜎 2 , denominándose a 𝜎 2 varianza residual. La esperanza cero de la variable implica
que para una “x” específica, los valores de “Y” se distribuyen alrededor de la recta verdadera o recta de regresión.
Supuestos:
La variable “x” es una variable matemática, es decir no es aleatoria, no está sujeta a errores.
La variable “Y” es una variable aleatoria, es la que se mide en el experimento y está sujeta a
errores.
Las variables “Y1, Y2, …, Yn” se consideran variables aleatorias independientes.
Para cada “xi”, la distribución de “Yi” es normal con:
𝐸[𝑌𝑖 ] = 𝛼 + 𝛽 × 𝑥𝑖
𝑉[𝑌𝑖 ] = 𝜎 2
La varianza σ2 es constante.
Recta de regresión ajustada: empleada para estimar los coeficientes de regresión, mediante el uso de los
estimadores “b0” para “β0” y “b1” para “β1”. La recta se define como:
𝑦̂ = 𝑏0 + 𝑏1 × 𝑥
Residual: es un error de ajuste del modelo que emplea la recta de regresión ajustada. Dado un conjunto de
datos de regresión “{(𝑥𝑖 , 𝑦𝑖 ); 𝑖 = 1, 2, … , 𝑛}” y un modelo ajustado “𝑦̂ = 𝑏0 + 𝑏1 × 𝑥”, el i-ésimo residual “ei” es dado
por:
𝑒𝑖 = 𝑦𝑖 − 𝑦̂𝑖 , 𝑖 = 1, 2, … , 𝑛
Si un conjunto de “n” residuales es grande, entonces el ajuste del modelo no es bueno. Los residuales son
indicadores de un ajuste adecuado.
Método de los mínimos cuadrados: consiste en el cálculo de los estimadores “b0” y “b1” de forma tal que la
suma de los cuadrados de los residuales (denominada suma de los cuadrados del error, SCE) sea mínima.
𝑛 𝑛 𝑛
Derivando con respecto a “b0” y “b1”, igualando a cero y reacomodando los términos se obtienen las
denominadas ecuaciones normales:
𝑛 𝑛 𝑛 𝑛 𝑛
𝑛 × 𝑏0 + 𝑏1 × ∑ 𝑥𝑖 = ∑ 𝑦𝑖 ; 𝑏0 × ∑ 𝑥𝑖 + 𝑏1 × ∑ 𝑥𝑖2 = ∑ 𝑥𝑖 × 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1
Las cuales se resuelven simultáneamente para obtener ecuaciones de cálculo para “b0” y “b1”.
Es posible comprobar que los estimadores de mínimos cuadrados para “β0” y “β1” son insesgados.
Regresión múltiple (curvilínea): modelo de regresión en donde se emplea más de una variable independiente.
Cuando el mismo es lineal en los coeficientes se denomina modelo de regresión lineal múltiple.
𝑦 = 𝛽0 + 𝛽1 × 𝑥1 + ⋯ + 𝛽𝑘 × 𝑥𝑘
La respuesta estimada se obtiene a partir de la ecuación de regresión:
𝑦̂ = 𝑏0 + 𝑏1 × 𝑥1 + ⋯ + 𝑏𝑘 × 𝑥𝑘
Donde cada coeficiente de regresión “βi” se estima por medio de “bi”, a partir de los datos muestrales, usando
el método de los mínimos cuadrados.
Modelo de regresión polinomial: modelo de regresión lineal múltiple:
𝑦 = 𝛽0 + 𝛽1 × 𝑥 + β2 × 𝑥 2 + ⋯ + 𝛽𝑘 × 𝑥 𝑘
Cuya ecuación de regresión polinomial es:
𝑦̂ = 𝑏0 + 𝑏1 × 𝑥 + 𝑏1 × 𝑥 2 + ⋯ + 𝑏𝑘 × 𝑥 𝑘
Regresión no lineal:
𝑦 = 𝛽0 × 𝛽1 𝑥
𝑦̂ = 𝑏0 × 𝑏1 𝑥
Si tanto “b0” como “b1” son positivos:
ln 𝑦̂ = ln 𝑏0 + 𝑥 × ln 𝑏1
Quedando un modelo de regresión lineal. Se pueden estimar los parámetros estimando sus
logaritmos.
𝑦 = 𝛽0 + 𝑥 𝛽1
𝑦̂ = 𝑏0 + 𝑥 𝑏1
Si tanto “b0” como “x” son positivos:
ln 𝑦̂ = ln 𝑏0 + 𝑏1 × ln 𝑥
Correlación: caso particular de regresión, en donde se supone que tanto “X” como “Y” son variables aleatorias
y que las mediciones “{(𝑥𝑖 , 𝑦𝑖 ); 𝑖 = 1, 2, … , 𝑛}” son observaciones de una población que tiene la función de densidad
conjunta “𝑓(𝑥, 𝑦)”.
Análisis de correlación: aquel en donde se intenta medir la fuerza de las relaciones entre dos variables
por medio de un solo número denominado coeficiente de correlación.
𝜎2 2
𝜎𝑋2
𝜌2 = 1 − = 𝛽1 ×
𝜎𝑌2 𝜎𝑌2
Siendo “σ2” la varianza de la distribución condicional de “Y” para valores fijos de “X”, y las
varianzas restantes las independientes respectivamente. Valores cercanos a la unidad de dicho parámetro (±1) indican
una buena correlación o asociación lineal, mientras que valores cercanos a cero indican poca o ninguna correlación.
Este coeficiente es estimado por “r”, denominado coeficiente de correlación muestral:
𝑆𝑥𝑥 𝑆𝑥𝑥
𝑟 = 𝑏1 × √ =
𝑆𝑦𝑦 √𝑆𝑥𝑥 × 𝑆𝑦𝑦