Unidad 5 PyE
Unidad 5 PyE
Unidad 5 PyE
Grupo: V2B
Probabilidad y Estadística
CONTENIDO:
5.2 Correlación.
Donde:
y – es la variable dependiente o la variable a predecir.
x – es la variable independiente o la variable que usamos para hacer una predicción.
a – es la pendiente o el valor que debe ser determinado, se le conoce como
coeficiente y es una especie de magnitud de cambio que pasa por y cuando x
cambia.
b – es la constante que debe ser determinada, se le conoce como intercepto porque
cuando x es igual a 0, entonces y = b.
Esta es la ecuación de Regresión Lineal Simple. Se llama simple porque solo hay
una variable independiente involucrada, que vendría siendo “x”.
El objetivo con Regresión Lineal Simple es minimizar la distancia vertical entre todos
los datos y nuestra línea, por lo tanto, para determinar la mejor línea, debemos
minimizar la distancia entre todos los puntos y la distancia de nuestra línea.
El error es una parte inevitable del proceso de predicción, no importa cuán poderoso
sea el algoritmo que elijamos, siempre habrá un error irreductible. Sabemos que no
podemos eliminar por completo el error, pero aún podemos intentar reducirlo al nivel
más bajo. Es en estos momentos en que se usa la técnica conocida como mínimos
cuadrados.
La técnica de mínimos cuadrado intenta reducir la suma de los errores al cuadrado,
buscando el mejor valor posible de los coeficientes de regresión.
Los mínimos cuadrados no es la única técnica para usar en Regresión Lineal, pero
se selecciona debido a:
• Utiliza un error cuadrado que tiene buenas propiedades matemáticas, por lo que
es más fácil diferencias y calcular el descenso del gradiente.
• Es fácil de analizar y computacionalmente más rápido, es decir, puede aplicarse
rápidamente a conjuntos de datos que tienen miles de características.
• La interpretación es mucho más fácil que otras técnicas de regresión.
Regresión curvilínea
Cuando las Variables X e Y se relacionan según una línea Curva, se habla de
regresión curvilínea. Es una función de segundo grado la que se ajusta lo suficiente
a la situación real dada.
Y= a + bx+cx2
Donde a, b y c son los parámetros.
El problema consiste en determinar dichos parámetros para una distribución dada.
Se seguirá para ello, un razonamiento y la utilización de las ecuaciones normales
de GAUSS.
Pasos para Realizar la Regresión Curvilínea:
1. Se toman los datos proporcionados a analizar y se forman los pares ordenados
2. Se representan dichos valores en los ejes del plano cartesiano, dando lugar a un
diagrama de dispersión o nube de puntos. El cual para que sea curvilínea debe ser
una curva.
3. Ajustamos a una función de segundo grado de Y= a + bx+cx2 para encontrar las
ecuaciones normales.
4. Elaborar tabla con los resultados que según las ecuaciones normales debemos
calcular para luego sustituir en dichas ecuaciones.
5. Sustituir en el sistema de ecuaciones normales
6. Utilizar matriz para encontrar los parámetros de “a”, “b” y “c” para sustituirlos en
la ecuación de regresión curvilínea
7. Sustituir los valores de “a”, “b” y “c” en la ecuación de Y= a + bx+cx2y completar
la tabla.
Regresión múltiple
La regresión lineal múltiple es la gran técnica estadística para comprobar hipótesis
y relaciones explicativas. Ante de empezar, una serie de condiciones que se deben
cumplir para poder aplicar la regresión lineal múltiple:
• La variable dependiente (resultado) debe ser escalar (numérica) o bien ordinal de
más de 5 categorías, es decir, las categorías de la variable dependiente deben tener
un orden interno o jerarquía.
• Las variables independientes (explicaciones) deben ser escalares (numérica),
ordinales (también se recomienda con más de 5 categorías
• Hay otras condiciones como: las variables independientes no puede estar
altamente correlacionadas entre sí, las relaciones entre las variable independientes
y la variable dependiente deben ser lineales, todas variables (o mejor dicho sus
residuales) deben seguir la distribución normal y deben tener varianzas iguales.
Estas condiciones son importantes, pero hay maneras de tratar los datos si se
incumple alguna de ellas.
5.2 Correlación
La correlación es una medida estadística que expresa hasta qué punto dos variables
están relacionadas linealmente (esto es, cambiando conjuntamente a una tasa
constante). Es una herramienta para describir relaciones simples sin hacer
afirmaciones sobre causas y efectos.
El coeficiente de correlación de la muestra, r, cuantifica la intensidad de la relación.
Las correlaciones también se someten a pruebas para establecer su significación
estadística.