Sesion3 RegresionLineal
Sesion3 RegresionLineal
Sesion3 RegresionLineal
con
Python
- Sesion 3 : Regresión Lineal
• Repaso.
• Revisión de Taller Sesión Anterior.
• Modelos de Regresión.
• Definición.
• Terminología.
• Variables.
AGENDA • Supuestos.
• Casos Prác:cos.
• Taller.
• Q&A.
Conceptos Básicos - Programación
• Variable está formada por un espacio en el sistema de almacenaje (memoria principal de
un ordenador) y un nombre simbólico (un identificador) que está asociado a dicho espacio. Ese
espacio contiene una cantidad de información conocida o desconocida, es decir un valor.
• Funciones, subrutinas o subprogramas, se tratán de un subalgoritmo que forma parte del algoritmo
principal, el cual permite resolver una tarea específica.
• Lenguaje de Programación, es un lenguaje formal (o artificial, es decir, un lenguaje con reglas
gramaticales bien definidas) que le proporciona a una persona, en este caso el programador, la
capacidad de escribir (o programar) una serie de instrucciones o secuencias de órdenes en forma
de algoritmos con el fin de controlar el comportamiento físico y/o lógico de una computadora, de
manera que se puedan obtener diversas clases de datos o ejecutar determinadas tareas.
• Tipos de datos, en general todos los lenguajes de programación incluyen al menos los
siguientes: caracteres (char), cadenas de caracteres (string), enteros (integer), decimales (decimal,
float), y booleanos (true y false).
Conceptos Básicos
“Python es un lenguaje de programación que nos permite trabajar rápidamente
y lograr la integración de los sistemas. ”
Es open source, >ene mul> propósitos, los más resaltantes:
• Web and Internet Development Database Access
• Desktop GUIs
• Scien>fic & Numeric Educa>on
• Network Programming
• SoMware & Game Development
• En nuestro curso lo usaremos con finalidad cienNfica y numérica.
Numpy
Pandas
Tipos de Datos
• CSV
• XLS
• JSON
• Databases
Data Cleasing
• isnull() / notnull()
• value_counts()
• dropna()
Imputación de Valores Perdidos
• Fillna (VALOR)
• Fillna (METHOD)
• Fillna(COLUMN.MEAN())
Operaciones con Cadenas
• loc(): • std():
pd.loc['p1’] data['COLUMN']. std()
• sum(): • count():
data['COLUMN']. sum() data['COLUMN']. count()
• max(): • mean():
data['COLUMN']. max() data['COLUMN'].mean()
JOIN de Datos
df['COLUMN'].groupby(df['COLUMN_TO_AGG']).s df['COLUMN'].groupby(df['COLUMN_TO_AGG']).aggregate(
um() sum,'min', np.median, max)
Análisis de Valores Atípicos / Outliers
”En muchas situaciones que son de interés para investigadores que toman decisiones,
el valor de una variable esta relacionado con el valor de otra u otras de alguna forma
sistemática.
el valor desconocido de una variable se pueda estimar a partir del valor conocido de
§ Lineal Y = b0 + b1 X
§ Logarítmico Y = b0 + b1 ln( X )
§ Inverso Y = b 0 + ( b1 / X )
Y = b 0 + b1 X + b 2 X
§ Cuadrático 2
Y = b 0 + b1 X + b 2 X 2 + b X 3
§ Cúbico 3
b
§ Potencia Y = b0 + X 1
Y = b0 + b1
§ Compuesto X
§ S Y = e b0 + ( b1 / X )
Modelos de Regresión
§ Logístico 1
Y=
1
+ b 0 + b1
X
§ Crecimiento Y = e b0 + b1 X
§ Exponencial Y = b0 +e b 1X
§ Lineal Múltiple Y = b0 + b1 X 1 + b 2 X 2 + b3 X 3 + ! + b n X n
Modelos de Regresión
Pr ob(Y ) = e b0 + b1 X 1 + b2 X 2 + b3 X 3 +!+ bn X n
§ Logística Binaria
1 + e b0 + b1 X 1 + b2 X 2 + b3 X 3 +!+ bn X n
§ Discriminante FY = D0 + D1 X 1 + D2 X 2 + D3 X 3 + ! + Dn X n
2p ò dt
§ Probit i i -¥
e
§ Logística Multinomial
æ P(C(Yi ))ö
logç ÷ = b i0 + bi1 X 1 + bi 2 X 2 + bi3 X 3 + ! + bin X n
è P(C(Yj)) ø
Modelos de Regresión
Betas
Sig. <= 0.05 (La variable va en el modelo)
3.-¿Qué tan bueno es el modelo?
R cuadrado
4.-Supuestos Error
Caso Práctico
En base a las características físicas de una muestra de jugadores de basketball se busca estimar el
performance en la temporada.
Taller – Sesión 3
Caso Práctico
Buscamos esImar los gastos en tratamientos médicos para usarse a favor del negocio de una
aseguradora.