Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Sesion3 RegresionLineal

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 28

Data Science

con
Python
- Sesion 3 : Regresión Lineal
• Repaso.
• Revisión de Taller Sesión Anterior.
• Modelos de Regresión.
• Definición.
• Terminología.
• Variables.
AGENDA • Supuestos.
• Casos Prác:cos.
• Taller.
• Q&A.
Conceptos Básicos - Programación
• Variable está formada por un espacio en el sistema de almacenaje (memoria principal de
un ordenador) y un nombre simbólico (un identificador) que está asociado a dicho espacio. Ese
espacio contiene una cantidad de información conocida o desconocida, es decir un valor.
• Funciones, subrutinas o subprogramas, se tratán de un subalgoritmo que forma parte del algoritmo
principal, el cual permite resolver una tarea específica.
• Lenguaje de Programación, es un lenguaje formal (o artificial, es decir, un lenguaje con reglas
gramaticales bien definidas) que le proporciona a una persona, en este caso el programador, la
capacidad de escribir (o programar) una serie de instrucciones o secuencias de órdenes en forma
de algoritmos con el fin de controlar el comportamiento físico y/o lógico de una computadora, de
manera que se puedan obtener diversas clases de datos o ejecutar determinadas tareas.
• Tipos de datos, en general todos los lenguajes de programación incluyen al menos los
siguientes: caracteres (char), cadenas de caracteres (string), enteros (integer), decimales (decimal,
float), y booleanos (true y false).
Conceptos Básicos
“Python es un lenguaje de programación que nos permite trabajar rápidamente
y lograr la integración de los sistemas. ”
Es open source, >ene mul> propósitos, los más resaltantes:
• Web and Internet Development Database Access
• Desktop GUIs
• Scien>fic & Numeric Educa>on
• Network Programming
• SoMware & Game Development
• En nuestro curso lo usaremos con finalidad cienNfica y numérica.
Numpy
Pandas
Tipos de Datos

Las Series son un array de una dimensión, pueden


almacenar cualquier 5po de datos como valores discretos,
con5nuos, cadenas y objetos Python.

Los Dataframes son una estructura de datos de 2 dimensiones


de distinto tipos de datos, un data frame puede venir de las
siguientes estructuras de datos:
NumPy Array, Listas, Diccionarios, Series, 2D NumPyArray.
Importación / Exportación de Datos

Por medio de Pandas, podemos realizar la importación y exportación de datos


de manera sencilla y efectiva:

• CSV

• XLS

• JSON

• Databases
Data Cleasing

La determinación de campos no válidos y la limpieza de los conjuntos de


datos a analizar es de gran importancia, para esto pandas nos
proporciona los siguientes metodos:

• isnull() / notnull()

• value_counts()

• dropna()
Imputación de Valores Perdidos

Pandas nos permite completar los conjuntos de datos con valores


invalidos para poder continuar con el análisis efectivo de datos, para
esto se maneja:

• Fillna (VALOR)

• Fillna (METHOD)

• Fillna(COLUMN.MEAN())
Operaciones con Cadenas

Las operaciones con <pos de datos cadena siempre son necesaria al


momento de realizar análisis efec<vos de información, con pandas
podemos realizar los siguientes:
• str.extract():
• str.upper():
• str.lower():
• str.len():
• str.split():
• str.replace():
Agregación de Datos
La agregación de datos comprende una serie de operaciones fundamentales para el análisis efectivo
de datos, nos permite tener un interpretación, agrupación y manipulación de datos amplia y óptima:
• concat(): • min():
pd.concat([p1,p2]) data['COLUMN']. min()
pd.concat([p1,p2], keys = ['p1','p2’])

• loc(): • std():
pd.loc['p1’] data['COLUMN']. std()

• sum(): • count():
data['COLUMN']. sum() data['COLUMN']. count()

• max(): • mean():
data['COLUMN']. max() data['COLUMN'].mean()
JOIN de Datos

• INNER JOIN: • LEFT JOIN:


df_sub = df_sub =
df_LEFT.join( df_LEFT.join(
df_RIGHT.set_index(['KEY’]), df_RIGHT.set_index(['KEY’]),
on=['KEY’], on=['KEY’],
how='inner') how='left')

• FULL OUTER JOIN: • RIGHT JOIN:


df_sub = df_sub =
df_LEFT.join( df_LEFT.join(
df_RIGHT.set_index(['KEY’]), df_RIGHT.set_index(['KEY’]),
on=['KEY’], on=['KEY’],
how='inner') how=‘right')
GROUP BY de Datos

• GROUP BY: • GROUP BY + MULTIPLE AGG:

df['COLUMN'].groupby(df['COLUMN_TO_AGG']).s df['COLUMN'].groupby(df['COLUMN_TO_AGG']).aggregate(
um() sum,'min', np.median, max)
Análisis de Valores Atípicos / Outliers

El análisis de valores atípicos consiste en determinar los valores


almacenados en una variable cuantitativa los cuales son particularmente
superiores / inferiores a la media de valores en la variable. Pueden ser
indicativos de datos que pertenecen a una población diferente del resto de
las muestras establecidas
Revisión Asignación
Modelos de Regresión
Regresión

”En muchas situaciones que son de interés para investigadores que toman decisiones,

el valor de una variable esta relacionado con el valor de otra u otras de alguna forma

sistemática.

El análisis de Regresión se enfoca al establecimiento de una ecuación que permite que

el valor desconocido de una variable se pueda estimar a partir del valor conocido de

una o más variables”.


Terminología
• Variables Independientes: Son variables cuyos valores se suponen conocidos y que se
utilizan para explicar o predecir el valor de otra variable de interés, se denotan con la letra
X.
• Variable Dependiente: Es una variable cuyo valor se supone desconocido y que se
explique o prediga con ayuda de otra u otras variables, se denota con la letra Y.
• Relaciones Determinísticas: Se caracteriza por el hecho de que el valor de Y está
determinado de manera única siempre que el valor de X se especifique.
• Relación Estocástica: Es imprecisa en el sentido de que muchos valores posibles de Y se
pueden asociar con cualquier valor de X.
• Relación Directa: Si los valores de la variable dependiente Y aumentan con los valores más
grandes de la variable independiente X.
Modelos de Regresión
Variable Dependiente Cuantitativa

§ Lineal Y = b0 + b1 X

§ Logarítmico Y = b0 + b1 ln( X )

§ Inverso Y = b 0 + ( b1 / X )
Y = b 0 + b1 X + b 2 X
§ Cuadrático 2

Y = b 0 + b1 X + b 2 X 2 + b X 3
§ Cúbico 3

b
§ Potencia Y = b0 + X 1

Y = b0 + b1
§ Compuesto X

§ S Y = e b0 + ( b1 / X )
Modelos de Regresión

Variable Dependiente Cuantitativa

§ Logístico 1
Y=
1
+ b 0 + b1
X

§ Crecimiento Y = e b0 + b1 X

§ Exponencial Y = b0 +e b 1X

§ Lineal Múltiple Y = b0 + b1 X 1 + b 2 X 2 + b3 X 3 + ! + b n X n
Modelos de Regresión

Variable Dependiente Cuantitativa

Pr ob(Y ) = e b0 + b1 X 1 + b2 X 2 + b3 X 3 +!+ bn X n
§ Logística Binaria
1 + e b0 + b1 X 1 + b2 X 2 + b3 X 3 +!+ bn X n

§ Discriminante FY = D0 + D1 X 1 + D2 X 2 + D3 X 3 + ! + Dn X n

P(Y = 1) = P(I * £ I ) = 1 b0 +b1 X -t 2 / 2

2p ò dt
§ Probit i i -¥
e

§ Logística Multinomial
æ P(C(Yi ))ö
logç ÷ = b i0 + bi1 X 1 + bi 2 X 2 + bi3 X 3 + ! + bin X n
è P(C(Yj)) ø
Modelos de Regresión

Variables explicativas Error


Variable de Interés
Coeficientes de Regresión
Ingresos o
Monto Préstamo Edad Betas
Supuestos del Modelo
1.-¿Existe relación entre las variables explicativas?
Multicolinealidad (NO)

2.- ¿El modelo es útil, qué variables quedan en el modelo?

Betas
Sig. <= 0.05 (La variable va en el modelo)
3.-¿Qué tan bueno es el modelo?
R cuadrado

4.-Supuestos Error
Caso Práctico
En base a las características físicas de una muestra de jugadores de basketball se busca estimar el
performance en la temporada.
Taller – Sesión 3
Caso Práctico
Buscamos esImar los gastos en tratamientos médicos para usarse a favor del negocio de una
aseguradora.

También podría gustarte