Paola Tesis Maestria 2017
Paola Tesis Maestria 2017
Paola Tesis Maestria 2017
Presentado por
2017
A mis padres por su amor, ejemplo de superación y
dedicación incondicional.
A mis hermanos por su amistad y apoyo.
A Alejandra y Enrique por la inconmensurable
felicidad que me brindan.
ii
Agradezco a mis profesores de la Maestría de la
Universidad del Pacífico por su valioso aporte en
mi desarrollo profesional.
iii
Resumen ejecutivo
iv
Índice
Índice de tablas ........................................................................................................................... vi
Índice de gráficos ...................................................................................................................... vii
Índice de anexos ....................................................................................................................... viii
Bibliografía .................................................................................................................................44
Anexos .........................................................................................................................................46
Nota biográfica ...........................................................................................................................58
v
Índice de tablas
Tabla 1. Principales técnicas para desarrollar un modelo de credit scoring..........................7
Tabla 2. Principales indicadores del BN .............................................................................16
Tabla 3. Parámetros aplicables en el otorgamiento de un crédito BN .................................18
Tabla 4. Composición de las muestras de construcción y validación..................................22
Tabla 5. Roll rate analysis ...................................................................................................24
Tabla 6. Descripción de variables........................................................................................24
Tabla 7. Estadística descriptiva de las variables cuantitativas ............................................25
Tabla 8. Regla de valor de la información...........................................................................31
Tabla 9. Resumen de IV para las variables independientes.................................................31
Tabla 10. Detalle de WOE e IV para las variables independientes .......................................32
Tabla 11. Modelo de regresión logístico ...............................................................................35
Tabla 12. Regla de decisión para el ROC ..............................................................................38
Tabla 13. Análisis K-S ..........................................................................................................39
Tabla 14. Validación del modelo (matriz de confusión) .......................................................41
vi
Índice de gráficos
Gráfico 1. Factores determinantes del riesgo crediticio ...........................................................4
Gráfico 2. Cálculo de la capacidad de endeudamiento para un cliente BN ............................18
Gráfico 3. Evolución del saldo vigente de préstamos de consumo no revolvente y
morosidad ..............................................................................................................19
Gráfico 4. Definición del cliente ............................................................................................23
Gráfico 5. Histograma y diagrama de frecuencias de las variables independientes – variables
cualitativas .............................................................................................................27
Gráfico 6. Diagrama de barras de las variables independientes cualitativas ..........................28
Gráfico 7. Árboles de decisión para variable. Departamento, tipo de préstamo e ingreso .....30
Gráfico 8. Distribución del ingreso según buenos (rojo) y malos (verde) ..............................33
Gráfico 9. Matriz de correlaciones .........................................................................................34
Gráfico 10. Clústeres de correlación de variables ....................................................................35
Gráfico 11. Curva ROC ............................................................................................................38
Gráfico 12. Análisis K-S ..........................................................................................................40
Gráfico 13. Distribución del probabilidad de default según buenos (rojo) y malos (verde).....40
vii
Índice de anexos
Anexo 1. Ranking del sistema bancario y el BN por créditos de consumo no revolvente y revolvente 47
Anexo 2. Árboles de decisión para las variables independientes ............................................48
Anexo 3. Código usado para el modelo de regresión ..............................................................54
viii
Capítulo I. Introducción
Tal como se documenta en Carrera (2011), el crédito es una de las variables claves para
entender el mecanismo de transmisión de la política monetaria. Sin embargo, la calidad de
cartera debería tener un espacio en dicho análisis. Los créditos generados en el Banco de la
Nación (BN) forman parte del crédito agregado pero tienen características que las hacen únicas.
El presente trabajo de investigación tiene como objetivo identificar las variables determinantes
de la probabilidad de default en la cartera de consumo no revolvente del BN que sirva para
mejorar la gestión del riesgo de crédito de la cartera de créditos de la entidad.
Sin embargo, en la gestión del riesgo crediticio resulta fundamental conocer al potencial deudor
que esté acorde con el perfil de riesgos de la empresa, medido a través de la cuantificación de su
probabilidad de incumplimiento en el pago de sus obligaciones ex ante al otorgamiento del
crédito a partir de variables de naturaleza cualitativa y cuantitativa que lo caracterizan.
Es así que se aborda el objeto de la investigación desde los siguientes objetivos específicos: i.
estimar un modelo de regresión logística de admisión para obtener la probabilidad de default
aplicable a la evaluación crediticia de los préstamos de consumo no revolvente del BN; y ii.
identificar las variables de naturaleza cualitativa y cuantitativa que determinan el modelo.
1 Morosidad de 1,53% frente a 2,61% de la banca múltiple a diciembre 2016. Se indica que el BN no compite con la
banca múltiple debido a que sus créditos están dirigidas exclusivamente a los trabajadores del sector público, sin
embargo, se presenta en comparación con la banca múltiple a manera de referencia.
2 Dato a junio 2016.
1
El presente estudio toma interés en las mejoras que se pueden obtener a través de un
conocimiento del cliente por la entidad otorgante del crédito y plantea la hipótesis que variables
cualitativas como departamento donde se desembolsa el crédito, sector en el que labora el
trabajador público, su situación laboral: activo o pensionista y sexo en combinación con
variables cuantitativas como plazo del préstamo, antigüedad laboral, ingreso del trabajador, la
deuda en el sistema financiero al momento de solicitar el crédito permiten estimar la
probabilidad de default para la cartera de créditos de consumo no revolvente del BN.
Se propone abordar el tema en tres capítulos hacia adelante, en donde en el primero se realizará
el desarrollo del marco teórico, en el segundo capítulo se presentará el planteamiento del
problema, en el tercer capítulo se desarrollará la metodología para determinar las variables
determinantes del modelo de credit scoring, incluyendo la determinación de la muestra,
variables utilizadas en la formulación, contrastación empírica y pruebas de poder
discriminatorio y validación. Finalmente, se presentarán las conclusiones y recomendaciones.
2
Capítulo II. Marco teórico
1. Riesgo crediticio
Selección adversa: ocurre previo al otorgamiento del crédito y se produce porque el banco
posee mayor probabilidad de otorgar un crédito al solicitante más riesgoso, teniendo en
cuenta que este busca con mayor empeño un crédito, lo que hace que su probabilidad de
conseguirlo sea mayor.
Riesgo moral: ocurre luego del otorgamiento del crédito y está relacionado con la voluntad
de pago del cliente, es decir, una vez que consiguió el financiamiento podría llevar a cabo
acciones que satisfagan sus intereses dejando de lado los del banco.
Tomando en consideración que detrás del concepto señalado está implícito tanto el riesgo de
incumplimiento que se puede aproximar como la probabilidad que se produzca el
incumplimiento, así como por el riesgo de mercado, que es la pérdida a la que la entidad
bancaria se ve expuesta en caso se produzca el incumplimiento, las entidades bancarias se
enfrentan a posibles pérdidas que pueden gestionar con el tratamiento de los factores que
intervienen en el riesgo de crédito.
Según Samaniego (2008), los factores determinantes del riesgo de crédito se describen a
continuación y se muestran en el gráfico 1.
3
entidad bancaria, la definición de incumplimiento que esta realice, entre otros
determinantes.
Exposición: valor de mercado de la deuda en el momento del incumplimiento. Variable que
depende del instrumento, la calidad crediticia del deudor, entre otros.
Severidad: porcentaje de pérdida que, tras el proceso de recuperación, y dada la pérdida,
finalmente se produce. Depende de los costos de recuperación actualizados, la duración del
proceso de recupero, entre otros.
En ese mismo sentido, la SBS en su Resolución 14354-2009 señala que una empresa del sistema
bancario puede postular a utilizar métodos internos para la estimación de su requerimiento de
capital por riesgo de crédito para exposiciones minoristas, siempre que cumpla los
requerimientos mínimos establecidos por el ente regulador para los parámetros del riesgo,
siendo estos parámetros los siguientes:
4
Así, tenemos que una vez identificados y definidos los factores determinantes del riesgo de la
operación que la entidad bancaria enfrenta, resulta necesario que desarrolle una de las etapas
más importantes dentro de la gestión del riesgo crediticio, que es el proceso de identificación
del deudor, de tal manera que ex ante identifique y cuantifique el riesgo de crédito, qué significa
y determinar si se encuentra dentro del perfil de riesgos de la empresa y, en función a ello, y a
través de herramientas de admisión crediticia, decida si aceptará o rechazará la solicitud del
crédito.
Dentro de las herramientas que posibilitan una identificación ex ante y variables que determinan
la probabilidad de default del deudor acorde al perfil de riesgos, se cuenta con modelos de credit
scoring de admisión permitiendo gestionar adecuadamente el riesgo crediticio.
2. Credit scoring
Según Lawrence y Solomon (2002), el scoring es una herramienta que sirve para analizar a los
solicitantes de créditos (clientes potenciales), así como a los clientes existentes, con la finalidad
de predecir su comportamiento futuro, medido a través de la probabilidad de default del cliente,
basado en las variables que la determinan. Si este se utiliza correctamente, puede proporcionar a
los administradores de créditos una cantidad importante de información estadística inyectándole
un alto grado de previsibilidad a sus portafolios. Además, Lawrence y Solomon indican que el
credit scoring utiliza técnicas estadísticas para identificar y clasificar a los clientes potenciales o
los clientes actuales de acuerdo a lo atractivo que resulte para la entidad financiera. Esta debe
ser definida de antemano por el usuario y puede ser rentabilidad, riesgo, disposición de repago
si ha caído en mora, entre otros.
Cabe indicar que existen dos tipos de scoring: (i) de aplicación, que es utilizado para
potenciales clientes, y (ii) de comportamiento, que es generalmente aplicado para clientes
vigentes, según el momento en que se aplican en la evaluación. De otro lado, también se pueden
clasificar en dos tipos de scores: (i) customizados, siendo desarrollados a partir la propia
información de la entidad, y (ii) genéricos, que son desarrollados con gran cantidad de
información que vienen de oficinas proveedoras.
5
2.1 Beneficios del credit scoring
En ese mismo sentido, los autores enumeran los principales beneficios del credit scoring:
Dicho de otra manera, Sidiqqi (2006) resume que la entidad financiera, a través de scoring,
tiene la posibilidad de establecer un proceso de decisión consistente y objetivo, basado en la
práctica y derivado de la información propia de sus clientes. Combinado con el conocimiento
del negocio, un modelo predictivo proveerá a los administradores de riesgos una eficiencia
añadida y control en el proceso de administración de riesgos.
De la misma forma, Lawrence y Solomon (2002) señalan que las mayores limitaciones que
presenta la técnica del credit scoring son:
6
Proceso de desarrollo intensivo en tiempo: ante lo cual resulta necesario el apoyo de la
administración para la priorización de una implementación.
Predictibilidad limitada: solo identifica la probabilidad de que un cliente sea bueno o
malo, no identifica si la cuenta individual será buena o mala.
Deterioro a lo largo del tiempo: considerando que está basado en comportamiento pasado,
sus beneficios únicamente perdurarán si el sistema es monitoreado y validado
contantemente.
Métodos paramétricos
Análisis discriminante
7
procedimiento consiste en seleccionar un número C de clases en las cuales se segregará la
data. En el caso de un modelo de credit scoring, estas pueden ser, por ejemplo: default y non
default. Luego, se busca la combinación lineal de variables explicativas que permiten
obtener la mayor distancia entre las dos clases.
Donde:
ω: vector de pesos
μi : media de las variables en la clase i
∑ : es la matriz de covarianzas entre clases
En (1), el numerador es la covarianza global y el denominador es la varianza. Según
Anderson (2007), el modelo asume que la matriz de varianza/ covarianza es la misma para
cada grupo.
Sin embargo, al maximizar F no se obtiene la variableα, que es el punto de corte que separa
los grupos, el cual según la práctica indica que tiene que ser determinado por el usuario.
8
trabajo/ activos, utilidades retenidas/ activos, EBIT/ activos, ventas/ activos, entre los
principales.
Según Anderson (2007), el análisis discriminante presenta debilidades relacionadas a la
técnica utilizada, en ese sentido, si partimos de que con frecuencia se utiliza una regresión
lineal, este presentará limitaciones respecto a los supuestos realizados para su estimación.
Según Anderson (2007), algunas de las más simples relaciones posibles son las lineales, en
donde, conforme un valor se incrementa, la variable dependiente cambia a una tasa conocida
y constante, lo que corresponde a un modelo de probabilidad lineal (considerando que la
variable dependiente es binaria, como en el caso del credit scoring).
En el credit scoring se obtiene, desde el modelamiento siguiente, un estimado de la
probabilidad de un buen crédito (p(bueno)):
Es así que Anderson (2007), señala que las principales desventajas del modelo de regresión
lineal son los supuestos que realiza: (i) linealidad, (ii) homocedasticidad, (iii) distribución
normal de los errores, lo que implica que la variable independiente es continua y distribuida
normalmente, (iv) independencia del término de error, (v) aditividad, (vi) ausencia de
correlación entre las variables independientes, y (vii) uso de variables relevantes.
9
Según Siddiqi (2006), la regresión logística es una técnica común utilizada en el desarrollo
de scorecards en la industria financiera, en donde la variable dependiente es binaria. Su
construcción requiere realizar los siguientes supuestos: (i) variable dependiente categórica,
(ii) relación lineal sobre la función log odds, (iii) independencia del término de error, (iv)
variables independientes no correlacionadas; y (v) uso de variables relevantes.
Asimismo, Anderson (2007) indica que la regresión logística es la técnica con mayor
aceptación para elegir para el desarrollo del modelo de credit scoring, en particular porque:
(i) es específicamente diseñado para una variable dependiente binaria, (ii) el score que el
modelo estima es fácilmente convertida en la probabilidad de default del crédito.
𝜋(𝑥)
𝑔(𝑥) = ln ( ) = 𝛽0 + 𝛽1 𝑥1+⋯+ 𝛽𝑝 𝑥𝑝
1 − 𝜋(𝑥)
Donde:
𝑒 𝑔(𝑥)
𝜋(𝑥) =
1 + 𝑒 𝑔(𝑥)
∑[𝑦𝑖 − 𝜋(𝑥𝑖 )] = 0
𝑖=1
y
𝑛
10
Para j=1,2,…,p
Para la obtención de los coeficientes se recurre a los diferentes softwares estadísticos que se
tiene a disposición.
𝐷𝑖𝑠𝑡𝑟 𝑏𝑢𝑒𝑛𝑜𝑠
𝑊𝑂𝐸 = ln ( )
𝐷𝑖𝑠𝑡𝑟 𝑚𝑎𝑙𝑜𝑠
Adicionalmente, Siddiqi (2006) indica que un WOE negativo indica que el atributo
particular está aislando una proporción más alta de malos que de buenos y se busca que
estos sean lo suficientemente diferentes entre las agrupaciones de los atributos, es decir, el
agrupamiento debe realizarse con el objetivo de maximizar la diferencia entre buenos y
malos créditos, siendo más importante la diferencia entre el WOE de los grupos para
establecer la diferenciación. A mayores diferencias entre grupos, mayor es la habilidad
predictiva de la variable.
Métodos paramétricos
Según Anderson (2007), los métodos no paramétricos tienen como principal desventaja la falta
de transparencia, así como una sobrealimentación.
Arboles de decisión
Anderson (2007) indica que es una herramienta gráfica, con una estructura de cajas y líneas
de rama o raíz, utilizada para mostrar posibles giros de eventos que pueden o no ser
controlables; cada rama representa las opciones disponibles para un tomador de decisiones.
Los árboles de decisión también se utilizan para la visualización de datos en problemas de
clasificación y predicción. La forma más primitiva es un tipo de sistema experto, donde
11
personas con experiencia práctica definen un conjunto de reglas. Todavía se aplica en
diagnósticos médicos y donde no hay datos suficientes para hacer un análisis empírico
pudiéndose derivar formularios más avanzados basados en el análisis de datos.
La técnica primaria utilizada se denomina RPA, la cual consiste en determinar las ramas que
tendrá el árbol de decisión, a través de intentos repetidos para encontrar la mejor división
posible. Específicamente, la regla de división es compleja debido a que busca dividir la
población en diferentes grupos homogéneos y grupos mutuamente excluyentes. El objetivo
es minimizar la distancia entre los miembros de un grupo (similares tasas de default), y
maximizar la distancia entre grupos (diferentes tasas de default).
En general, el RPA no es un modelo adecuado para modelos predictivos, pero existen ciertas
instancias donde pueden ser considerados. Por ejemplo, cuando la data disponible para
desarrollar un scorecard es limitado, como para un nuevo producto.
A pesar de las deficiencias, los RPA siguen siendo herramientas poderosas para su uso en el
negocio bancario. Se utilizan mejor para la exploración rápida y sucia de datos, ya sea para
obtener información sobre los datos, describir los datos para el negocio, identificar las
variables predictivas clave, identificar divisiones scorecards o actuar como un punto de
referencia para otros modelos.
Redes neuronales
Anderson (2007) las define como redes de elementos computacionales que responden a las
variables de entrada, y que aprenden y se adaptan al medio. Tiene el objetivo de imitar el
trabajo del cerebro humano, especialmente en lo referente a auto organización y aprendizaje.
A diferencia de otras técnicas que siguen procedimientos con fórmulas, las redes neuronales
son entrenadas a través de la repetición de ejemplos (Chorafas 1990). El resultado es similar
a un árbol de decisión, excepto que es más detallado con reglas de decisión más complejas.
Las ventajas de las redes neuronales son: (i) procesa grandes cantidades de información; (ii)
descubre patrones y sigue las relaciones de la data, especialmente las interacciones; (iii)
lidia con las relaciones no lineales en la data, y (iv) se entrena basado en las diferencias
observadas y los resultados actuales. Sin embargo, también presenta una serie de
desventajas o problemas: (i) requiere gran cantidad de iteraciones antes que se obtenga el
12
modelo final; (ii) es caro de implementar y mantener, especialmente lo referido a
entrenamiento, que permita que se adapte a las circunstancias cambiantes; (iii) no es
transparente, las relaciones detectadas por el modelo son difíciles de interpretar, y (iv) tiene
significante probabilidad de sobrealimentación.
Las redes neuronales no tienen buena adaptación para ambientes donde la decisión lógica
debe ser entendida, como es el caso del scoring de aplicación de créditos de consumo,
donde las compañías podrían explicar las razones de la decisión de no conceder el crédito al
potencial cliente, o cuando el negocio exige cierta comprensión del proceso subyacente. Sin
embargo, puede ser bien adaptado donde la precisión y predicciones adaptativas son críticas
y la transparencia es secundaria.
De acuerdo con Thomas (2000), su primer uso es en áreas donde se cuenta con menor
cantidad de datos, como un scoring para corporaciones o es scoring de fraude. Tan rápido
como los prestamistas identifican fraude, y colocan mecanismos de control, el modus
operandi es cambiado y son encontradas nuevas debilidades. Las redes neuronales tienen la
habilidad de adaptarse a esas circunstancias cambiantes, pero requiere monitoreo y
reentrenamiento a lo largo de su uso.
Programación lineal
Anderson (2007) indica que el objetivo original de la programación lineal (PL) estaba
orientada al apoyo en los problemas de asignación de recursos, como una amplia
generalización, la programación lineal es un medio para resolver problemas de asignación
de recursos que tienen restricciones. Para el credit scoring, funcionaría resolviendo los
valores de β en un problema que se presenta en la forma:
𝑦𝑖 = 𝛽0 + ∑ 𝛽𝑗 𝑋𝑖𝑗 + 𝑒𝑖
𝑗=1
𝛽1 < 𝛽3
𝛽2 > 0, etcétera
En otras palabras, intenta elaborar una ecuación de regresión que minimice un cierto
término de error, que puede variar, al tiempo que garantiza que las asignaciones de puntos
individuales caen dentro de las limitaciones dadas.
13
La principal ventaja de la PL es que el desarrollador del scorecard tiene un mayor control
sobre las puntuaciones finales, al ser capaz de incluir sesgos requeridos en las sentencias
"sujeto a". Si bien es técnicamente posible utilizar esta técnica para la calificación crediticia,
rara vez se usa en la práctica. El rendimiento real de los modelos resultantes puede ser
suficiente, pero los prestamistas pueden ser evaluados con mayor ajuste con la aplicación de
otros modelos.
Según De Servigny y Renault (2004), varios factores son importantes a la hora de elegir una
clase particular de modelo sobre otra:
14
Capítulo III. Planteamiento del problema
1. Antecedentes generales
El Banco de la Nación es una empresa estatal con potestades públicas, integrante del sector
Economía y Finanzas de la República del Perú, bajo operación autónoma en términos
económicos, financieros y administrativos, creada mediante Ley 16000 en el año 1966. Se
encuentra regulado por su Estatuto aprobado mediante Decreto Supremo 07-94-EF, el Decreto
Legislativo que promueve la Eficiencia de la Actividad Empresarial del Estado aprobado
mediante Decreto Legislativo 1031 y supletoriamente por Ley 26702, Ley General del Sistema
Financiero y del Sistema de Seguros y Orgánica de la Superintendencia de Banca y Seguros.
De acuerdo con su Estatuto, el Banco está facultado para realizar diversas funciones, ninguna de
las cuales en forma exclusiva respecto de las empresas y entidades del sistema financiero,
dentro de las que indica: «Otorgar una línea de crédito única a los trabajadores y pensionistas
del sector público que, por motivo de sus ingresos, posean cuentas de ahorro en el Banco de la
Nación. Dicha línea de crédito podrá ser asignada por el beneficiario para su uso mediante
préstamos y/o como línea de una tarjeta de crédito. Estas operaciones se harán de acuerdo a un
programa anual aprobado por el Ministerio de Economía y Finanzas que podrá ser revisado
anualmente».
Dentro de sus estados financieros, al cierre del año 2016, el activo del Banco alcanzó S/ 28.500
millones, disminuyendo en S/ 1.051 millones (-4 %) con relación al 2015. El pasivo también
disminuyó alcanzando S/ 26.127 millones, cifra que resulta S/ 1.629 millones menor a la
registrada el año anterior, dicha reducción fue mitigada por el incremento, debido a la emisión
de bonos subordinados por S/ 250 millones, en el marco del programa de fortalecimiento
patrimonial aprobado en el año 2016.
15
Tabla 2. Principales indicadores del BN
Resumen Unidad 2012 2013 2014 2015 2016
Información del estado de situación financiera y estado de ganancias y pérdidas
Créditos de consumo total no revolvente Millones de S/ 2 852 3 194 3 354 3 410 3 460
Total activo Millones de S/ 24 179 27 020 28 284 29 550 28 500
Créditos consumo/ total activo % 11.8 11.8 11.9 11.5 12.1
Total pasivo Millones de S/ 22 116 25 229 26 323 27 755 26 127
Patrimonio Millones de S/ 2 063 1 792 1 961 1 795 2 373
Resultado neto Millones de S/ 669 589 705 685 876
Principales indicadores financieros
1. Capital
Ratio de capital global % 19.2 15.8 13.9 13.3 19.4
Pasivo total / cap. social y reservas N° veces 16.4 18.7 19.5 20.6 16.9
2. Calidad de activos (asset )
Cartera atrasada / créditos directos % 0.6 0.5 0.5 0.6 0.7
Provisiones / créditos directos % 3.1 2.8 2.8 2.5 2.7
3. Manejo administrativo (management )
Gastos administrativos / ingresos totales % 42.05 45.7 43.3 42.6 38.1
Gastos adm. (sin jub.) / ingresos totales % 36.4 40.4 37.2 36.6 32.8
Créditos directos / personal Miles de S/ 1,359 1,601 1,753 2,330 2,181
Depósitos / oficinas Miles de S/ 34,365 37,924 37,945 40,213 36,667
4. Rentabilidad (earnings )
ROE (utilidad anualizada / patr. prom.) % 35.6 33.8 40.0 37.3 41.2
ROA (utilidad anualizada / activo prom.) % 2.9 2.4 2.6 2.5 3.2
Ingresos financieros / ingresos totales % 62.8 65.7 64.6 63.7 64.8
Gastos financieros / ingresos financieros % 5.9 7.0 3.8 10.7 10.2
5. Liquidez (liquidity )
Liquidez MN % 85.4 80.5 86.5 72.5 72.7
Liquidez ME % 119.9 170 215.7 144.1 152.3
Fuente: Banco de la Nación, 2017.
El préstamo Multired ofrece las modalidades de: (i) Convenio, dirigido a un sector
específico con el que el Banco suscribe un convenio;(ii) Clásico, el cual requiere un garante,
y (iii) Comercial, que está dirigido a financiar la adquisición de productos o servicios con
3Según Resolución S.B.S. 11356 – 2008, los créditos no revolventes son aquellos créditos otorgados a personas
naturales, con la finalidad de atender el pago de bienes, servicios o gastos no relacionados con la actividad
empresarial.
16
empresas proveedoras autorizadas que firmen un acuerdo comercial a favor de clientes del
BN.
El Banco realiza el cobro automático con cargo a la cuenta de ahorros del cliente, esta
característica lo diferencia del préstamo descuento por planilla, el cual realiza el cobro
directamente de la planilla del trabajador.
En caso el cliente cumpla con lo mencionado, el modelo de negocios cuenta con un cálculo
matemático de la capacidad de endeudamiento del cliente a través de la máxima cuota a la que
el cliente puede acceder, la cual, en términos generales, consiste en lo siguiente:
La capacidad de pago está en función del promedio de ingreso mensual del cliente y de su
nivel de endeudamiento, considerando las deudas con otras entidades del sistema financiero.
Asimismo, incorpora medidas para evitar el riesgo de sobreendeudamiento.
Considera el 33% de afectación de los ingresos mensuales, deduciendo las deudas del
cliente en el sistema financiero, así como los créditos vigentes que el cliente mantenga en el
Banco de la Nación.
Aplicando la siguiente fórmula se obtiene la máxima cuota mensual a la que el cliente puede
acceder y cual es llevada a importe a desembolsar a través del valor actual de la cuota
mensual obtenida de acuerdo al plazo que opte el cliente.
17
Gráfico 2. Cálculo de la capacidad de endeudamiento para un cliente BN
Deuda BN Deuda Sistema Bancario
La capacidad de endeudamiento está limitada, además, por el monto máximo a la que puede
acceder un cliente según la edad del mismo (asociado a su vez, a las coberturas del seguro
de desgravamen).
18
2. Morosidad
Al cierre del año 2016, el saldo de Préstamos Multired ascendió a S/ 3.397 millones
(crecimiento anual de 1,21%) presentando una morosidad de 1,53%. Con referencia al sistema
bancario, el Banco se posiciona en 5.° lugar por saldo de préstamos no revolventes y
revolventes4, y mantiene una morosidad por debajo del sistema (2,61% vs. 1,53%).
4,000 4.00%
3,318 3,356 3,397
3,500 3,157 3.50%
3,000 2,826
2.67% 3.00%
2.64% 2.63% 2.61%
2,500
2.17% 2.50%
2,000
2.00%
1,500 1.53%
1.35% 1.50%
1,000 1.05%
0.97% 0.97%
500 1.00%
- 0.50%
2012 2013 2014 2015 2016
Fuente: SBS -Estados Financieros del Banco de la Nación y sistema bancario, 2017.
En ese sentido, en un escenario adverso, el Banco tendrá que adecuar su modelo de negocios en
el que deberá evaluar el requisito del cargo automático de las cuotas de los préstamos en la
4 Ver anexo 1.
5 Según Decreto Supremo 003-2010-TR, sobre modificación de las normas reglamentarias relativas a la obligación de
los empleadores de llevar planillas de pago, modificó el artículo 18 del Decreto Supremo 001-98-TR, indicando que:
«Si el pago por terceros se efectúa a través de las empresas del sistema financiero, los trabajadores tendrán derecho
de elegir aquella donde se efectuarán los depósitos, (…)».
19
cuenta de ahorros, posiblemente porque el trabajador podría optar por migrar su cuenta, en tanto
no suceda lo anterior, resulta importante identificar las variables determinantes de la
probabilidad de default en la cartera de consumo no revolvente del BN, a través de un modelo
de regresión logística de credit scoring debido a que con una adecuada gestión de riesgos,
además le brindaría ventajas respecto a establecer ratios de morosidad objetivo en función a su
perfil de riesgos y su nivel de rentabilidad esperado. En ese mismo sentido, contaría con un
primer avance para postular al uso de un modelo interno para la determinación del
requerimiento de capital por riesgo crediticio.
20
Capítulo IV. Metodología e implementación
Sistema de desembolsos del Banco, el cual contiene el registro diario de los desembolsos a
nivel nacional, incluye información de: importe desembolsado, plazo, tasa de interés, unidad
ejecutora a la que pertenece el cliente, agencia en donde se desembolsó el crédito, y número
de desembolsos anteriores.
Sistema de ahorros del Banco, del que se obtuvo la información de: saldo promedio de
abono y la antigüedad de la cuenta de ahorros, la cual se utilizó como variable proxy de la
antigüedad laboral.
Reporte crediticio de deudores, se obtuvo la información de: edad, sexo y días de atraso del
cliente.
Reporte crediticio consolidado, se obtuvo la información del saldo adeudado y número de
entidades con las que el cliente tenía exposición crediticia en el momento del desembolso
del crédito.
Durante el año 2014, el total de desembolsos fue de 277 mil créditos, de los cuales los créditos
definidos como insuficiente e indeterminado fueron excluidos, quedando de esta manera un total
169.267 préstamos. Contando con esta información, se obtuvo dos muestras: i. muestra de
desarrollo, sobre la cual se estiman los tres modelos, cuenta con 84.635 registros, y ii. muestra
de validación, cuenta con 84.632 registros. Como se observa, ambas muestras tienen similar
cantidad de datos, lo que permite contar con suficiente información para que el modelo aprenda,
así como que permita una verificación consistente del modelo obtenido.
6Según Carta EF/92.6200 004-2017, el Banco de la Nación indicó que no es posible remitir información reciente de
su operativa mensual (año 2016) con el fin de salvaguardar sus intereses.
21
Las principales limitantes de la muestra son:
La información de desembolsos no logra cubrir un ciclo económico.
El producto es homogéneo, sin embargo, establece algunos requisitos especiales,
dependiendo de la edad y el sector en donde labora.
La base de datos no cuenta con los créditos que fueron solicitados y que no se
desembolsaron (rechazados), por lo que no se tiene las características de estos clientes. La
base de rechazados se puede analizar a través de aplicación de técnicas de inferencia,
aplicando el modelo estimado a los créditos rechazados (a través de técnicas como fuzzy
augmentation, punto de corte y parceling).
La SBS, en su Resolución 14345-2009 artículo 56.°, define como una operación para clientes
minoristas en estado de incumplimiento, aquella que presenta, al menos, una de las siguientes
características:
22
pagada, mientras que para considerar la totalidad del saldo insoluto como vencido, se realiza a
partir de los 90 días desde la fecha pactada correspondiente.
Buen crédito: crédito que durante los siguientes 12 meses a su desembolso tuvo cero (0) días
de atraso.
Mal crédito: crédito que en alguno de los siguientes 12 meses a su desembolso acumuló más
de treinta (30) días de atraso.
Indeterminado: aquel crédito que en alguno de los siguientes 12 meses a su desembolso tuvo
entre 1 y 30 días de atraso.
Insuficiente: aquel crédito del que no se cuenta con información completa en los 12 meses
siguientes a su desembolso.
Al día 1 30 180
Adicionalmente, se evidencia que la mayoría de los créditos que pasan los 30 días de atraso,
continúan incrementando sus días de atraso evaluado 12 meses después, según se aprecia en la
tabla 5 y evidenciaría que la definición de malos considerada para el modelo es consistente.
23
Tabla 5. Roll rate analysis
24
Se realizará la exploración inicial (estadística descriptiva) de las variables independientes, a fin
de conocer sus principales características como se observa en la tabla 7:
25
La antigüedad laboral promedio fue 7 años, cabe indicar que la variable fue aproximada a la
antigüedad de la cuenta de ahorros en el Banco de la Nación. El 62 % de los datos está
situado en el periodo de hasta 10 años.
El número de entidades del sistema financiero con la que el deudor del BN tiene deuda
directa es de dos préstamos, siendo que el 82 % de los datos están situados hasta este
número de entidades.
La deuda con entidades del sistema financiero con la que el deudor del BN tiene posición es
de S/ 7.243 en promedio mensual, siendo que el 74 % de los datos están situados hasta
S/ 10.000.
El número de préstamos Multired anteriores al desembolso actual que el cliente mantuvo
con el BN fue seis en promedio, con una mediana de cinco préstamos. El 52 % de los datos
han tenido como máximo hasta cinco préstamos con anterioridad.
26
Gráfico 5. Histogramas y diagrama de frecuencias de las variables independientes–
variables cuantitativas
Frec
Frec abs
rel Frec rel Frec rel
PLAZO acum
Frec abs ANTIG_LAB acum
70,000 100% 100% 100% 35,000 100% 100%
60,000 30,000
80% 80%
50,000 25,000
40,000 60% 20,000 62% 60%
30,000 40% 15,000 40%
32%
39%
20,000 24% 10,000
20% 20%
10,000 9%
5,000
- 0% - 0%
Hasta 12m] <12-24m] <24-36m] <36-48m] <48-60m] Hasta 5y <5-10y] <10y a más
- 0% - 0%
Hasta 28y] <28-38y] <38-48y] <48-58y] <58-68y] <68-78y] <78-84] 1 2 3 4 5 6 7
27
Gráfico 6. Diagrama de barras de las variables independientes cualitativas
Distribución de desembolsos por departamento Distribución de desembolsos por situación del
30,000 cliente
Del total de desembolsos Del total de desembolsos
25,000 Lima : 33% 70,000
Activo: 69%
20,000 Provincia: 67% Pensionista: 31%
60,000
15,000
50,000
10,000
40,000
5,000
- 30,000
Loreto
Puno
Amazonas
Junín
Lambayeque
Lima
Tumbes
Ucayali
Ancash
Apurímac
Arequipa
Ayacucho
Pasco
Piura
Tacna
Cajamarca
Cusco
Ica
Huancavelica
Huánuco
La Libertad
Madre de Dios
Moquegua
San Martín
20,000
10,000
-
ACTIVO PENSIONISTA
10,000
-
F M
Se precisa que en este estudio las variables cualitativas se trabajarán con el WOE respectivo por
atributos comunes encontrados dentro de las variables a través de los árboles de decisión, por lo
que no será necesario construir categorías de referencia, según el planteamiento de Siddiqi
(2006). Este proceso de trasformación de variables originales en variables WOEs comprende un
proceso de categorización de la variable en formato numérico.
Dentro del análisis realizado a las variables es importante determinar las variables que mejor
explican la probabilidad de default del cliente de consumo no revolvente del BN, para lo cual se
utilizó árboles de decisión con el fin de analizar cada variable independiente y visualizar su
utilidad para la discriminación en la variable dependiente (entre créditos malos y buenos);
asimismo, para identificar las categorías de agrupación de las variables independientes dentro de
sí mismas.
Según Siddiqi (2006) el agrupamiento de atributos dentro de las variables resulta ventajoso por
lo siguiente:
Ofrece una alternativa fácil para tratar outliers, clases raras, etc.
28
Permite entender las relaciones y conocer el portafolio crediticio, lo que redunda sobre la
gestión del portafolio.
Las dependencias no lineales pueden ser modeladas con construcciones lineales.
Otorga control sobre el proceso de desarrollo, la formación de los grupos finalmente
impactará en el modelo.
Se muestra los árboles de tres variables. Ver anexo 2 para las 12 variables utilizadas en el
estudio.
29
Gráfico 7. Árboles de decisión para variable. Departamento, tipo de préstamo e ingreso
30
Igualmente, basado en el resultado de la agrupación en categorías de las variables usando los
árboles de decisión se calculó el indicador WOE para cada variable, que permiten obtener
diferencias entre los WOE de los atributos de las variables sometidas al análisis.
Se utilizó el software R7 para la obtención de los árboles de decisión y a partir de los cuales se
construyeron el WOE y el IV, con la finalidad de determinar si la mencionada variable se
incluye dentro del modelo. Se precisa que, para lo indicado, se utilizó exclusivamente la
muestra de desarrollo.
Variable IV Calificación
DEPARTAMENTO 0,26 medio
IMPORTE_PRÉSTAMO 0,06 débil
PLAZO 0,10 medio
TIPO_PRÉSTAMO 0,26 medio
SITUACIÓN_CLIENTE 0,26 medio
EDAD 0,06 débil
SEXO 0,00 no predictivo
INGRESO 0,34 fuerte
ANTIG_LAB 0,06 débil
NUM_ENT 0,00 no predictivo
DEUDA_SF 0,05 débil
NUM_PRÉSTAMOS 0,05 débil
Fuente: Elaboración propia, 2017
7 Sistema para análisis estadístico y gráficos creado por Ross Ihaka y Robert Gentleman, Ihaka R. & Gentleman R.
1996. R: a language for data analysis and graphics. Journal of Computational and Graphical Statistics 5: 299–314
(https://cran.r-project.org/doc/contrib/rdebuts_es.pdf)
31
En detalle, con la muestra de construcción se tiene:
Considerando el IV de las variables independientes, para los casos en que el IV sea de 0,00,
debería removerse y no ser considerados en la formulación del modelo de regresión, es decir,
SEXO y NUM_ENT; sin embargo, el modelo considerará la variable SEXO debido a que en la
práctica le agregan un ajuste marginal adicional y se removerán si es que no aportan al ajuste
del modelo y resulta no significativa. De la revisión de los IVs de las variables, se observa que
el INGRESO es la variable más predictiva. A continuación, se presenta el gráfico 8 que
evidencia su poder discriminante.
32
Gráfico 8. Distribución del ingreso según buenos (rojo) y malos (verde)
Es preciso indicar que las variables independientes tomadas en cuenta para regresionar el
modelo, fueron convertidas previamente y asignadas con el WOE que les correspondan de
acuerdo con la tabla 10, las cuales se transforman en formato Excel y son ingresadas al
programa R que se utilizará para obtener el modelo de regresión; se menciona que se realiza esta
transformación debido a que tiene ventajas al no considerar las diferentes unidades en las que se
encuentran las mismas según lo señalado anteriormente.
Antes de obtener los modelos se analizó la correlación de las variables a través de la matriz de
correlaciones y el clúster de correlaciones.
33
Gráfico 9. Matriz de correlaciones
34
Gráfico 10. Clústeres de correlación de variables
35
El modelo de regresión logístico estima la probabilidad de incumplimiento del cliente y queda
definido por variables cualitativas como el departamento en donde se desembolsó el crédito, el
tipo de préstamo (sector al que pertenece el trabajador público que solicita el préstamo), la
situación laboral del cliente, sexo; así como de las variables intrínsecas de la operación de
préstamo como son el plazo, deuda en el sistema financiero además de la variable ingreso del
trabajador (que considera lo que en neto ingresa a la cuenta de ahorros en el banco) y
antigüedad laboral.
Se evidencia que estas variables independientes son significativas a por lo menos el 95 por
ciento de confianza estadística, lo que indica que las variables influyen en la probabilidad de
pago del prestatario. Asimismo, presentan coeficientes negativos, lo cual se explica por la
relación que tiene el WOE con la probabilidad de default, siendo esta una relación negativa.
Es así que las estimaciones de los coeficientes del modelo muestran que las variables con las
que queda definido el modelo influyen en términos del ratio odds, dado un incremento de una
unidad en la variable señalada incrementaría el ratio según como sigue: (i) si se produce en la
variable W_DEPART sería de 0,38 (resultado de e(-0,97), dado que 𝛽1 = −0,97 , cálculos
similares se realizan para las variables independientes en adelante); (ii) si se produce en la
variable W_PLAZO sería de 0,52; (iii) si se produce en la variable W_TIPO_PREST sería de
0,54; (iv) si se produce en la variable W_SIT_CLIENTE sería de 0,10; (v) si se produce en la
36
variable W_SEXO sería de 0,002; (vi) si se produce en la variable W_INGRESO (que equivale
por ejemplo de pasar del rango de ingresos de 100-400 al 931-1400) sería de 0,38; (vii) si se
produce en la variable W_ANTIG_LAB sería de 0,54; y finalmente, (viii) si se produce en la
variable W_DEUDA_SF sería de 0.64.
Una vez construido el modelo de regresión logística se tiene los siguientes posibles casos:
𝐶𝑇 𝑊 𝑇
𝐻𝑇 = 𝐷
, 𝐹𝑇 = 𝑁−𝐷
La curva ROC muestra la sensibilidad contra las falsas alarmas. Cuanto más pronunciada es la
curva ROC, es mejor, debido a que implica que hay pocas falsas alarmas en comparación con
los malos créditos detectados correctamente. La curva ROC también puede ser interpretada
como un trade off entre el error tipo I y error tipo II (Ht=1-E1 y Ft=E2).
37
El área bajo la curva ROC es una medida de discriminación ampliamente utilizada y, para el
modelo, es de 0,7379, lo que implica que el modelo tiene poder de discriminación aceptable, de
acuerdo con lo señalado por Hosmer et al.(2013).
No obstante, las ventajas de la curva ROC, según Servigny y Renault (2004), se tienen ciertas
limitantes:
La medida ROC está centrada en el ordenamiento en rango y, por lo tanto, solo se ocupa de
la clasificación relativa. En términos de crédito, siempre y cuando el modelo produzca una
clasificación correcta de las empresas en términos de probabilidades de incumplimiento,
tendrá un buen coeficiente ROC, independientemente de si todas las empresas asignaron
probabilidades mucho más bajas (o más) que sus valores reales. Por lo tanto, uno puede
38
tener un modelo que subestima el riesgo sustancialmente, pero todavía tiene un coeficiente
ROC satisfactorio.
ROC es una medida aceptable siempre y cuando la distribución de clase no sea sesgada.
Este es el caso del crédito, donde la población que cumple sus pagos es mucho mayor que la
que no cumple. Las curvas ROC pueden no ser la medida más adecuada en tales
circunstancias.
Además, se realiza el análisis del KS, el cual mide el poder predictivo del modelo a través de la
divergencia entre la distribución de buenos y malos
Se observa una divergencia entre buenos créditos y malos créditos obteniéndose un KS de 34%,
el cual se encuentra dentro del rango satisfactorio entre 20% y 40%, según referencia de Mays
(2004). De los resultados obtenidos, con el cut off de 2,7% para la probabilidad de
incumplimiento, permite obtener una tasa de aprobación de solicitudes de crédito del 71%.
En base a este análisis es posible establecer objetivos de riesgo que está dispuesto a aceptar el
BN de acuerdo a su perfil de riesgos.
39
Gráfico 12. Análisis K-S
120%
100%
80%
60%
40%
20%
0%
1 2 3 4 5 6 7 8 9 10 11
% Buenos % Malos
2.2 Validación
Gráfico 13. Distribución del probabilidad de default según buenos (rojo) y malos (verde)
La muestra de validación consta de 84.632 registros, de los cuales 82.378 son buenos y 2.254
han sido definidos como malos, esta muestra contiene similar número de buenos y malos
créditos, respecto de la muestra de construcción, como se observó en la tabla 4.
40
61% (malos detectados por el modelo) y una especificidad de 72% (buenos detectados por el
modelo).
41
Conclusiones y recomendaciones
1. Conclusiones
2. Recomendaciones
Implementar la técnica del credit scoring en el proceso de evaluación crediticia para los
préstamos no revolventes del Banco de la Nación a través de un modelo de regresión
logística, tomando en cuenta las ventajas que esta herramienta le ofrece.
42
Enriquecer la estimación del modelo de regresión con información de desembolsos que
abarque un ciclo económico.
Teniendo en consideración las limitaciones del scoring que utiliza el pasado para explicar el
futuro, y la dinámica en las características o principales variables determinantes, se
recomienda la revisión del modelo por lo menos con una periodicidad anual, con el objetivo
de evitar el deterioro en el tiempo.
43
Bibliografía
Anderson, Raymond (2007). The Credit Scoring Toolkit - Theory and Practice for Retail Credit
Risk Management and Decision Automation. Estados Unidos de América: Oxford University
Press Inc.
Banco de la Nación. (1994). Estatuto del Banco de la Nación – Texto actualizado. Fecha de
consulta: 31.03.2017. Disponible en: http://www.bn.com.pe/nosotros/estatuto.asp
Carrera, César. (2011). “El canal del crédito bancario en el Perú: Evidencia y mecanismo de
transmisión”. En: Banco Central de Reserva del Perú. Diciembre 2011. Fecha de consulta:
14/06/2017. <http://www.bcrp.gob.pe/docs/Publicaciones/Revista-Estudios-Economicos/22/ree-
22-carrera.pdf>.
De Servigny, Arnaud y Renault, Olivier (2004). Measuring and Managing Credit Risk. México:
McGraw-Hill Companies, Inc.
Escalona, Arturo (2011). Uso de Modelos Credit Scoring en Microfinanzas. Tesis presentada
como requisito parcial para obtener el grado de Maestro en Ciencias. Institución de enseñanza e
investigación en ciencias agrícolas Campus Montecillo - México.
Hosmer, David; Lemeshow, Stanley; Sturdivant, Rodney (2013). Applied Logistic Regression.
3ra edición. Estados Unidos de América: John Wiley&Sons, Inc.
Lawrence, David y Arlene Solomon (2002). Managing a Consumer Lending Business. Estados
Unidos de América: Solomon Lawrence Partners.
Mays E; Nuetzel P. (2004) Scorecard Monitoring Reports. In Mays, E. (ed.) Credit Scoring for
Risk Managers: The Handbook for Lenders. Estados Unidos de América: South-Western
Publishing: Mason, OH.
Samaniego, Reyes (2008). El Riesgo de Crédito en el Marco del Acuerdo de Basilea II. 1ra
edición. España: Delta Publicaciones Universitarias.
44
Siddiqi, Naeem (2006). Credit Risk Scorecards Developing and Implementing Intelligent Credit
Scoring. Estados Unidos de América: John Wiley&Sons, Inc.
45
Anexos
46
Anexo 1. Ranking del sistema bancario y el BN por créditos de consumo no revolvente y revolvente
Nov-15 Dic-15 Nov-16 Dic-16
BANCOS Millones Millones Millones Millones
Part. % Part. % Part. % Part. %
S /. S /. S /. S /.
47
Anexo 2. Árboles de decisión para las variables independientes
48
49
50
51
52
Fuente: Elaboración propia, 2017.
53
Anexo 3. Código usado para el modelo de regresión
################################################
# Configuración espacio de trabajo
################################################
setwd("C:/Users/INTEL/Desktop/Tesis 2017/Scoring/Scoring")
################################################
# Carga de datos y exploración
################################################
datos.total<-read.table("datos_scoring.csv",header=T,sep=",")
head(datos.total)
str(datos.total) # muestra los tipos de variables
summary(datos.total) # Resumen de rango de valores
dim(datos.total)
length(unique(datos.total$ID)) # duplicado
# Transformar variable ID
datos.total$ID<-as.character(datos.total$ID)
# Exclusiones
datos.total<- subset(datos.total, DEF_MALO < 2) # Indeterminados
datos.total<- subset(datos.total, INGRESO <= 10000) # Valores extremos
datos.total<- subset(datos.total, DEUDA_SF <= 100000) # Valores extremos
# Datos categóricos
prop.table(table(datos.total$DEPARTAMENTO,datos.total$DEF_MALO)) # global
prop.table(table(datos.total$DEPARTAMENTO,datos.total$DEF_MALO),margin=1) # por
variable indep
prop.table(table(datos.total$DEPARTAMENTO,datos.total$DEF_MALO),margin=2) # por
variable dep-respuesta
barplot(table (datos.total$DEPARTAMENTO), col=c("blue","lightblue"),
main =" Diagrama de barras de las frecuencias absolutas \n de la variable \"
DEPARTAMENTO\"")
barplot(table(datos.total$DEF_MALO,datos.total$SEXO),beside=TRUE,names=c("Mujer","Ho
mbre"),col=c("red","blue"),legend.text=c("Buenos","Malos"))
# Datos continuos
hist(datos.total$IMPORTE_PRESTAMO)
hist(datos.total$EDAD)
hist(datos.total$PLAZO)
hist(datos.total$INGRESO)
hist(datos.total$ANTIG_LAB)
54
hist(datos.total$DEUDA_SF)
hist(datos.total$NUM_ENT)
hist(datos$NUM_ENT)
#% malos
table(datos.total$DEF_MALO)/nrow(datos.total)*100
# % malos x variable
tabla1=table(datos.total$ANTIG_LAB,datos.total$DEF_MALO)
tabla1
tabla2=prop.table(tabla1,margin=1)
tabla2
# Barras agrupadas
barplot(tabla2,col=2:6,beside = T,
xlab="Bueno = 0 y Malo = 1",
ylab="Proporción de Clientes",
main="Porcentaje por clasificación riesgo")
############################################################
# Árbol de clasificación
############################################################
# Build a conditional tree using the party package.
# install.packages("party")
library(party)
require(party, quietly = TRUE)
rpart<- ctree(DEF_MALO ~ INGRESO, data=datos)
rpart<- ctree(DEF_MALO ~ EDAD, data=datos)
rpart<- ctree(DEF_MALO ~ IMPORTE_PRESTAMO, data=datos)
rpart<- ctree(DEF_MALO ~ PLAZO, data=datos)
rpart<- ctree(DEF_MALO ~ ANTIG_LAB, data=datos)
rpart<- ctree(DEF_MALO ~ DEUDA_SF, data=datos)
rpart<- ctree(DEF_MALO ~ NUM_PRESTAMOS, data = datos)
rpart<- ctree(DEF_MALO ~ NUM_ENT, data = datos)
rpart<- ctree(DEF_MALO ~ SITUACION_CLIENTE, data = datos)
55
rpart<- ctree(DEF_MALO ~ SEXO, data = datos.total) # no sale relevante
rpart<- ctree(DEF_MALO ~ TIPO_PRESTAMO, data = datos)
rpart<- ctree(DEF_MALO ~ DEPARTAMENTO, data = datos)
print(rpart)
plot(rpart)
## Guardar gráfico con 3 o más variables (para 2 variables usar w=2000 y h=1000)
png(filename = "rpart_tree_scoring.png",
width = 2000,
height = 1000)
plot(rpart)
dev.off()
############################################################
# Cargando las bases con variables WoEs
############################################################
datos.woe.cons<-read.table("bd_cons.csv",header=T,sep=",")
datos.woe.valid<-read.table("bd_valid.csv",header=T,sep=",")
str(datos.woe.cons) # muestra los tipos de variables
############################################################
# Regresión logística binaria
############################################################
# Estimación del modelo
modelo_logit<- glm(DEF_MALO ~
W_DEPART+W_IMP_PRES+W_PLAZO+W_TIPO_PREST+W_SIT_CLIENTE+W_EDAD+
W_SEXO+W_INGRESO+W_ANTIG_LAB+W_NUM_ENT+W_DEUDA_SF+W_NUM_PRE
ST, family = binomial(), data = datos.woe.cons)
modelo_logit<- glm(DEF_MALO ~
W_DEPART+W_PLAZO+W_TIPO_PREST+W_SIT_CLIENTE+W_SEXO+W_INGRESO+
W_ANTIG_LAB+W_DEUDA_SF, family = binomial(), data = datos.woe.cons)
summary(modelo_logit)
# Valores predichos de Y
ypred<- as.numeric((predict(modelo_logit, newdata=datos.woe.valid[,-1], type="response") >=
0.1) )
# Valores reales de Y
ytrue<- datos.woe.valid$DEF_MALO
# AUC
install.packages("pROC")
library(pROC)
logit.analysis<- roc(response=ytrue, predictor=pd_proy)
logit.analysis$auc
56
# ROC
install.packages("ROCR")
library(ROCR)
pred<-prediction(pd_proy,ytrue)
perf<- performance(pred,"tpr","fpr")
plot(perf)
# Cálculodel KS
max(attr(perf,'y.values')[[1]]-attr(perf,'x.values')[[1]])
#######################################
# Base validación con probproyectada #
#######################################
Base_Validacion = data.frame(datos.woe.valid, prob_logit = pd_proy)
head(Base_Validacion)
# Exportar salidas
summary(modelo_logit)
Resumen = summary(modelo_logit)
capture.output(Resumen, file="Resumen_Logit.doc")
Fuente: Elaboración propia, 2017.
57
Nota biográfica
58