Data Mining y Los Sesgos de Seleccion BESMART
Data Mining y Los Sesgos de Seleccion BESMART
Data Mining y Los Sesgos de Seleccion BESMART
OCT 2014
sesgos de selección
Discusión de casos:
Originación de Créditos y
Detección del Hurto de Electricidad
Fernando Castelpoggi
AGENDA: Data Mining y los sesgos de selección
Objetivos de la charla
Discusión y recomendaciones
Smart Business Solutions S.A.
Empresa dedicada a la provisión de
Soluciones inteligentes (Software,
Servicios, Capacitación y
Consultoría).
Desde hace más de 15 años en
Argentina y Chile.
Partners de IBM: SPSS Modeler,
Unica, Ilog, Tealeaf, Open Pages, etc.
Profesionales con amplia experiencia
aplicada a diversas industrias y
procesos.
Certificación ISO-9001 de los
procesos de desarrollo e
implementación.
Objetivos
• Evaluar efectos de la presencia de sesgos de selección en el contexto actual de
uso intensivo de modelos y gran disponibilidad de datos (Big Data).
• Desarrollar intuición para discernir si el proceso que generó nuestro set de datos
presenta sesgo de selección no despreciable.
• Para ello, analizaremos dos ejemplos de aplicación:
• Modelos de Scoring para Originación de Créditos
• Modelos para la Detección de hurto de electricidad (fraude)
• Implicancias prácticas en caso de que nuestra muestra de datos presente un sesgo
de selección importante:
• Diseñar un plan de proyecto adecuado
• Evaluar si el impacto es el mismo en todos los segmentos de interés
• Conocer en qué consisten algunos métodos de inferencia que se pueden aplicar para
contrarrestar el sesgo
• Implicancias para el seguimiento de los modelos
• Planificar, en la medida de lo posible, un diseño experimental (grupos de testeo /
control) del proceso que genera los datos, adecuado para futuros análisis / modelos.
Contexto
extracción
de datos
Proceso de negocio
Los procesos de negocio tienden a sesgan los datos que luego serán analizados, excepto cuando hubo
un diseño con fines analíticos. Pero esto requiere una fuerte cultura analítica, ya que implica implementar
estrategias con grupos de testeo y control (además de hacer un seguimiento adecuado)
“buenas
Ideas”
charlas
“buenos oradores” TED
Sesgos
Sub-población R:
respuesta faltante Sub-población A: respuesta conocida
Data Mining y los sesgos de selección
Sesgo de Si
selección
importante?
No
FIN DEL
PROYECTO?
No
Consultar a un
Estadístico…
Redefinir Plan
de Proyecto
Rechazados (R)
No
Canal
Adquisicion 1
No
Ingreso Supera Cutoff Si
Solicitudes Si Modelo de
Supera
Scoring?
Politicas
Crediticias?
Canal
Adquisicion 2
Alta de Productos
Aprobados (A)
Sólo los A tendrán
COMPORTAMIENTO
CREDITICIO
A: Aprobados
R: Rechazados
A: Aprobados
R: Rechazados
A: Aprobados
R: Rechazados
•Historia de datos
analizada: 7+ años
•2.5MM clientes
Inspecciones
Resumenes
históricasSaldos, Pago mínimo
Otras
Hurtos fuentes
Históricos
Pagos detectados
Atrasos,
planes de
pago
Consumo,
Movimientos
Movimientos
Clientes (Cupones)
Lecturas y
(Cupones)
Cartera
(cálculo
demograficos Facturación
Planes dePlanes
refinanciacion,
de refinanciacion,
mensual área otras acciones y
otras acciones y
Instalaciones,
risk analytics) características de la
características de la
otras operatoriaoperatoria
Donde está el sesgo de selección?
• Se identificaron, dentro de los segmentos de interés (Residenciales por region, Tarifa General
por región, Pequeñas Empresas, etc), cuales tenían un potencial sesgo mayor en funcion de:
• La tasa de inspección (TI)
• La tasa de hurto (TH)
• La relación entre ambas tasas (1-TI)/TH
• Segmentos más afectados: residenciales (menor tasa de inspección dado el costo que implicaría barrer una
población de más de 2MM de clientes)
• Se compararon estadísticas de variables representativas en las poblaciones Inspeccionadas
(IN) y No Inspeccionadas (NI).
• Se obtuvieron modelos para la población inspeccionada (probabilidad de Hurto P(H)), y
modelos para la probabilidad de ser inspeccionado P(IN). Dentro de las técnicas de
modelización analizadas, se priorizaron aquellas en las que el output tuvieran una traducción
directa a probabilidades (logit, probit), cuando no hubiera pérdida sustancial de poder
predictivo.
• Se aplicaron métodos de inferencia para la reconstrucción de las estadísticas poblacionales y
para validar que la selección de variables fuera robusta.
• Se estimó la tasa de detección a obtener con diferentes puntos de corte (para la estrategia de
uso del modelo), y esta fue validada durante los primeros meses de aplicación del modelo,
junto con otros testeos.
Resultados detección de hurto
• Proyecto pionero en la región
• La aplicación sistemática de los modelos para la priorización de
inspecciones muestra un incremento sustancial en la detección de
hurto:
Duplicación de la tasa de detección para importantes poblaciones, respecto del método previo,
con un volumen de inspecciones comparable a la etapa previa.
Se obtuvo un rápido retorno a la inversión gracias al sustancial incremento en la recuperación
A medida que se avanzó en el uso se logró un aprendizaje continuo, ajustando algunos
modelos.
Desarrollo de modelos
Evaluación del sesgo de las muestras (por segmento de población)
Aplicación de técnicas de Modelización por segmento
Estudio de inferencia de población no inspeccionada
Patrones de comportamiento son observados en muestras independientes en distintos puntos del tiempo.
Proceso mensual
Actualización mensual de la información que forma parte de los modelos
Puntajes e indicadores se calculan en forma mensual para la priorización de las inspecciones, y se ponen a disposición
de las áreas usuarias.
Monitoreo
Ajustes y seguimiento con las áreas usuarias
Discusión Final
• Hemos analizado situaciones en las que el sesgo no puede ser ignorado.
• El objetivo principal de hoy ha sido desarrollar una intuición práctica acerca
del tema.
• El caso de Scoring de originación de créditos (inferencia de rechazos) es
conocido y ha sido estudiado en profundidad. Sin embargo en muchos
casos sigue siendo ignorado.
• Hemos visto otro ejemplo, detección del hurto de electricidad, en que
surge la necesidad de estudiar y mitigar el sesgo muestral para obtener
modelos estables y estimaciones precisas (para diseñar estrategias).
• Creemos que en la medida en que más fuentes de datos e industrias se
“someten” a la explotación de sus datos, los efectos de sesgos en los
mismos continuarán apareciendo.
• Se puede adaptar un plan de proyecto que contemple la detección,
evaluación y eventual corrección del sesgo.
• Se recomienda adaptar procesos para que incorporen estrategias
“Champion Challenger” (grupos de testeo/control)
GRACIAS
fcastelpoggi@besmart.com.ar
www.besmart.com.ar
Método de Parceling
• Evalúo tasa de Rechazos
• Comparo distribuciones:
Backups
Backups