Documento CRISP DM.2385037
Documento CRISP DM.2385037
Documento CRISP DM.2385037
Desarrollo de
Proyectos en
Minería de Datos
CRISP-DM
EPB 603 Sistemas del Conocimiento
Basado en la Tesis: “Metodología para la Definición de Requisitos en Proyectos de Data Mining
(ER-DM)” de José Alberto Gallardo Arancibia.
2
Son diversos los modelos de proceso que han sido propuestos para el desarrollo de proyectos de
Data Mining tales como SEMMA (Sample, Explore, Modify, Model, Assess) [SAS, 2003],
DMAMC (Definir, Medir, Analizar, Mejorar, Controlar) [Isixsigma, 2005], o CRISP-DM
(Cross Industry Standard Process for Data Mining) [CRISP-DM, 2000], sin embargo uno de los
modelos principalmente utilizados en los ambientes académico e industrial es el modelo CRISP-
DM.
Los orígenes de CRISP-DM, se remontan hacia el año 1999 cuando un importante consorcio de
empresas europeas tales como NCR (Dinamarca), AG(Alemania), SPSS (Inglaterra), OHRA
(Holanda), Teradata, SPSS, y Daimer-Chrysler, proponen a partir de diferentes versiones de
KDD (Knowledge Discovery in Databases) [Reinartz, 1995], [Adraans, 1996], [Brachman,
1996], [Fayyad, 1996], el desarrollo de una guía de referencia de libre distribución denominada
CRISP-DM (Cross Industry Standard Process for Data Mining).
Determinar los objetivos del negocio. Esta es la primera tarea a desarrollar y tiene como metas,
determinar cuál es el problema que se desea resolver, por qué la necesidad de utilizar Data
Mining y definir los criterios de éxito. Los problemas pueden ser diversos como por ejemplo,
detectar fraude en el uso de tarjetas de crédito, detección de intentos de ingreso indebido a un
sistema, asegurar el éxito de una determinada campaña publicitaria, etc. En cuanto a los criterios
de éxito, estos pueden ser de tipo cualitativo, en cuyo caso un experto en el área de dominio,
5
califica el resultado del proceso de DM, o de tipo cuantitativo, por ejemplo, el número de
detecciones de fraude o la respuesta de clientes ante una campaña publicitaria.
Determinación de los objetivos de DM. Esta tarea tiene como objetivo representar los objetivos
del negocio en términos de las metas del proyecto de DM, como por ejemplo, si el objetivo del
negocio es el desarrollo de una campaña publicitaria para incrementar la asignación de créditos
hipotecarios, la meta de DM será por ejemplo, determinar el perfil de los clientes respecto de su
capacidad de endeudamiento. Producción de un plan del proyecto. Finalmente esta última tarea
de la primera fase de CRISP-DM, tiene como meta desarrollar un plan para el proyecto, que
describa los pasos a seguir y las técnicas a emplear en cada paso.
La segunda fase (figura 2.7), fase de comprensión de los datos, comprende la recolección inicial
de datos, con el objetivo de establecer un primer contacto con el problema, familiarizándose con
ellos, identificar su calidad y establecer las relaciones más evidentes que permitan definir las
6
primeras hipótesis. Esta fase junto a las próximas dos fases, son las que demandan el mayor
esfuerzo y tiempo en un proyecto de DM. Por lo general si la organización cuenta con una base
de datos corporativa, es deseable crear una nueva base de datos ad-hoc al proyecto de DM, pues
durante el desarrollo del proyecto, es posible que se generen frecuentes y abundantes accesos a la
base de datos a objeto de realizar consultas y probablemente modificaciones, lo cual podría
generar muchos problemas.
Recolección de datos iniciales. La primera tarea en esta segunda fase del proceso de CRISP-DM,
es la recolección de los datos iniciales y su adecuación para el futuro procesamiento. Esta tarea
tiene como objetivo, elaborar informes con una lista de los datos adquiridos, su localización, las
técnicas utilizadas en su recolección y los problemas y soluciones inherentes a este proceso.
Descripción de los datos. Después de adquiridos los datos iniciales, estos deben ser descritos.
Este proceso involucra establecer volúmenes de datos (número de registros y campos por
registro), su identificación, el significado de cada campo y la descripción del formato inicial.
Verificación de la calidad de los datos. En esta tarea, se efectúan verificaciones sobre los datos,
para determinar la consistencia de los valores individuales de los campos, la cantidad y
distribución de los valores nulos, y para encontrar valores fuera de rango, los cuales pueden
constituirse en ruido para el proceso. La idea en este punto, es asegurar la completitud y
corrección de los datos.
En esta fase y una vez efectuada la recolección inicial de datos, se procede a su preparación para
adaptarlos a las técnicas de Data Mining que se utilicen posteriormente, tales como técnicas de
visualización de datos, de búsqueda de relaciones entre variables u otras medidas para
exploración de los datos. La preparación de datos incluye las tareas generales de selección de
datos a los que se va a aplicar una determinada técnica de modelado, limpieza de datos,
generación de variables adicionales, integración de diferentes orígenes de datos y cambios de
formato.
Esta fase se encuentra relacionada con la fase de modelado, puesto que en función de la técnica
de modelado elegida, los datos requieren ser procesados de diferentes formas. Es así que las
fases de preparación y modelado interactúan de forma permanente. La figura 2.8, ilustra las áreas
de que se compone ésta, e identifica sus salidas. Una descripción de las tareas involucradas en
esta fase es la siguiente: Selección de datos. En esta etapa, se selecciona un subconjunto de los
datos adquiridos en la fase anterior, apoyándose en criterios previamente establecidos en las
fases anteriores: calidad de los datos en cuanto a completitud y corrección de los datos y
limitaciones en el volumen o en los tipos de datos que están relacionadas con las técnicas de DM
seleccionadas. Limpieza de los datos. Esta tarea complementa a la anterior, y es una de las que
más tiempo y esfuerzo consume, debido a la diversidad de técnicas que pueden aplicarse para
optimizar la calidad de los datos a objeto de prepararlos para la fase de modelación. Algunas de
las técnicas a utilizar para este propósito son: normalización de los datos, discretización de
campos numéricos, tratamiento de valores ausentes, reducción del volumen de datos, etc.
Estructuración de los datos. Esta tarea incluye las operaciones de preparación de los datos tales
como la generación de nuevos atributos a partir de atributos ya existentes, integración de nuevos
registros o transformación de valores para atributos existentes.
8
Integración de los datos. La integración de los datos, involucra la creación de nuevas estructuras,
a partir de los datos seleccionados, por ejemplo, generación de nuevos campos a partir de otros
existentes, creación de nuevos registros, fusión de tablas campos o nuevas tablas donde se
resumen características de múltiples registros o de otros campos en nuevas tablas de resumen.
4. Fase de modelado
En esta fase de CRISP-DM, se seleccionan las técnicas de modelado más apropiadas para el
proyecto de Data Mining específico. Las técnicas a utilizar en esta fase se eligen en función de
los siguientes criterios:
Generación del plan de prueba. Una vez construido un modelo, se debe generar un
procedimiento destinado a probar la calidad y validez del mismo. Por ejemplo, en una tarea
supervisada de DM como la clasificación, es común usar la razón de error como medida de la
calidad. Entonces, típicamente se separan los datos en dos conjuntos, uno de entrenamiento y
otro de prueba, para luego construir el modelo basado en el conjunto de entrenamiento y medir la
calidad del modelo generado con el conjunto de prueba.
Construcción del Modelo. Después de seleccionada la técnica, se ejecuta sobre los datos
previamente preparados para generar uno o más modelos. Todas las técnicas de modelado tienen
un conjunto de parámetros que determinan las características del modelo a generar. La selección
de los mejores parámetros es un proceso iterativo y se basa exclusivamente en los resultados
generados. Estos deben ser interpretados y su rendimiento justificado.
Evaluación del modelo. En esta tarea, los ingenieros de DM interpretan los modelos de acuerdo
al conocimiento preexistente del dominio y los criterios de éxito preestablecidos. Expertos en el
dominio del problema juzgan los modelos dentro del contexto del dominio y expertos en Data
Mining aplican sus propios criterios (seguridad del conjunto de prueba, perdida o ganancia de
tablas, etc...).
5. Fase de evaluación
En esta fase se evalúa el modelo, teniendo en cuenta el cumplimiento de los criterios de éxito del
problema. Debe considerarse además, que la fiabilidad calculada para el modelo se aplica
solamente para los datos sobre los que se realizó el análisis. Es preciso revisar el proceso,
teniendo en cuenta los resultados obtenidos, para poder repetir algún paso anterior, en el que se
haya posiblemente cometido algún error. Considerar que se pueden emplear múltiples
herramientas para la interpretación de los resultados. Las matrices de confusión Edelstein,
1999 son muy empleadas en problemas de clasificación y consisten en una tabla que indica
cuantas clasificaciones se han hecho para cada tipo, la diagonal de la tabla representa las
clasificaciones correctas. Si el modelo generado es válido en función de los criterios de éxito
establecidos en la fase anterior, se procede a la explotación del modelo. La figura 2.10 detalla las
tareas que componen esta fase y los resultados que se deben obtener. Las tareas involucradas en
esta fase del proceso son las siguientes:
Evaluación de los resultados. En los pasos de evaluación anteriores, se trataron factores tales
como la exactitud y generalidad del modelo generado. Esta tarea involucra la evaluación del
modelo en relación a los objetivos del negocio y busca determinar si hay alguna razón de
negocio para la cual, el modelo sea deficiente, o si es aconsejable probar el modelo, en un
problema real si el tiempo y restricciones lo permiten. Además de los resultados directamente
relacionados con el objetivo del proyecto, ¿es aconsejable evaluar el modelo en relación a otros
objetivos distintos a los originales?, esto podría revelar información adicional.
11
Determinación de futuras fases. Si se ha determinado que las fases hasta este momento han
generado resultados satisfactorios, podría pasarse a la fase siguiente, en caso contrario podría
decidirse por otra iteración desde la fase de preparación de datos o de modelación con otros
parámetros. Podría ser incluso que en esta fase se decida partir desde cero con un nuevo proyecto
de DM.
6. Fase de implementación
En esta fase (figura 2.11), y una vez que el modelo ha sido construido y validado, se transforma
el conocimiento obtenido en acciones dentro del proceso de negocio, ya sea que el analista
recomiende acciones basadas en la observación del modelo y sus resultados, ya sea aplicando el
modelo a diferentes conjuntos de datos o como parte del proceso, como por ejemplo, en análisis
de riesgo crediticio, detección de fraudes, etc. Generalmente un proyecto de Data Mining no
concluye en la implantación del modelo, pues se deben documentar y presentar los resultados de
manera comprensible para el usuario, con el objetivo de lograr un incremento del conocimiento.
Por otra parte, en la fase de explotación se debe asegurar el mantenimiento de la aplicación y la
posible difusión de los resultados. Las tareas que se ejecutan en esta fase son las siguientes: