Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Parx

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 105

Página 1

Página 2

Técnicas de minería de datos
Tercera edicion
Página 3

Técnicas de minería de datos
Para marketing, ventas y clientes
Gestión de relaciones
Tercera edicion

Gordon S. Linoff
Michael JA Berry
Página 4
Técnicas de minería de datos: para marketing, ventas y gestión de relaciones con clientes
Publicado por
Wiley Publishing, Inc.
10475 Crosspoint Boulevard
Indianápolis, IN 46256
www.wiley.com
Copyright © 2011 por Wiley Publishing, Inc., Indianápolis, Indiana
Publicado simultáneamente en Canadá
ISBN: 978­0­470­65093­6
ISBN: 978­1­118­08745­9 (ebk)
ISBN: 978­1­118­08747­3 (ebk)
ISBN: 978­1­118­08750­3 (ebk)
Fabricado en los Estados Unidos de América.
10 9 8 7 6 5 4 3 2 1
Ninguna parte de esta publicación puede reproducirse, almacenarse en un sistema de recuperación o transmitirse de ninguna forma o por ningún medio,
electrónica, mecánica, fotocopias, grabación, escaneo u otros, excepto según lo permitido en las Secciones 107 o
108 de la Ley de Derechos de Autor de los Estados Unidos de 1976, sin el permiso previo por escrito del Editor, o autor
a través del pago de la tarifa correspondiente por copia al Centro de autorización de derechos de autor, 222 Rosewood Drive,
Danvers, MA 01923, (978) 750­8400, fax (978) 646­8600. Las solicitudes de permiso al editor deben ser atendidas
al Departamento de Permisos, John Wiley & Sons, Inc., 111 River Street, Hoboken, NJ 07030, (201) 748­6011, fax (201)
748­6008, o en línea en http://www.wiley.com/go/permissions.
Límite de responsabilidad / Descargo de responsabilidad de la garantía: El editor y el autor no hacen declaraciones ni garantías con
Respeto a la exactitud o integridad de los contenidos de este trabajo y específicamente renuncia a todas las garantías, incluyendo
sin limitación, garantías de aptitud para un propósito particular. Ninguna garantía puede ser creada o extendida por ventas o
materiales promocionales. Los consejos y estrategias que figuran en este documento pueden no ser adecuados para cada situación. Este trabajo
se vende con el entendimiento de que el editor no se dedica a prestar servicios legales, contables u otros profesionales
servicios. Si se requiere asistencia profesional, se deben buscar los servicios de una persona profesional competente.
Ni el editor ni el autor serán responsables por los daños que surjan de este. El hecho de que una organización o
El sitio web se menciona en este trabajo como una cita y / o una fuente potencial de información adicional no significa que
el autor o el editor respaldan la información que la organización o el sitio web pueden proporcionar o recomendaciones
puede hacer. Además, los lectores deben saber que los sitios web de Internet que figuran en este trabajo pueden haber cambiado o no
se asomó entre cuándo se escribió este trabajo y cuándo se leyó.
Para obtener información general sobre nuestros otros productos y servicios, comuníquese con nuestro Departamento de Atención al Cliente dentro del
Estados Unidos al (877) 762­2974, fuera de los Estados Unidos al (317) 572­3993 o fax (317) 572­4002.
Wiley también publica sus libros en una variedad de formatos electrónicos. Es posible que parte del contenido que aparece impreso no esté disponible
capaz en libros electrónicos.
Número de control de la Biblioteca del Congreso: 2011921769
Marcas comerciales: Wiley y el logotipo de Wiley son marcas comerciales o marcas comerciales registradas de John Wiley & Sons, Inc. y / o
sus afiliados, en los Estados Unidos y otros países, y no se pueden usar sin un permiso por escrito. Todos los demás
Las Marcas registradas son propiedad de sus respectivos dueños. Wiley Publishing, Inc. no está asociado con ningún producto
o proveedor mencionado en este libro.

Página 5
A Stephanie, Sasha y Nathaniel. Sin tu paciencia y
entendiendo, este libro no hubiera sido posible.
­ Miguel
A Puccio
Grazie per essere paziente conmigo.
Te amo.
­ Gordon

Página 6
vii

Sobre los autores
Gordon S. Linoff y Michael JA Berry son bien conocidos en el campo de la minería de datos.
Son los fundadores de Data Miners, Inc., una consultora boutique de minería de datos,
y han escrito conjuntamente varios libros influyentes y ampliamente leídos en el
campo. El primero de sus libros de autoría conjunta fue la primera edición de Data Mining
Técnicas , que aparecieron en 1997. Desde entonces, han sido activamente
ing datos en una amplia variedad de industrias. Su continua práctica analítica
el trabajo permite a los autores mantenerse al tanto de los desarrollos en la rápida evolución
campos de minería de datos, pronósticos y análisis predictivo. Gordon y Michael
son escrupulosamente independientes del vendedor. A través de su trabajo de consultoría, los autores
han estado expuestos al software de análisis de datos de todos los principales software
vendedores (y bastantes menores también). Están convencidos de que bueno
los resultados no están determinados por si el software empleado es propietario o
código abierto, línea de comando o apuntar y hacer clic; buenos resultados provienen de creativos
pensamiento y metodología de sonido.
Gordon y Michael se especializan en aplicaciones de minería de datos en marketing
y gestión de la relación con el cliente: aplicaciones como mejorar la recuperación
recomendaciones para venta cruzada y venta ascendente, pronosticando futuros niveles de suscriptores,
modelando el valor del cliente de por vida, segmentando a los clientes de acuerdo con sus
comportamiento, elegir páginas de destino óptimas para los clientes que llegan a un sitio web,
identificar buenos candidatos para su inclusión en campañas de marketing y predecir
qué clientes corren el riesgo de suspender el uso de un paquete de software, servicio,
o régimen de drogas. Gordon y Michael se dedican a compartir sus conocimientos,
habilidades y entusiasmo por el tema. Cuando no están extrayendo datos ellos mismos, ellos
disfruta enseñando a otros a través de cursos, conferencias, artículos, clases en el sitio y de
Por supuesto, el libro que estás a punto de leer. Con frecuencia se les puede encontrar hablando
en conferencias y clases de enseñanza. Los autores también mantienen una minería de datos.
blog en blog.data­miners.com .

Página 7
Gordon vive en Manhattan. Su libro más reciente antes de este es Data
Análisis usando SQL y Excel , que fue publicado por Wiley en 2008.
Michael vive en Cambridge, Massachusetts. Además de su consultoría
trabaja con Data Miners, enseña Marketing Analytics en la Escuela Carroll
de Gestión en Boston College.
viii Sobre los autores

Página 11
xiii
Introducción
xxxvii
Capítulo 1 ¿Qué es la minería de datos y por qué hacerlo?
1
Capítulo 2 Aplicaciones de minería de datos en marketing y clientes
Gestión de relaciones
27
Capítulo 3 El proceso de minería de datos
67
Capítulo 4 Estadísticas 101: Lo que debe saber sobre los datos
101
Capítulo 5 Descripciones y predicciones: perfiles y
Modelado predictivo
151
Capítulo 6 Minería de datos utilizando técnicas estadísticas clásicas
195
Capítulo 7 Árboles de decisión
237
Capítulo 8 Redes neuronales artificiales
281
Capítulo 9 Enfoques de vecinos más cercanos: basados en la memoria
Razonamiento y filtrado colaborativo
321
Capítulo 10 Saber cuándo preocuparse: uso del análisis de supervivencia para
Comprender a los clientes
357
Capítulo 11 Algoritmos genéticos e inteligencia de enjambre
397
Capítulo 12 Dime algo nuevo: descubrimiento de patrones y
Minería de datos
429
Capítulo 13 Encontrar islas de similitud: detección automática de clústeres 459
Capítulo 14 Enfoques alternativos para la detección de conglomerados
499
Capítulo 15 Análisis de la cesta de la compra y reglas de asociación
535

Contenido de un vistazo
Pagina 12
xiv Contenidos de un vistazo
Capítulo 16 Análisis de enlaces
581
Capítulo 17 Almacenamiento de datos, OLAP, Sandboxes analíticos,
y minería de datos
613
Capítulo 18 Creación de firmas de clientes
655
Capítulo 19 Variables derivadas: hacer que los datos signifiquen más
693
Capítulo 20 ¿Demasiado de algo bueno? Técnicas para
Reduciendo el número de variables
735
Capítulo 21 Escuche con atención lo que dicen sus clientes: Text Mining 775
Índice
821

Página 13
xv
Introducción
xxxvii
Capítulo 1 ¿Qué es la minería de datos y por qué hacerlo?
1
¿Qué es la minería de datos?
2
La minería de datos es un proceso empresarial
2
Grandes cantidades de datos
3
Patrones y reglas significativos
3
Minería de datos y gestión de la relación con el cliente
4 4
¿Porqué ahora?
6 6
Se están produciendo datos
6 6
Los datos se almacenan
6 6
El poder de cómputo es asequible
7 7
El interés en la gestión de la relación con el cliente es fuerte
7 7
Toda empresa es una empresa de servicios
7 7
La información es un producto
7 7
Productos de software de minería de datos comerciales
Han estado disponibles
8
Habilidades para el minero de datos
9 9
El ciclo virtuoso de la minería de datos
9 9
Un estudio de caso en minería de datos empresariales
11
Identificando el desafío comercial de BofA
12
Aplicación de minería de datos
12
Actuando sobre los resultados
13
Medición de los efectos de la minería de datos
14
Pasos del ciclo virtuoso
15
Identificar oportunidades de negocios
dieciséis
Transformar datos en información
17
Ley de información
19
Medir los resultados
20

Contenido
Página 14
xvi Contenido
Minería de datos en el contexto del ciclo virtuoso
23
Lecciones aprendidas
26
Capítulo 3 El proceso de minería de datos
67
¿Qué puede ir mal?
68
Aprender cosas que no son ciertas
68
Los patrones pueden no representar ninguna regla subyacente
69
El conjunto de modelos puede no reflejar la población relevante
70
Los datos pueden estar en el nivel de detalle incorrecto
71
Aprender cosas que son verdaderas, pero no útiles
73
Aprender cosas que ya se conocen
(o debe ser conocido)
73
Aprendiendo cosas que no se pueden usar
74
Estilos de minería de datos
74
Prueba de hipótesis
75
Generando Hipótesis
75
Prueba de hipótesis utilizando datos existentes
76
Prueba de hipótesis y experimentación
77
Estudio de caso en pruebas de hipótesis: medición
lo incorrecto
79
Minería de datos dirigida
81
Minería de datos no dirigida
81
Objetivos, tareas y técnicas
82
Objetivos comerciales de minería de datos
82
Tareas de minería de datos
83
Preparación de datos para minería
83
Análisis exploratorio de datos
84
Modelado de respuesta binaria (clasificación binaria)
85
Clasificación
85
Estimacion
86
Encontrar clústeres, asociaciones y grupos de afinidad
86
Aplicar un modelo a nuevos datos
87
Técnicas de minería de datos
88
Formulación de problemas de minería de datos:
De los objetivos a las tareas a las técnicas
88
Elegir los mejores lugares para anunciar
89
Determinar el mejor producto para ofrecer a un cliente
89
Encontrar las mejores ubicaciones para sucursales o tiendas
90

Página 16
xviii Contenido
Segmentación de clientes en rentabilidad futura
91 91
Exposición decreciente al riesgo de incumplimiento
92
Mejorando la retención de clientes
93
Detección de reclamos fraudulentos
93
¿Qué técnicas para qué tareas?
95
¿Hay un objetivo o objetivos?
96
¿Cómo son los datos de destino?
96
¿Cómo son los datos de entrada?
96
¿Qué tan importante es la facilidad de uso?
97
¿Qué tan importante es la explicabilidad del modelo?
97
Lecciones aprendidas
98

Capítulo 7 Árboles de decisión
237
¿Qué es un árbol de decisión y cómo se usa?
238
Un árbol de decisión típico
238
Usando el árbol para aprender sobre la rotación
240
Usando el árbol para aprender sobre datos y seleccionar variables
241
Usando el árbol para producir clasificaciones
243
Usando el árbol para estimar las probabilidades de clase
243

Página 20
xxii Contenido
Usando el árbol para clasificar registros
244
Usando el árbol para estimar valores numéricos
244
Los árboles de decisión son modelos locales
245
Árboles de decisión en crecimiento
247
Encontrar la división inicial
248
División en una variable de entrada numérica
249
División en una variable de entrada categórica
249
División en presencia de valores perdidos
250
Cultivando el árbol completo
251
Encontrar la mejor división
252
Gini (diversidad de la población) como criterio de división
253
Reducción de entropía o ganancia de información
como criterio de división
254
Proporción de ganancia de información
256
Prueba de Chi­cuadrado como criterio de división
256
Respuesta incremental como criterio de división
258
Reducción de la varianza como criterio de división
para objetivos numéricos
259
Prueba F
262
Poda
262
El algoritmo de poda CART
263
Crear subárboles candidatos
263
Elegir el mejor subárbol
266
Poda pesimista: el C5.0
Algoritmo de poda
267
Poda basada en estabilidad
268
Extraer reglas de los árboles
269
Variaciones del árbol de decisiones
270
Divisiones múltiples
270
División en más de un campo a la vez
271
Crear cajas no rectangulares
271
Evaluar la calidad de un árbol de decisión
275
¿Cuándo son apropiados los árboles de decisión?
276
Estudio de caso: Control de procesos en un
Planta de tostado de café
277
Metas para el simulador
277
Construyendo una simulación de tostador
278
Evaluación de la simulación de tostador
278
Lecciones aprendidas
279
CAPÍTULO

1
¿Qué es una minería?
y por qué hacerlo
En la primera edición de este libro, comenzó la primera oración del primer capítulo
con las palabras: "Somerville, Massachusetts, hogar de uno de los autores de este
libro ... "y pasó a contar dos pequeñas empresas en esa ciudad y cómo
había formado relaciones de aprendizaje con sus clientes. Uno de esos negocios,
una trenza de cabello, ya no trenza el cabello de la niña. En los años transcurridos desde el
primera edición, la niña creció y se alejó, y ya no la usa
cabello en trenzas. Su padre, uno de los autores, se mudó a la cercana Cambridge.
Pero una cosa no ha cambiado. El autor sigue siendo un cliente fiel del vino.
Cask, donde algunas de las mismas personas que lo presentaron por primera vez al argelino barato
rojos en 1978 y más tarde a las regiones vitivinícolas de Francia ahora están ayudando
él para explorar los vinos de Italia y Alemania.
Décadas más tarde, el Wine Cask todavía tiene un cliente fiel. Esa lealtad no es
accidente. El personal aprende los gustos de sus clientes y sus rangos de precios.
Cuando se le pide consejo, la respuesta se basa en el conocimiento acumulado de
los gustos y presupuestos de ese cliente, así como su conocimiento de sus existencias.
La gente de Wine Cask sabe mucho sobre vino. Aunque ese conocimiento
Edge es una de las razones para comprar allí en lugar de en una gran licorería de descuento, su
El conocimiento íntimo de cada cliente es lo que hace que los clientes vuelvan.
Otra tienda de vinos podría abrir al otro lado de la calle y contratar a un personal de expertos expertos.
philes, pero lograr el mismo nivel de conocimiento íntimo del cliente
Tómelos meses o años.

Page 40
2
Capítulo 1 ■ ¿Qué es la minería de datos y por qué hacerlo?
Las pequeñas empresas bien administradas forman naturalmente relaciones de aprendizaje con sus
clientes. Con el tiempo, aprenden más y más sobre sus clientes, y ellos
usa ese conocimiento para servirles mejor. El resultado es clientes felices y leales.
y negocios rentables.
Las empresas más grandes, con cientos de miles o millones de clientes, lo hacen
No disfrutar del lujo de las relaciones personales reales con cada uno. Empresas más grandes
deben confiar en otros medios para formar relaciones de aprendizaje con sus clientes.
En particular, deben aprender a aprovechar al máximo algo que tienen
en abundancia: los datos producidos por casi todas las interacciones con los clientes. Esta
El libro trata sobre técnicas analíticas que pueden utilizarse para convertir los datos del cliente en
conocimiento del cliente

¿Qué es la minería de datos?
Aunque algunas técnicas de minería de datos son bastante nuevas, la minería de datos en sí es
no es una nueva tecnología, en el sentido de que la gente ha estado analizando datos sobre
computadoras desde que se inventaron las primeras computadoras, y sin computadoras
durante siglos antes de eso. A lo largo de los años, la minería de datos ha sufrido muchas diferencias.
nombres diferentes, como descubrimiento de conocimiento, inteligencia empresarial, predictivo
modelado, análisis predictivo, etc. La definición de minería de datos como
utilizado por los autores es:
La minería de datos es un proceso comercial para explorar grandes cantidades de datos para descubrir
patrones y reglas significativas.
Esta definición tiene varias partes, todas las cuales son importantes.
La minería de datos es un proceso empresarial
La minería de datos es un proceso comercial que interactúa con otros procesos comerciales.
En particular, un proceso no tiene un principio y un final: está en curso.
La minería de datos comienza con datos, luego a través del análisis informa o inspira acciones,
que, a su vez, crea datos que engendran más minería de datos.
La consecuencia práctica es que las organizaciones que desean sobresalir en el uso
sus datos para mejorar su negocio no ven la minería de datos como un espectáculo secundario.
En cambio, su estrategia comercial debe incluir la recopilación de datos, el análisis de datos para
beneficio a largo plazo, y actuando sobre los resultados.
Al mismo tiempo, la minería de datos encaja fácilmente con otras estrategias para
mercados permanentes y clientes. Estudios de mercado, paneles de clientes y otros.
Las técnicas son compatibles con la minería de datos y el análisis de datos más intensivo.
La clave es reconocer el enfoque en los clientes y la comunidad de datos.
en toda la empresa.

Page 41
Capítulo 1 ■ ¿Qué es la minería de datos y por qué hacerlo?
3
Grandes cantidades de datos
Uno de los autores pregunta regularmente a su público: "¿Cuántos datos hay?"
cuando habla Los estudiantes dan respuestas como "todas las transacciones por 10 millones
clientes "o" terabytes de datos ". Su respuesta más modesta," 65,356 filas ", todavía
obtiene suspiros de comprensión a pesar de que Microsoft ha permitido más de uno
millones de filas en hojas de cálculo Excel desde 2007.
Una herramienta como Excel es increíblemente versátil para trabajar con archivos relativamente pequeños.
cantidades de datos Permite una amplia variedad de cálculos sobre los valores en cada
fila o columna; Las tablas dinámicas son increíblemente prácticas para comprender los datos.
y tendencias; y los gráficos ofrecen un mecanismo poderoso para la visualización de datos.
En los primeros días de la minería de datos (1960 y 1970), los datos eran escasos. Algunos de
Las técnicas descritas en este libro se desarrollaron en conjuntos de datos que contienen
Unos cientos de registros. En aquel entonces, un conjunto de datos típico podría haber tenido algunos 
atributos
sobre hongos, y si son venenosos o comestibles. Otro poder
han tenido atributos de automóviles, con el objetivo de estimar el consumo de combustible. Cualquiera que 
sea el
conjunto de datos particular, es un testimonio de la fuerza de las técnicas desarrolladas
en esos días que todavía trabajan en datos que ya no caben en una hoja de cálculo.
Debido a que la potencia informática está fácilmente disponible, no se necesita una gran cantidad de datos
una desventaja Es una ventaja. Muchas de las técnicas en este libro funcionan mejor
en grandes cantidades de datos que en pequeñas cantidades: puede sustituir los datos por
astucia. En otras palabras, la minería de datos permite a las computadoras hacer lo que hacen las 
computadoras
mejor: busque entre montones y montones de datos. Esto, a su vez, permite a las personas hacer lo que la 
gente
hacerlo mejor, que es configurar el problema y comprender los resultados.
Dicho esto, algunos estudios de caso en este libro todavía usan tamaños de datos relativamente pequeños.
Quizás el más pequeño es un estudio de caso de agrupación en el Capítulo 13. Este estudio de caso
encuentra ciudades demográficamente similares, entre unos pocos cientos de ciudades en Nueva
Inglaterra. Tan poderoso como es Excel, no tiene una función integrada que diga
"Agrupe estas ciudades por similitud".
Ahí es donde entra la minería de datos. Si el objetivo es encontrar grupos similares
de las ciudades de Nueva Inglaterra, o para determinar las causas de la deserción del cliente, o cualquier
de una miríada de otros objetivos esparcidos a lo largo de los capítulos, la tecnología de minería de datos
Las niques pueden aprovechar los datos donde las herramientas de escritorio más simples ya no funcionan tan
bien.
Patrones y reglas significativos
Quizás la parte más importante de la definición de minería de datos es la parte
sobre patrones significativos. Aunque la minería de datos ciertamente puede ser divertida, ayudar
El negocio es más importante que divertir al minero.
En muchos sentidos, encontrar patrones en los datos no es tremendamente difícil. los
El lado operativo del negocio genera los datos, generando necesariamente patrones
golondrinas de mar al mismo tiempo. Sin embargo, el objetivo de la minería de datos, al menos como los 
autores

Page 42
4 4
Capítulo 1 ■ ¿Qué es la minería de datos y por qué hacerlo?
use el término ­ no es para encontrar cualquier patrón en los datos, sino para encontrar patrones que
Son útiles para el negocio.
Esto puede significar encontrar patrones para ayudar a las operaciones comerciales de rutina. Considerar
una aplicación de centro de llamadas que asigna un color a los clientes. "Verde" significa ser
muy agradable, porque la persona que llama es un cliente valioso, vale la pena el gasto de
mantenerse feliz "Amarillo" significa tener precaución porque el cliente puede
ser valioso pero también tiene signos de cierto riesgo; y "rojo" significa no dar el
cliente cualquier tratamiento especial porque el cliente es altamente riesgoso. Hallazgo
los patrones también pueden significar dirigir campañas de retención a clientes que están
más probable que se vaya. Puede significar optimizar la adquisición de clientes tanto para
ganancias a corto plazo en número de clientes y a mediano y largo plazo
beneficio en valor para el cliente.
Cada vez más, las empresas están desarrollando modelos de negocio centrados en
minería de datos, aunque no pueden usar ese término. Una empresa que el
los autores han trabajado con ayuda a los minoristas a hacer recomendaciones en la web;
A esta empresa solo se le paga cuando los compradores web hacen clic en su recomendación
iones Ese es solo un ejemplo. Algunas compañías agregan datos de diferentes
fuentes, reuniendo los datos para obtener una imagen más completa del cliente.
Algunas empresas, como LinkedIn, utilizan la información proporcionada por algunas personas.
para proporcionar servicios premium a otros, y todos se benefician cuando los reclutadores
puede encontrar los candidatos adecuados para puestos vacantes. En todos estos casos, el objetivo es
para dirigir productos y servicios a las personas que tienen más probabilidades de necesitarlos,
haciendo que el proceso de compra y venta sea más eficiente para todos los involucrados.
Minería de datos y gestión de la relación con el cliente
Este libro no trata sobre la minería de datos en general, sino específicamente sobre la minería de datos
para la gestión de la relación con el cliente. Las empresas de todos los tamaños necesitan aprender a emu
tarde lo que las pequeñas empresas orientadas al servicio siempre han hecho bien: crear
relaciones uno a uno con sus clientes. Gestión de relaciones con clientes
El tema es un tema amplio que es el tema de muchos artículos, libros y conferencias.
Todo, desde software de seguimiento de clientes potenciales hasta software de gestión de campañas.
para llamar al software del centro se etiqueta como una gestión de relaciones con el cliente
herramienta. El enfoque de este libro es más estrecho: el papel que puede desempeñar la minería de datos
en mejorar la gestión de la relación con el cliente mejorando la empresa
capacidad de formar relaciones de aprendizaje con sus clientes.
En cada industria, las compañías con visión de futuro se están moviendo hacia la meta
de entender a cada cliente individualmente y usar ese entendimiento para
hacer más fácil (y más rentable) que el cliente haga negocios con ellos
en lugar de con los competidores. Estas mismas empresas están aprendiendo a mirar el valor
de cada cliente para que sepan cuáles valen la pena invertir dinero y
esfuerzo por aferrarse y cuáles deberían permitirse partir. Este cambio en
El enfoque desde amplios segmentos de mercado hasta clientes individuales requiere cambios

Page 43
Capítulo 1 ■ ¿Qué es la minería de datos y por qué hacerlo?
5 5
en toda la empresa, y en ninguna otra parte más que en marketing, ventas y
Atención al cliente.
Construir un negocio alrededor de la relación con el cliente es revolucionario
cambio para la mayoría de las empresas. Los bancos se han centrado tradicionalmente en mantener
la diferencia entre la tasa que pagan para ingresar dinero y la tasa que cobran
prestar dinero. Las compañías telefónicas se han concentrado en conectarse
llamadas a través de la red. Las compañías de seguros se han centrado en el procesamiento.
reclamaciones, gestionando inversiones y manteniendo su índice de siniestralidad. Girando un
La organización centrada en el producto en una centrada en el cliente requiere más de
minería de datos. Un resultado de minería de datos que sugiere ofrecer a un cliente en particular
un widget en lugar de un artilugio se ignorará si la bonificación del administrador depende
en la cantidad de artilugios vendidos este trimestre y no en la cantidad de widgets
(incluso si estos últimos son más rentables o inducen a los clientes a ser más rentables
a largo plazo).
En un sentido estricto, la minería de datos es una colección de herramientas y técnicas. Es
Una de varias tecnologías necesarias para soportar una empresa centrada en el cliente.
En un sentido más amplio, la minería de datos es una actitud que las acciones comerciales deben ser
basado en el aprendizaje, que las decisiones informadas son mejores que las decisiones no informadas
siones, y que medir resultados es beneficioso para el negocio. La minería de datos es
También un proceso y una metodología para aplicar herramientas y técnicas analíticas.
Para que la minería de datos sea efectiva, los otros requisitos para CRM analítico deben
También estar en su lugar. Para formar una relación de aprendizaje con sus clientes, una empresa
debe ser capaz de
■ Observe lo que están haciendo sus clientes.

■ Recuerde lo que ellos y sus clientes han hecho con el tiempo.

■ Aprenda de lo que ha recordado.

■ Actúe sobre lo que ha aprendido para hacer que los clientes sean más rentables.

Aunque el enfoque de este libro está en la tercera viñeta: aprender de qué
ha sucedido en el pasado: que el aprendizaje no puede tener lugar en el vacío. Ahí
deben ser sistemas de procesamiento de transacciones para capturar las interacciones con los clientes, los 
datos
almacenes para almacenar información histórica del comportamiento del cliente, minería de datos
traducir la historia en planes para acciones futuras y una relación con el cliente
estrategia para poner en práctica esos planes.
La minería de datos, para repetir la definición anterior, es un proceso comercial para la exploración
Ración y análisis de grandes cantidades de datos para descubrir datos significativos
patrones y reglas. Este libro asume que el objetivo de la minería de datos es permitir
una empresa para mejorar sus operaciones de marketing, ventas y atención al cliente
a través de una mejor comprensión de sus clientes. Tenga en cuenta, sin embargo, que
las técnicas y herramientas de minería de datos descritas en este libro son igualmente aplicables
cable en campos tan variados como la aplicación de la ley, la radioastronomía, la medicina y
control de procesos industriales.

Page 44
6 6
Capítulo 1 ■ ¿Qué es la minería de datos y por qué hacerlo?

¿Porqué ahora?
La mayoría de las técnicas de minería de datos han existido, al menos como algoritmos académicos, para
décadas (el análisis de supervivencia más antiguo, en realidad se remonta a siglos). Minería de datos
se ha popularizado en gran medida, aumentando dramáticamente desde la década de 1990. Esto es debido
a la convergencia de varios factores:
■ Se están produciendo datos.

■ Los datos se almacenan.

■ El poder de cómputo es asequible.

■ El interés en la gestión de la relación con el cliente es fuerte.

■ Los productos de software de minería de datos comerciales están fácilmente disponibles.

La combinación de estos factores significa que la minería de datos aparece cada vez más
como base de estrategias comerciales. Google no fue el primer motor de búsqueda, pero
Fue el primer motor de búsqueda en combinar algoritmos sofisticados para la búsqueda.
con un modelo de negocio basado en maximizar el valor de los ingresos por clic.
En casi todos los dominios comerciales, las empresas están descubriendo que tienen
información: información sobre suscriptores, visitantes de la web, cargadores,
y patrones de pago, patrones de llamadas, amigos y vecinos. Las empresas son
recurriendo cada vez más al análisis de datos para aprovechar su información.
Se están produciendo datos
La minería de datos tiene más sentido cuando hay grandes volúmenes de datos disponibles.
De hecho, la mayoría de los algoritmos de minería de datos requieren grandes cantidades de datos.
para construir y entrenar modelos.
Uno de los temas subyacentes de este libro es que los datos están en todas partes y
Disponible en grandes cantidades. Esto es especialmente cierto para las empresas que tienen
clientes, y eso incluye a casi todos ellos. Una sola persona ceja
Un sitio web puede generar decenas de kilobytes de datos en un día. Multiplica eso por
millones de clientes y prospectos y volúmenes de datos superan rápidamente el tamaño
de una sola hoja de cálculo.
La Web no es el único productor de datos voluminosos. Compañías telefónicas
y las compañías de tarjetas de crédito fueron las primeras en trabajar con bases de datos del tamaño de un 
terabyte, un
tamaño exóticamente grande para una base de datos tan reciente como a fines de la década de 1990. Ese 
tiempo ha pasado.
Los datos están disponibles y en grandes volúmenes, pero ¿cómo tiene sentido?
Los datos se almacenan
No solo se está produciendo una gran cantidad de datos, sino también, cada vez más
a menudo, se extrae de la facturación operativa, reservas, reclamos
procesamiento y sistemas de entrada de pedidos donde se genera y luego se alimenta a un
almacén de datos para formar parte de la memoria corporativa.

Página 45
Capítulo 1 ■ ¿Qué es la minería de datos y por qué hacerlo?
7 7
El almacenamiento de datos es una parte tan importante de la historia de minería de datos que el Capítulo
17 está dedicado a este tema. El almacenamiento de datos reúne datos de muchas
Fuentes diferentes en un formato común con definiciones consistentes para claves y campos.
Los sistemas operativos están diseñados para entregar resultados rápidamente al usuario final, quien
puede ser un cliente en un sitio web o un empleado que hace su trabajo. Estos sistemas son
diseñado para la tarea en cuestión, y no para la tarea de mantener limpio, consistente
Datos para el análisis. El almacén de datos, por otro lado, debe estar diseñado
exclusivamente para el soporte de decisiones, lo que puede simplificar el trabajo del minero de datos.
El poder de cómputo es asequible
Los algoritmos de minería de datos generalmente requieren pases múltiples en grandes cantidades
de datos. Muchos algoritmos también son computacionalmente intensivos. La continua
Drástica disminución de los precios del disco, la memoria, la potencia de procesamiento y la red.
el ancho de banda ha traído técnicas que alguna vez fueron costosas y que solo se usaron en unos pocos
laboratorios financiados por el gobierno al alcance de las empresas comunes.
El interés en la gestión de la relación con el cliente es fuerte
En un amplio espectro de industrias, las empresas se han dado cuenta de que
sus clientes son fundamentales para su negocio y esa información del cliente es
Uno de sus activos clave.
Toda empresa es una empresa de servicios
Para las empresas del sector de servicios, la información confiere una ventaja competitiva.
Es por eso que las cadenas hoteleras registran su preferencia por una habitación para no fumadores y un 
automóvil
Las compañías de alquiler registran su tipo preferido de automóvil. Además, las empresas que
tradicionalmente no se han considerado a sí mismos como proveedores de servicios están comenzando
pensar diferente ¿Un concesionario de automóviles vende automóviles o transporte? Si
esto último, tiene sentido que el concesionario le ofrezca un automóvil prestado siempre que
el suyo está en la tienda, como muchos ahora lo hacen.
Incluso los productos básicos se pueden mejorar con el servicio. Una calefacción
compañía petrolera que monitorea su uso y entrega petróleo cuando necesita más
vende un producto mejor que una compañía que espera que recuerde llamar a
organice una entrega antes de que su tanque se seque y las tuberías se congelen. Tarjeta de crédito
empresas, proveedores de larga distancia, aerolíneas y minoristas de todo tipo a menudo
competir tanto o más en servicio como en precio.
La información es un producto
Muchas compañías encuentran que la información que tienen sobre sus clientes
es valioso no solo para ellos, sino también para los demás. Un supermercado con
un programa de tarjeta de fidelidad tiene algo que el consumidor empaca bienes

Página 46
8
Capítulo 1 ■ ¿Qué es la minería de datos y por qué hacerlo?
a la industria le encantaría tener conocimiento sobre quién está comprando qué producto
ucts. Una compañía de tarjetas de crédito sabe algo que a las aerolíneas les encantaría
¿Quién está comprando muchos boletos de avión? Tanto el supermercado como el
Las compañías de tarjetas de crédito están en condiciones de ser corredores de conocimiento. El supermar­
ket puede cobrar más a las empresas de bienes de consumo por imprimir cupones
cuando los supermercados pueden prometer tasas de reembolso más altas imprimiendo el
cupones correctos para los compradores correctos. La compañía de tarjeta de crédito puede cargar el
aerolíneas para dirigir una promoción de viajero frecuente a personas que viajan mucho, pero vuelan
en otras aerolíneas.
Google sabe lo que la gente está buscando en la Web. Se aprovecha
de este conocimiento mediante la venta de enlaces patrocinados (entre otras cosas). Seguro
las compañías pagan para asegurarse de que alguien que busque "seguro de automóvil" sea
ofreció un enlace a su sitio. Los servicios financieros pagan para que aparezcan enlaces patrocinados
cuando alguien busca una frase como "refinanciamiento de hipotecas".
De hecho, cualquier empresa que recopile datos valiosos está en condiciones de convertirse en un
corredor de información. La Gaceta de Cedar Rapids se aprovecha de su dominante
posición en un área de 22 condados del este de Iowa para ofrecer servicios de marketing directo a
negocio local. El periódico utiliza sus propias páginas de obituarios y anuncios de bodas.
trata de mantener actualizada su base de datos de marketing.
Los productos de software de minería de datos comerciales tienen
Volverse disponible
Siempre hay un retraso entre el momento en que aparecen nuevos algoritmos por primera vez
revistas académicas y emocionante debate en conferencias y el momento en que comp
el software comercial que incorpora esos algoritmos está disponible. Ahi esta
otro retraso entre la disponibilidad inicial de los primeros productos y el tiempo
que logran una amplia aceptación. Para la minería de datos, el período de difusión
Disponibilidad y aceptación ha llegado.
Muchas de las técnicas discutidas en este libro comenzaron en los campos de
estadísticas, inteligencia artificial o aprendizaje automático. Después de unos años en uni
versities y laboratorios de gobierno, una nueva técnica comienza a ser utilizada por algunos
adoptadores tempranos en el sector comercial. En este punto de la evolución de un nuevo
técnica, el software generalmente está disponible en código fuente para el usuario intrépido
dispuesto a recuperarlo a través de FTP, compilarlo y descubrir cómo usarlo leyendo
el doctorado del autor tesis. Solo después de que algunos pioneros tengan éxito con un
La nueva técnica comienza a aparecer en productos reales que vienen con el usuario
manuales, líneas de ayuda y clases de capacitación.
Hoy en día, se están desarrollando nuevas técnicas; Sin embargo, mucho trabajo es también
dedicado a ampliar y mejorar las técnicas existentes. Todas las tecnicas
discutidos en este libro están disponibles en software comercial y de código abierto
productos, aunque ningún producto individual los incorpora a todos.

Page 47
Capítulo 1 ■ ¿Qué es la minería de datos y por qué hacerlo?
9 9

Habilidades para el minero de datos
¿Quién puede ser un minero de datos? La respuesta no es de todos, porque algunos
Se necesitan habilidades. Un buen minero de datos necesita tener habilidades con números y un
familiaridad básica con las estadísticas (y un mayor conocimiento de las estadísticas siempre es
útil). Los capítulos 4 y 6 cubren muchos de los conceptos estadísticos clave necesarios para
minería de datos. Tener un buen conocimiento práctico de Excel también es muy útil,
porque es la hoja de cálculo predominante en el mundo de los negocios. Hojas de calculo
como Excel son muy útiles para analizar pequeñas cantidades de datos y para
presentando los resultados a una amplia audiencia.
Por supuesto, la familiaridad con las técnicas de minería de datos es crítica para un minero de datos.
La mayor parte de este libro está dedicado a varias técnicas. Entendiendo el
las técnicas en sí mismas son importantes; más importante es entender cuándo
y cómo son útiles. Quizás tan importante como los detalles técnicos es el
desmitificación de las técnicas de minería de datos. Aunque muchos son bastante sofisticados
Por lo general, se basan en una base muy accesible. Estas tecnicas
No son mágicos. Incluso cuando no puedes explicar exactamente cómo llegan a un
respuesta, es posible entenderlos, sin un Ph.D. en matemáticas o
estadística. Las técnicas son mejores que la magia, porque son útiles y
Ayuda a resolver problemas del mundo real.
Otra habilidad muy importante para un minero de datos es realmente una actitud: falta de miedo
de grandes cantidades de datos y el complejo procesamiento que podría ser necesario para
exprimir los resultados. Trabajar con grandes conjuntos de datos, almacenes de datos y análisis.
sandboxes es clave para una minería de datos exitosa.
Finalmente, la minería de datos no se trata solo de producir resultados técnicos. Sin datos
El modelo de minería, por ejemplo, nunca hizo nada más que cambiar bits
dentro de una computadora. Los resultados tienen que usarse para ayudar a las personas (o cada vez más,
procesos automatizados) toman decisiones más informadas. Produciendo la técnica
Los resultados cal es el final del comienzo del proceso de minería de datos. Ser capáz
para trabajar con otras personas, comunicar resultados y reconocer lo que realmente es
Se necesitan habilidades críticas para un buen minero de datos. A lo largo de este libro hay muchos
ejemplos de minería de datos en el contexto empresarial, tanto en los próximos dos capítulos
y a lo largo de los capítulos técnicos dedicados a cada técnica. Minería de datos
es un proceso de aprendizaje basado en datos, como se describe en las siguientes secciones, y cualquier
Un buen minero de datos debe estar abierto a nuevas ideas.

El ciclo virtuoso de la minería de datos
En la primera parte del siglo XIX, las fábricas textiles fueron el éxito industrial.
cuentos. Estos molinos surgieron en los pueblos y ciudades en crecimiento a lo largo de los ríos en
Inglaterra y Nueva Inglaterra para aprovechar la energía hidroeléctrica. Agua corriendo sobre el agua

48
10
Capítulo 1 ■ ¿Qué es la minería de datos y por qué hacerlo?
ruedas, condujeron máquinas de hilar, tejer y tejer. Durante un siglo, el
El símbolo de la revolución industrial era el agua que fluía sobre las ruedas proporcionando
El poder de las máquinas textiles.
El mundo de los negocios ha cambiado. Las antiguas ciudades de molinos ahora son pintorescas históricas
curiosidades Los edificios de molinos largos junto a los ríos son almacenes, centros comerciales,
estudios de artistas y muchos otros negocios. Incluso empresas manufactureras
A menudo proporcionan más valor en los servicios que en los bienes. Los autores fueron impactados por
una campaña publicitaria de Cemex, un importante fabricante internacional de cemento, que
presentó concreto como servicio. En lugar de centrarse en la calidad del cemento, es
precio o disponibilidad, el anuncio representaba un puente sobre un río y vendía la idea de que
"Cemento" es un servicio que conecta a las personas mediante la construcción de puentes entre ellas.
¿Concreto como servicio? Bienvenido al siglo XXI.
El mundo ha cambiado. El acceso a la energía eléctrica o mecánica ya no es
El criterio para el éxito del negocio. Para productos de mercado masivo, datos sobre clientes
interacciones es el nuevo poder hídrico; el conocimiento impulsa las turbinas del servicio
economía y, porque la línea entre el servicio y la fabricación se está volviendo
borrosa, gran parte de la economía manufacturera también. Información de datos
enfoca los esfuerzos de ventas y marketing al apuntar a los clientes, mejora el producto
diseña atendiendo a las necesidades reales del cliente y mejora la asignación de recursos
mediante la comprensión y predicción de las preferencias del cliente.
Los datos están en el corazón de muchos procesos comerciales centrales. Es generado por trans­
acciones en sistemas operativos independientemente de la industria: venta minorista, telecomunicaciones
cationes, manufactura, cuidado de la salud, servicios públicos, transporte, seguros, crédito
tarjetas y servicios financieros, por ejemplo. Agregando al diluvio de datos internos
son fuentes externas de información demográfica, de estilo de vida y de crédito en el comercio minorista
clientes; información crediticia, financiera y de marketing sobre clientes comerciales;
e información demográfica sobre vecindarios de todos los tamaños. La promesa de
la minería de datos es encontrar los patrones interesantes que acechan en todos estos miles de millones y
billones de bits en el disco o en la memoria de la computadora. Simplemente encontrar patrones
no es suficiente. Debes responder a los patrones y actuar de acuerdo con ellos , en última instancia
los datos en información , la información en acción , y la acción en valor . Esta es la virtud
Nuestro ciclo de minería de datos en pocas palabras.
Para lograr esta promesa, la minería de datos debe convertirse en un negocio esencial
proceso de ness, incorporado a otros procesos que incluyen marketing, ventas,
atención al cliente, diseño de productos y control de inventario. El ciclo virtuoso
coloca la minería de datos en el contexto más amplio de los negocios, alejando el enfoque
desde el mecanismo de descubrimiento hasta las acciones basadas en los descubrimientos. Este libro
enfatiza los resultados procesables de la minería de datos (y este uso de "procesable"
definitivamente no debe confundirse con su definición en el dominio legal, donde
significa que algunas acciones tienen fundamentos para acciones legales).
La literatura de marketing hace que la minería de datos parezca tan fácil. Solo aplica el automatizado
algoritmos creados por las mejores mentes de la academia, como redes neuronales, deci
árboles de siones y algoritmos genéticos, y usted está en camino a éxitos incontables.

Página 49
Capítulo 1 ■ ¿Qué es la minería de datos y por qué hacerlo? 11
Aunque los algoritmos son importantes, la solución de minería de datos es más que un simple
conjunto de técnicas poderosas y estructuras de datos. Las técnicas deben ser aplicadas
a los problemas correctos, en los datos correctos. El ciclo virtuoso de la minería de datos es un
proceso de aprendizaje iterativo que se basa en los resultados a lo largo del tiempo. Éxito en el uso de datos
transformará una organización de reactiva a proactiva. Este es el virtuoso
ciclo de minería de datos, utilizado por los autores para extraer el máximo beneficio de
Las técnicas descritas más adelante en el libro. Antes de explicar el ciclo virtuoso.
de minería de datos, eche un vistazo a un estudio de caso de minería de datos en la práctica.

Un estudio de caso en minería de datos empresariales
Había una vez un banco con un problema comercial. Un particular
línea de negocio, líneas de crédito sobre el valor neto de la vivienda, no lograba atraer suficiente
clientes. Hay varias formas en que el banco podría atacar este problema.
El banco podría, por ejemplo, bajar las tasas de interés de los préstamos con garantía hipotecaria. Esta
atraería más clientes y aumentaría la cuota de mercado a expensas de la reducción
márgenes Los clientes existentes pueden cambiar a las tarifas más bajas, deprimiendo aún más
márgenes Peor aún, suponiendo que las tasas iniciales fueran razonablemente competitivas,
bajar las tarifas podría atraer a los peores clientes: los desleales. Competidores
puede atraerlos fácilmente con términos ligeramente mejores. La barra lateral "Ganar dinero
o perder dinero ”habla sobre los problemas de retener clientes leales.
¿GANAR DINERO O PERDER DINERO?
Los préstamos con garantía hipotecaria generan ingresos para los bancos de los pagos de intereses en el
préstamos, pero a veces las empresas lidian con servicios que pierden dinero.
Como ejemplo, Fidelity Investments una vez puso su servicio de pago de facturas en
el bloque de corte porque este servicio constantemente pierde dinero. Algunos duran
un análisis minucioso lo salvó, al mostrar que Fidelity es el más leal y más leal
clientes rentables utilizaron el servicio. Aunque perdió dinero, Fidelity hizo
mucho más dinero en las otras cuentas de estos clientes. Después de todo, los clientes
que confían en que su institución financiera pague sus cuentas tienen un nivel muy alto de
confiar en esa institución. Cortar tales servicios de valor agregado puede inadvertidamente
exacerbar el problema de rentabilidad haciendo que los mejores clientes se vean
En otro lugar para un mejor servicio.
Incluso productos como los préstamos con garantía hipotecaria ofrecen un enigma para algunos
bancos. Un cliente que posee una casa y tiene una gran cantidad de tarjeta de crédito.
la deuda es un buen candidato para una línea de crédito con garantía hipotecaria. Esto es bueno para el
cliente, porque la línea de crédito generalmente tiene una tasa de interés mucho más baja
que la tarjeta de crédito original. ¿Debería el banco alentar a los clientes a cambiar
su deuda de tarjetas de crédito a préstamos con garantía hipotecaria?
Continuado

Página 50
12
Capítulo 1 ■ ¿Qué es la minería de datos y por qué hacerlo?
La respuesta es más complicada de lo que parece. A corto plazo, tal
el cambio es bueno para el cliente, precisamente porque es malo para el banco: menos
los intereses que paga el cliente significan menos ingresos para el banco. Dentro
el banco, tal cambio también causa un problema. El grupo de tarjeta de crédito puede
han trabajado duro para adquirir un cliente que pagaría intereses todos los meses.
Ese grupo no quiere perder a sus buenos clientes.
Por otro lado, cambiar al cliente puede generar una vida útil
relación que incluirá muchos préstamos para automóviles, hipotecas e inversiones
productos Cuando el foco está en el cliente, la visión a largo plazo es a veces
más importante, y puede entrar en conflicto con objetivos a corto plazo.
En este ejemplo particular, el banco era Bank of America (BofA), que
estaba ansioso por ampliar su cartera de préstamos con garantía hipotecaria después de varios
Las campañas por correo arrojaron resultados decepcionantes. Los bienes de consumo nacionales
Group (NCAG) decidió utilizar la minería de datos para atacar el problema, proporcionando
Una buena introducción al ciclo virtuoso de la minería de datos. (Los autores lo harían
quisiera agradecer a Lounette Dyer, Larry Flynn y Jerry Modes que trabajaron en esto
problema y Larry Scroggins por permitirnos usar material de un Banco de
Estudio de caso de América).
Identificando el desafío comercial de BofA
BofA necesitaba hacer un mejor trabajo de comercialización de préstamos con garantía hipotecaria para 
clientes.
Utilizando el sentido común y consultores de negocios, surgió con estas ideas:
■ Las personas con hijos en edad universitaria quieren pedir prestado contra el valor neto de la vivienda.

para pagar las facturas de matrícula.
■ Las personas con ingresos altos pero variables desean utilizar el valor líquido de la vivienda para estabilizarse

fuera de los picos y valles en sus ingresos.
Estas ideas pueden o no haber sido ciertas. No obstante, literatura de marketing
para el producto de línea de capital de la vivienda reflejó esta visión del cliente probable, como
hicieron las listas elaboradas para el telemarketing. Estas ideas llevaron a la decepción.
Los resultados mencionados anteriormente.
Aplicación de minería de datos
BofA trabajó con consultores de minería de datos de Hyperparallel (luego un
proveedor de herramientas de minería que posteriormente fue absorbido por Yahoo!) para traer un
gama de técnicas de minería de datos para abordar el problema. No hubo corto
edad de los datos. Durante muchos años, BofA había estado almacenando datos sobre sus millones de 
minoristas
clientes en una gran base de datos relacional en una poderosa computadora paralela de
¿GANAR DINERO O PERDER DINERO? ( continuación )

51
Capítulo 1 ■ ¿Qué es la minería de datos y por qué hacerlo? 13
Teradata Los datos de 42 sistemas de registro se limpiaron, transformaron, alinearon y
luego alimentado en el almacén de datos corporativos. Con este sistema, BofA pudo ver
todas las relaciones que cada cliente mantuvo con el banco.
Esta base de datos histórica fue realmente digna de ese nombre, algunos registros fechados
¡de vuelta a 1914! Los registros de clientes más recientes tenían alrededor de 250 campos, incluidos
campos demográficos como ingresos, número de hijos y tipo de hogar, como
así como datos internos. Estos atributos del cliente se combinaron en un cliente
firma, que luego se analizó utilizando las herramientas de minería de datos de Hyperparallel.
Los árboles de decisión (una técnica discutida en el Capítulo 7) derivan reglas para clasificar
Los clientes bancarios existentes tienen probabilidades o pocas probabilidades de responder a un préstamo 
con garantía hipotecaria
oferta. El árbol de decisiones, capacitado en miles de ejemplos de clientes que
había obtenido el producto y miles que no lo habían hecho, eventualmente aprendieron
reglas para diferenciar entre ellos. Después de que se descubrieron las reglas, el
El modelo resultante se utilizó para agregar otro atributo al registro de cada cliente potencial.
Este atributo, la bandera de "buenas perspectivas para las líneas de crédito de capital inmobiliario", era
generado por un modelo de minería de datos.
A continuación, una técnica de búsqueda secuencial de patrones (como la descrita en
Se utilizó el Capítulo 15 sobre análisis de la cesta de la compra y análisis secuencial de patrones)
para determinar cuándo era más probable que los clientes quisieran un préstamo de este tipo. los
El objetivo de este análisis era descubrir una secuencia de eventos que con frecuencia
precedieron solicitudes exitosas en el pasado.
Finalmente, se utilizó una técnica de agrupamiento (descrita en el Capítulo 13) para auto­
segmentar matemáticamente a los clientes en grupos con atributos similares. De acuerdo
punto, la herramienta encontró catorce grupos de clientes, muchos de los cuales no
Parece particularmente interesante. Sin embargo, de estos catorce grupos, uno tenía dos
propiedades intrigantes:
■ 39 por ciento de las personas en el clúster tenían negocios y personales

cuentas
■ Este grupo representaba más de una cuarta parte de los clientes que tenían

sido clasificado por el árbol de decisiones como posibles respondedores a la equidad de la vivienda
oferta de préstamo.
Este resultado sugirió a los mineros de datos curiosos que las personas podrían estar usando
préstamos con garantía hipotecaria para iniciar negocios.
Actuando sobre los resultados
Con esta nueva información, NCAG (la unidad de negocios para líneas de crédito con garantía hipotecaria)
se asoció con la División de Banca Minorista e hizo lo que los bancos hacen en tales círculos
situaciones: patrocinaron estudios de mercado para hablar con los clientes. Cuatro veces
un año, BofA distribuiría una encuesta a las sucursales bancarias para averiguar qué
En realidad estaba sucediendo en la primera línea. Con el conocimiento obtenido de los datos.
minería, el banco tenía una pregunta más para agregar a la lista: "¿Las ganancias serán
Page 52
14
Capítulo 1 ■ ¿Qué es la minería de datos y por qué hacerlo?
del préstamo se utilizará para iniciar un negocio? "El resultado del estudio de minería de datos
fue una pregunta en una encuesta interna.
Los resultados de la encuesta confirmaron las sospechas suscitadas por los datos min­
En g. Como resultado, NCAG cambió el mensaje de su campaña de "usar el
valor de su hogar para enviar a sus hijos a la universidad "a algo más en el
líneas de "ahora que la casa está vacía, use su capital para hacer lo que siempre ha hecho
quería hacer."
Por cierto, la investigación de mercado y la minería de datos a menudo se utilizan para fines similares.
fines ­ para obtener una mejor comprensión de los clientes. Aunque poderoso, el mercado
La investigación tiene algunas deficiencias:
■ Los respondedores pueden no ser representativos de la población en su conjunto. Ese

es decir, el conjunto de respondedores puede estar sesgado, particularmente por los grupos objetivo
por esfuerzos de marketing pasados (formando lo que se llama una muestra oportunista ).
■ Clientes (particularmente clientes insatisfechos y antiguos clientes)

Tiene pocas razones para ser útil u honesto.
■ Cualquier acción dada puede ser la culminación de una acumulación de reacción.

hijos. Los clientes bancarios pueden irse porque una sucursal cerró, el banco
rebotaron un cheque y tuvieron que esperar demasiado en los cajeros automáticos. Investigación de mercado
puede recoger solo la causa próxima, aunque la secuencia es más
significativo.
A pesar de estas deficiencias, hablar con clientes y ex clientes proporciona
ideas que no se pueden proporcionar de ninguna otra manera. Este ejemplo con BofA
muestra que los dos métodos son compatibles.
SUGERENCIA Al hacer una investigación de mercado en clientes existentes, usar minería de datos para
Tener en cuenta lo que ya se sabe de ellos es una buena idea.

Medición de los efectos de la minería de datos
Como resultado de una campaña de marketing centrada en un mejor mensaje, la respuesta
La tasa de las campañas sobre el valor neto de la vivienda aumentó de 0.7 por ciento a 7 por ciento. Conforme
a Dave McDonald, vicepresidente del grupo, las implicaciones estratégicas de
la minería de datos es nada menos que la transformación del lado minorista de la
banco de una institución de marketing masivo a una institución de aprendizaje. "Queremos
llegar al punto en el que constantemente estamos ejecutando programas de marketing, no
solo correos trimestrales, pero programas de manera constante ". Tiene una visión de
Un proceso de marketing de ciclo cerrado donde los datos operativos alimentan un análisis rápido
proceso que conduce a la creación de programas para su ejecución y prueba, que a su vez
genera datos adicionales para rejuvenecer el proceso. En resumen, el ciclo virtuoso
de minería de datos.

Page 53
Capítulo 1 ■ ¿Qué es la minería de datos y por qué hacerlo? 15

Pasos del ciclo virtuoso
El ejemplo de BofA muestra el ciclo virtuoso de la minería de datos en la práctica. Figura 1­1
muestra las cuatro etapas:
1. Identificar oportunidades de negocios.
2. Minería de datos para transformar los datos en información procesable.
3. Actuando sobre la información.
4. Medición de los resultados.
Figura 1­1: El ciclo virtuoso de la minería de datos se centra en los resultados comerciales, más bien
que solo explotar técnicas avanzadas.
Transformar datos
en información procesable
utilizando técnicas de minería de datos.
Acto
en la información
Identificar
oportunidades de negocio
donde analizar datos
puede aportar valor
Medir los resultados
de los esfuerzos para completar
El ciclo de aprendizaje.
1
2
3
4 4
5 5
6 6
7 7
8
9 9
10

Page 54
dieciséis
Capítulo 1 ■ ¿Qué es la minería de datos y por qué hacerlo?
Como sugieren estos pasos, la clave del éxito es incorporar la minería de datos en
procesos de negocio y poder fomentar líneas de comunicación entre
los mineros de datos técnicos y los usuarios comerciales de los resultados.
Identificar oportunidades de negocios
El ciclo virtuoso de la minería de datos comienza por identificar la oportunidad comercial correcta
sintonías Desafortunadamente, hay demasiados estadísticos buenos y competentes.
analistas cuyo trabajo se desperdicia esencialmente porque están resolviendo problemas
eso no ayuda al negocio. Los buenos mineros de datos quieren evitar esta situación.
Evitar el desperdicio de esfuerzo analítico comienza con la voluntad de actuar sobre los resultados.
Muchos procesos comerciales normales son buenos candidatos para la minería de datos:
■ Planificación para la introducción de un nuevo producto.

■ Planificación de campañas de marketing directo.

■ Comprender la deserción / abandono del cliente

■ Evaluación de los resultados de una prueba de marketing.

■ Asignación de presupuestos de marketing para atraer a los clientes más rentables.

Estos son ejemplos de dónde la minería de datos puede mejorar los esfuerzos comerciales existentes,
al permitir que los gerentes de negocios tomen decisiones más informadas, por objetivo
ing un grupo diferente, cambiando los mensajes, etc.
Para evitar desperdiciar el esfuerzo analítico, también es importante medir el impacto
de cualquier acción que se tome para juzgar el valor de la minería de datos
esfuerzo en sí mismo. Como dijo George Santayana (en su cita completa, de la cual solo la última
la frase generalmente se recuerda):
El progreso, lejos de consistir en un cambio, depende de la retención. Cuando cambio
es absoluto, no queda ningún ser para mejorar y no se establece una dirección posible
mejora: y cuando no se retiene la experiencia, como entre los salvajes, la infancia es
perpetuo. Los que no aprenden del pasado están condenados a repetirlo.
En el contexto de minería de datos, esto también se aplica: si no puede medir los resultados
de extraer los datos, entonces no se puede aprender del esfuerzo y no hay virtudes
ous ciclo
Las mediciones de esfuerzos pasados y preguntas ad hoc sobre el negocio también
Sugerir oportunidades de minería de datos:
■ ¿Qué tipos de clientes respondieron a la última campaña?

■ ¿Dónde viven los mejores clientes?

■ ¿Las largas esperas en los cajeros automáticos son una causa de desgaste del cliente?

■ ¿Los clientes rentables utilizan la atención al cliente?

■ ¿Qué productos deben promoverse con clorox bleach?

Página 55
Capítulo 1 ■ ¿Qué es la minería de datos y por qué hacerlo? 17
Entrevistar a expertos en negocios es otra buena manera de comenzar. Porque
las personas del lado comercial pueden no estar familiarizadas con la minería de datos, pueden no estar
entender cómo actuar sobre los resultados. Al explicar el valor de la minería de datos a
Una organización, tales entrevistas proporcionan un foro para la comunicación bidireccional.
Uno de los autores participó una vez en una serie de reuniones en una telecomunicación.
compañía de cationes para discutir el valor de analizar registros detallados de llamadas (registros de
llamadas realizadas por cada cliente). Durante una reunión, los participantes
tardaron en comprender cómo esto podría ser útil. Entonces, un colega señaló
Al acecho dentro de sus datos había información sobre qué clientes usaban fax
máquinas en casa (los detalles del proyecto resultante se discuten en el Capítulo
16 sobre análisis de enlaces). Esta observación hizo pensar a los participantes. ¡Hacer clic! Fax
El uso de la máquina sería un buen indicador de quién trabajaba desde casa. por
la multitud de trabajo en casa, la compañía ya tenía un paquete de productos a medida
para sus necesidades Sin embargo, sin presionar a las personas que entendieron
los datos y las técnicas, este grupo de marketing nunca habría considerado
buscando a través de los datos para encontrar una multitud de trabajo en casa. Unirse a la técnica y
El negocio destacó una oportunidad muy valiosa.
SUGERENCIA Cuando hable con usuarios de negocios sobre oportunidades de minería de datos, haga
seguro de que se centran en los problemas comerciales y no en la tecnología y en algo
Ritmos Deje que los expertos técnicos se centren en la tecnología y deje que el negocio
Los expertos se centran en el negocio.

Transformar datos en información
La minería de datos, el enfoque de este libro, transforma los datos en resultados procesables.
El éxito consiste en dar sentido comercial a los datos, no en utilizar un algoritmo particular.
ritmos o herramientas. Numerosos obstáculos interfieren con la capacidad de usar los resultados
de minería de datos:
■ Formatos de datos incorrectos, como no incluir el código postal en el cliente.

dirección.
■ Campos de datos confusos, como una fecha de entrega que significa "entrega planificada
ery date "en un sistema y" fecha de entrega real "en otro sistema.
■ Falta de funcionalidad, como una aplicación de centro de llamadas que no permite

anotaciones por cliente.
■ Ramificaciones legales, como tener que proporcionar una razón legal cuando se rechaza

solicitar un préstamo (y "mi red neuronal me lo dijo" no es aceptable).
■ Factores organizativos, porque algunos grupos operativos son reacios a

cambiar sus operaciones, particularmente sin incentivos.
■ Falta de puntualidad, porque los resultados que llegan demasiado tarde ya no pueden ser

procesable.

Page 56
18 años
Capítulo 1 ■ ¿Qué es la minería de datos y por qué hacerlo?
Los datos vienen en muchas formas, en muchos formatos y desde múltiples sistemas, como se muestra
en la figura 1­2. Identificar las fuentes de datos correctas y reunirlas son
factores críticos del éxito. Cada proyecto de minería de datos tiene problemas de datos: inconsistente
sistemas, claves de tabla que no coinciden en las bases de datos, registros sobrescritos cada
unos meses, y así sucesivamente. Las quejas sobre los datos son la excusa número uno para
sin hacer nada. Los capítulos 17, 18 y 19 discuten varios temas que involucran
datos, comenzando con el almacenamiento de datos y trabajando a través de la transformación
en un formato adecuado para la minería de datos. La verdadera pregunta es: "¿Qué puede ser
hecho con los datos disponibles? ”Aquí es donde las técnicas descritas más adelante en este
libro entra.
Figura 1­2: Los datos nunca están limpios. Viene en muchas formas, de muchas fuentes tanto internas
y externo.
Fuentes externas de
demográfico,
estilo de vida y crédito
información
Transacción
datos con
desaparecido y
incompleto
campos
Datos de múltiples
fuentes competidoras
Histórico
datos cuya
formato y
cambio de contenido
a través del tiempo
Data mart
Sistema operacional
Resúmenes de marketing
Resúmenes,
agregaciones,
puntos de vista
Una compañía de telecomunicaciones inalámbricas alguna vez quiso reunir datos
grupo minero después de haber adquirido un servidor poderoso y una minería de datos

57
Capítulo 1 ■ ¿Qué es la minería de datos y por qué hacerlo? 19
paquete de software. En esta etapa tardía, la compañía contactó a los autores para ayudarlos.
investigar oportunidades de minería de datos. Una oportunidad se hizo evidente. Una llave
El factor para la deserción de los clientes fue sobrellamadas: nuevos clientes que usan más minutos
de lo permitido por su plan tarifario durante su primer mes. Los clientes aprenderían
sobre el uso excesivo cuando llegó la primera factura, en algún momento durante la mitad
del segundo mes En ese momento, los clientes habían acumulado grandes facturas por el
segundo mes, así como el primero y fueron aún más infelices. Desafortunadamente,
el grupo de servicio al cliente también tuvo que esperar el mismo ciclo de facturación para detectar
El exceso de uso. No hubo tiempo de espera para ser proactivo.
Sin embargo, el incipiente grupo de minería de datos tenía recursos y había identificado
e investigó los feeds de datos apropiados. Con un programa relativamente simple
gramática, el grupo pudo identificar a estos clientes a los pocos días de su
primera llamada Con esta información, el centro de atención al cliente podría contactar
clientes en riesgo y muévalos a planes de facturación apropiados incluso antes
salió la primera factura. Este sistema simple fue una gran victoria y un escaparate para
minería de datos. Simplemente tener un grupo de minería de datos, con las habilidades, el hardware,
software y acceso ­ fue el factor habilitador para armar el apro­
disparadores priadosos para salvar a los clientes en riesgo.
Ley de información
Tomar medidas es el propósito del ciclo virtuoso de la minería de datos. Como ahora
mencionado, la acción puede tomar muchas formas. La minería de datos hace que la deci­
Siones más informados. Con el tiempo, las decisiones mejor informadas deberían conducir a
Mejores resultados.
A veces, la "acción" es simplemente hacer lo que se hubiera hecho
de todos modos, pero con más (o menos) confianza de que la acción funcionará. Incluso
Esto es un éxito para la minería de datos, porque reducir el nivel de preocupación es una
Buena cosa.
Más típicamente, las acciones están en línea con lo que el negocio está haciendo de todos modos:
■ Incorporar resultados en sistemas de recomendación automatizados, cuando

los clientes aparecen en línea
■ Envío de mensajes a clientes y prospectos por correo directo, correo electrónico,

telemarketing, etc. con la minería de datos, pueden aparecer diferentes mensajes
a diferentes personas
■ Priorizar el servicio al cliente

■ Ajuste de niveles de inventario

■ Y así sucesivamente

Los resultados de la minería de datos deben alimentarse en los procesos comerciales que afectan a los 
clientes.
y afectar la relación con el cliente.

58
20
Capítulo 1 ■ ¿Qué es la minería de datos y por qué hacerlo?
Medir los resultados
La importancia de medir resultados ya ha sido destacada, aunque
Esta es la etapa del ciclo virtuoso que es más probable que se pase por alto. El valor de
la medición y la mejora continua son ampliamente reconocidas, y aún menos
atención de la que merece, porque no tiene un retorno inmediato de la inversión.
Cuántos casos de negocios se implementan sin que nadie vuelva a ver
¿Qué tan bien la realidad coincidía con los planes? Las personas mejoran sus propios esfuerzos al
comparando y aprendiendo, haciendo preguntas sobre por qué los planes coinciden o no
coincidir con lo que realmente sucedió y estar dispuesto a aprender cuándo y cómo antes
Los supuestos estaban equivocados. Lo que funciona para los individuos también funciona para las 
organizaciones.
Comúnmente, los esfuerzos de marketing se miden en función de medidas financieras, y
Estos son muy importantes. Sin embargo, los esfuerzos de modelado también deben medirse.
Considere lo que sucedió una vez en un gran banco canadiense que tenía un plan para cruzar
vender cuentas de inversión a sus clientes. Este mensaje de marketing había terminado
el banco: en anuncios de radio y televisión, en carteles en la sucursal, en
mensajes impresos en el reverso de los recibos del cajero automático, en mensajes mientras los clientes 
estaban
en espera para servicio al cliente, y así sucesivamente. Los clientes no podían perderse los mensajes.
Sin embargo, esta historia se refiere a un canal diferente, el correo directo. Una minería de datos
El esfuerzo identificó a los clientes con mayor probabilidad de responder a una oferta de campaña de 
inversión.
Una campaña de marketing fue diseñada y dirigida a clientes que probablemente
responder. En este caso, sin embargo, el banco incluyó un grupo de reserva especial: esto
Se predijo que el grupo respondería bien, pero no recibió el correo directo. (Los
La barra lateral "Pruebas de marketing y minería de datos" analiza esta idea con más detalle).
Retener a los posibles respondedores es una acción bastante controvertida para el correo directo.
gerente. Los mineros de datos dicen: "Este es un grupo que creemos que responderá,
pero no contactes a todos ellos; deje algo para que podamos aprender de esta prueba ".
Lo que se aprendió valió la pena el costo de no contactar a un buen cliente.
Tomers. Entre los clientes que obtuvieron puntajes altos en la oferta de la cuenta de inversión, el
la misma proporción abrió cuentas independientemente de si recibieron la oferta
o no. El modelo, de hecho, encontró clientes que abrirían las cuentas.
Sin embargo, la prueba de marketing también encontró que la comunicación de marketing era
superfluo. Dados todos los demás esfuerzos de marketing, este correo directo en particular
La campaña no era necesaria.
El momento de comenzar a pensar en la medición es al principio cuando iden­
tificando el problema de negocios. ¿Cómo se pueden medir los resultados? Una empresa que
envía cupones para alentar las ventas de sus productos sin duda medirá el
tasa de canje de cupones. Sin embargo, los canjeadores de cupones pueden haber comprado el
producto de todos modos. Otra medida apropiada es aumentar las ventas en particular.
tiendas o regiones, aumentos que pueden estar vinculados al esfuerzo de marketing particular.
Tales medidas pueden ser difíciles de hacer, ya que requieren más detalles
informacion sobre ventas. Sin embargo, si el objetivo es aumentar las ventas, debe haber un
manera de medir esto directa o indirectamente. De lo contrario, los esfuerzos de marketing pueden
ser todo "sonido y furia, sin significar nada".

Page 59
Capítulo 1 ■ ¿Qué es la minería de datos y por qué hacerlo? 21
PRUEBAS DE MINERÍA DE DATOS Y COMERCIALIZACIÓN
Las pruebas de marketing son una parte importante del marketing analítico, como lo es la minería de datos.
Los dos a menudo se complementan entre sí, y las pruebas de marketing son un importante
parte de comprender si los esfuerzos de minería de datos están funcionando. Típicamente dos
las cosas deben probarse cuando se usa la minería de datos para un tratamiento de marketing.
Primero, ¿está funcionando el mensaje de marketing? Segundo, es el modelado de minería de datos.
¿trabajando?
La clave es usar grupos de espera de forma inteligente para comprender estos dos
factores En la práctica, existen cuatro grupos potenciales:
■ Grupo objetivo: recibe el tratamiento y tiene puntajes modelo que indican
respuesta.
■ Grupo de control: recibe el tratamiento y se elige al azar o
basado en puntajes más bajos del modelo.
■ Grupo de espera: no recibe el tratamiento y se elige en
aleatorio o basado en puntajes más bajos del modelo.
■ Grupo de espera modelado: no recibe el tratamiento y tiene modelo
puntajes que indican respuesta.
Estos cuatro grupos se indican en la siguiente figura:
Estos cuatro grupos se utilizan para medir la efectividad.
tanto del mensaje como del esfuerzo de modelado.
"Grupo de control
Elegido al azar;
recibe mensaje
Medidas de respuesta
Mensaje sin modelo.
"Grupo objetivo
Elegido por modelo;
recibe mensaje
Medidas de respuesta
mensaje con modelo.
Grupo "Holdout"
Elegido al azar;
No recibe ningún mensaje.
Medidas de respuesta
respuesta de fondo.
Grupo "Modelado Holdout"
Elegido por modelo;
No recibe ningún mensaje.
Medidas de respuesta
Modelo sin mensaje.
Elegido por modelo
Mensaje
NO
NO


Impacto del modelo en el grupo
recibiendo mensaje
Impacto de
mensaje en
grupo con
buen modelo
puntuaciones
Las respuestas de estos cuatro grupos proporcionan información útil. Utilizando
estos grupos para modelar se denominan modelos de respuesta incremental y se distinguen
insultado con más detalle en el Capítulo 5.
En el ejemplo donde el banco canadiense aprendió que el esfuerzo de correo directo
era innecesario, las tasas de respuesta para el Modelado Holdout fueron las mismas
en cuanto al grupo objetivo. Esto indica que el tratamiento no está teniendo un
efecto. La diferencia entre el grupo objetivo y el grupo de control
asegura si el modelado está funcionando o no.
Continuado

60
22
Capítulo 1 ■ ¿Qué es la minería de datos y por qué hacerlo?
El siguiente cuadro es un ejemplo de otro banco que usa dichos cuadros.
para medir la efectividad de sus campañas. Este gráfico es el gráfico real
desde el banco:
Este cuadro muestra fácilmente la diferencia en respuesta a
determinar si el tratamiento funciona y si el
trabajos de modelado.
Prueba de correo electrónico
0 0
0.1
0.2 0.2
0,3
0.4 0.4
0.5 0.5
0.6
0.7
0.8
Grupo objetivo
Grupo de control
Grupo de espera
Tasa de respuesta
Las dos primeras barras muestran que el grupo objetivo tiene una tasa de respuesta más alta que
el grupo de control, que indica que el modelado está funcionando. Los segundos dos
las barras muestran que el Grupo de control tiene una tasa de respuesta más alta que el Holdout
Grupo, indicando que el tratamiento de marketing está funcionando.
Simplemente medir estos cuatro grupos es realmente el comienzo de medir el
efectividad de la minería de datos. Por ejemplo, los puntajes del modelo a menudo se rompen
en deciles. En tales casos, es importante incluir una muestra de todos los deciles.
en la campaña para asegurarse de que el modelo funciona. Por supuesto, todos en
los deciles superiores se incluyen en el esfuerzo (porque esto logra el negocio
Gol). Para los deciles inferiores, solo se incluye una muestra. La muestra debe ser
lo suficientemente grande como para determinar si los deciles realmente funcionan, algo
eso es bastante importante cuando se usan modelos. El capítulo 4 explica las estadísticas.
antecedentes para determinar el tamaño correcto para tales pruebas.
Informes estándar, que pueden llegar semanas o meses después de la comercialización.
Se han producido intervenciones, contienen resúmenes. Los gerentes de marketing pueden
no tiene las habilidades técnicas para obtener hallazgos importantes de tales informes,
incluso si la información está ahí. Comprender el impacto en el cliente
retención significa rastrear viejos esfuerzos de marketing por períodos aún más largos de
hora. Las aplicaciones de informes bien diseñadas pueden ser de gran ayuda para el marketing.
grupos y analistas de marketing. Sin embargo, para algunas preguntas, incluso más.
Se necesitan detalles.
Pensar en cada esfuerzo de marketing como un caso de pequeña empresa es una buena idea.
La comparación de las expectativas con los resultados reales permite reconocer las promesas
PRUEBAS DE MINERÍA DE DATOS Y COMERCIALIZACIÓN ( continuación )

Página 61
Capítulo 1 ■ ¿Qué es la minería de datos y por qué hacerlo? 23
oportunidades para explotar en la próxima ronda del ciclo virtuoso. A menudo eres
demasiado ocupado abordando el siguiente problema para dedicar energía a medir el éxito de
esfuerzos actuales. Esto es un error. Todo esfuerzo de minería de datos, ya sea exitoso
o no, tiene lecciones que se pueden aplicar a futuros esfuerzos. La pregunta es qué hacer
medir y cómo abordar la medición para que proporcione la mejor entrada
para uso futuro.
Como ejemplo, comencemos con qué medir para una adquisición dirigida
Campaña. La medida canónica es la tasa de respuesta: cuántas personas
objetivo de la campaña realmente respondió? Esto deja mucha información
acostado sobre la mesa. Para un esfuerzo de adquisición que utiliza una puntuación de modelo (donde un alto
la puntuación indica una mayor probabilidad de respuesta), algunos ejemplos de preguntas
que tienen valor futuro son:
■ ¿Llegó esta campaña y atrajo clientes rentables?

■ ¿Una puntuación más alta en el modelo indicó una tasa de respuesta más alta?

■ ¿Fueron retenidos estos clientes tan bien como se esperaba?

■ ¿Cuáles son las características de los clientes más leales alcanzados por

esta campaña?
■ ¿Los clientes recién adquiridos compraron productos adicionales?

■ ¿Funcionaron algunos mensajes u ofertas mejor que otros?

■ ¿Los clientes alcanzados por la campaña respondieron a través de alternativas?

canales?
Todas estas medidas proporcionan información para hacer más informado
decisiones en el futuro. La minería de datos se trata de conectar el pasado a través de
aprendizaje ­ para acciones futuras.
Una medida particular es el valor del cliente de por vida . Como su nombre lo indica,
Esta es una estimación del valor de un cliente durante todo el curso de su
su relación (o tal vez por un período fijo en el futuro, como por ejemplo para
próximos dos años). En algunas industrias, se han desarrollado modelos bastante complicados
abierto para estimar el valor del cliente de por vida. Incluso sin modelos sofisticados,
estimaciones a corto plazo, como el valor después de un mes, seis meses y uno
año, puede resultar bastante útil. El valor del cliente se analiza con más detalle.
en el proximo capitulo.

Minería de datos en el contexto del ciclo virtuoso
Considere una gran compañía de telecomunicaciones en los Estados Unidos. Tal
La empresa tiene millones de clientes. Posee cientos o miles de interruptores
ubicado en oficinas centrales, que generalmente se encuentran en varios estados en múltiples tiempos
zonas Cada conmutador puede manejar miles de llamadas simultáneamente, incluyendo

Page 62
24
Capítulo 1 ■ ¿Qué es la minería de datos y por qué hacerlo?
características avanzadas como llamada en espera, llamadas en conferencia, reenvío de llamadas,
correo de voz y servicios digitales. Switches, entre la informática más compleja
dispositivos aún desarrollados, están disponibles en un puñado de fabricantes. Un tipo
La compañía telefónica de Cal tiene múltiples versiones de varios interruptores de cada uno de
Los vendedores. Cada uno de estos conmutadores proporciona volúmenes de datos en su propio formato.
en cada llamada e intento de llamada: volúmenes medidos en decenas de gigabytes
cada día. Además, cada estado tiene sus propias regulaciones que afectan a la industria,
sin mencionar las leyes y regulaciones federales que están sujetas a bastante frecuentes
cambios Para agregar a la confusión, la compañía ofrece miles de diferentes
planes de facturación a sus clientes, que van desde usuarios residenciales ocasionales hasta
Fortune 100 corporaciones.
¿Cómo funciona esta empresa, o cualquier otra empresa similar con grandes volúmenes de
datos y gran cantidad de clientes: gestione su proceso de facturación, el pan
y la mantequilla de su negocio, responsable de sus ingresos? La respuesta es simple: muy
¡cuidadosamente! Las compañías han desarrollado procesos detallados para manejar estándares
operaciones; Tienen políticas y procedimientos. Estos procesos son robustos. Cuentas
salir a los clientes, incluso cuando el negocio se reorganiza, incluso cuando la base de datos
los administradores están de vacaciones, incluso cuando las computadoras están temporalmente apagadas,
incluso a medida que cambian las leyes y regulaciones, incluso cuando se actualizan los interruptores, y
cuando golpean los huracanes. Si una organización puede gestionar un proceso tan complicado
como obtener facturas precisas cada mes a millones de residentes, negocios,
y clientes gubernamentales, seguramente incorporando la minería de datos en la decisión
Los procesos deberían ser bastante fáciles. ¿Es este el caso?
Las grandes empresas tienen décadas de experiencia desarrollando e implementando
aplicaciones de misión crítica para administrar sus negocios. La minería de datos es diferente
ent del sistema operativo típico (ver Tabla 1­1). Las habilidades necesarias para
ejecutar un sistema operativo exitoso no necesariamente conduce a tener éxito
esfuerzos de minería de datos.
Los problemas abordados por la minería de datos difieren de los problemas operativos: un
El sistema de minería de datos no busca replicar resultados previos exactamente . De hecho, réplica
La acción de esfuerzos anteriores puede conducir a resultados desastrosos. Puede resultar en el mercado
Campañas dirigidas a las mismas personas una y otra vez. Tu no quieres
aprenda del análisis de datos que un gran grupo de clientes se ajusta al perfil de la
clientes contactados en la campaña anterior. Los procesos de minería de datos necesitan
tener en cuenta estos problemas, a diferencia de los sistemas operativos típicos que desean
reproducir los mismos resultados una y otra vez, ya sea completando un teléfono
llamar, enviar una factura, autorizar una compra a crédito, realizar un seguimiento del inventario u otro
innumerables operaciones diarias.
La minería de datos es un proceso creativo . Los datos contienen muchas correlaciones obvias que
son inútiles o simplemente representan las políticas comerciales actuales. Por ejemplo,

Page 63
Capítulo 1 ■ ¿Qué es la minería de datos y por qué hacerlo? 25
El análisis de los datos de un gran minorista reveló que las personas que compran mainte­
También es muy probable que los contratos financieros compren electrodomésticos grandes. A no ser que
el minorista quería analizar la efectividad de las ventas de contratos de mantenimiento
con electrodomésticos, dicha información es peor que inútil porque el mantenimiento
Los contratos en cuestión solo se venden con electrodomésticos grandes. Gastar millones de
dólares en hardware, software y mineros de datos para encontrar tales resultados es un desperdicio
de recursos que se pueden aplicar mejor en otras partes del negocio. Analistas
debe comprender qué es valioso para la empresa y cómo organizar los datos
para sacar las pepitas.
Los resultados de la minería de datos cambian con el tiempo . Los modelos caducan y se vuelven menos 
útiles
Conforme pasé él tiempo. Una de las causas es que los datos envejecen rápidamente. Mercados y clientes
cambia rápidamente también.
La minería de datos proporciona comentarios sobre otros procesos que pueden necesitar 
cambios . Decisiones
hecho en el mundo de los negocios a menudo afecta los procesos e interacciones actuales con
clientes. A menudo, mirar los datos encuentra imperfecciones en los sistemas operativos,
imperfecciones que deben corregirse para mejorar la comprensión futura del cliente.
Tabla 1­1: La minería de datos difiere de los procesos comerciales operativos típicos
SISTEMA OPERATIVO TÍPICO
SISTEMA DE MINERÍA DE DATOS
Operaciones e informes sobre
información histórica
Análisis de datos históricos a menudo aplicados
a la mayoría de los datos actuales para determinar el futuro
comportamiento
Flujo predecible y periódico de
trabajo, generalmente vinculado al calendario
Flujo de trabajo impredecible dependiendo de
necesidades comerciales y de marketing
Centrarse en elementos individuales, uno a la vez
tiempo (la aguja en el pajar)
Centrándose en grupos más grandes a la vez, intentando
dar sentido al pajar
Uso limitado de datos de toda la empresa
Cuantos más datos, mejores serán los resultados.
(generalmente)
Centrarse en la línea de negocio (como
como cuenta, región, código de producto,
minutos de uso, etc.), no en
cliente
Centrarse en entidad accionable, producto,
cliente, región de ventas
Los tiempos de respuesta a menudo se miden en
segundos / milisegundos (para interac­
tive) mientras espera semanas /
mes para informes
Procesos iterativos con tiempos de respuesta.
a menudo medido en minutos u horas
Sistema de registro de datos
Copia de datos
Descriptivo y repetitivo
Creativo
Página 64
26
Capítulo 1 ■ ¿Qué es la minería de datos y por qué hacerlo?

Lecciones aprendidas
La minería de datos es una parte importante de la gestión de la relación con el cliente. los
El objetivo de la gestión de la relación con el cliente es recrear, en la medida de lo posible,
la relación de aprendizaje íntimo que una pequeña empresa bien administrada disfruta con sus
clientes. Las interacciones de una empresa con sus clientes generan grandes volúmenes.
de datos. Estos datos se capturan inicialmente en sistemas de procesamiento de transacciones como
cajeros automáticos, registros de interruptores telefónicos y escáner de supermercado
archivos Los datos se pueden recopilar, limpiar y resumir para su inclusión en un
almacén de datos del cliente. Un almacén de datos del cliente bien diseñado contiene
Un registro histórico de las interacciones con el cliente que se convierte en la memoria del
sociedad. Las herramientas de minería de datos se pueden aplicar a este registro histórico para aprender
cosas sobre los clientes que permitirán a la compañía atenderlos mejor en el
futuro. Este capítulo presenta varios ejemplos de aplicaciones comerciales.
de minería de datos, como cupones mejor orientados, recomendaciones,
venta cruzada, retención de clientes y reducción del riesgo de crédito.
La minería de datos en sí es el proceso de encontrar patrones y reglas útiles en general
volúmenes de datos. Para tener éxito, la minería de datos debe convertirse en una parte integral de
un proceso comercial más amplio, el ciclo virtuoso de la minería de datos .
El ciclo virtuoso de la minería de datos se trata de aprovechar el poder de los datos
y transformarlo en resultados comerciales viables. Justo cuando el agua una vez giró
En las ruedas que conducían máquinas a lo largo de un molino, se deben reunir datos
difundido en toda una organización para proporcionar valor. Si los datos son agua en
esta analogía, entonces la minería de datos es la rueda, y el ciclo virtuoso extiende la
poder de los datos a todos los procesos de negocio.
El ciclo virtuoso de la minería de datos es un proceso de aprendizaje basado en el cliente.
datos. Comienza por identificar las oportunidades comerciales correctas para la minería de datos.
Las mejores oportunidades de negocios son aquellas sobre las que se actuará. Sin
acción, se obtendrá poco o ningún valor aprendiendo sobre los clientes. también
Es muy importante medir los resultados de la acción. Esto completa el ciclo
del ciclo virtuoso, y a menudo sugiere más oportunidades de minería de datos.
El siguiente capítulo coloca la minería de datos en el contexto de los propios clientes,
comenzando con el ciclo de vida del cliente y siguiendo con varios ejemplos de
ciclo virtuoso en acción.

ÍTULO

3
El proceso de minería de datos
El Capítulo 1 describe el ciclo virtuoso de la minería de datos como un proceso comercial que
divide la minería de datos en cuatro etapas:
1. Identificando el problema
2. Transformando datos en información
3. Tomando medidas
4. Medir el resultado
Este capítulo cambia el énfasis a la minería de datos como un proceso técnico, moviendo
desde la identificación de problemas comerciales hasta la traducción de problemas comerciales en
problemas de minería de datos. La segunda etapa, la transformación de datos en información,
se expande en varios temas, incluyendo pruebas de hipótesis, construcción de modelos,
y descubrimiento de patrones. Las ideas y mejores prácticas presentadas en este capítulo.
se detallan más en el resto del libro. El propósito de este capítulo es
reúna los diferentes estilos de minería de datos en un solo lugar.
La mejor manera de evitar romper el círculo virtuoso de la minería de datos es subestimar
soportar las formas en que es probable que falle y tomar medidas preventivas. A traves de Los años,
los autores han encontrado muchas formas de que los proyectos de minería de datos salgan mal.
Este capítulo comienza con una discusión de algunos de estos escollos. El resto de
El capítulo trata sobre el proceso de minería de datos. Capítulos posteriores cubren los aspectos
de la metodología de minería de datos que son específicos de los estilos particulares de datos

Page 106
68
Capítulo 3 ■ El proceso de minería de datos
minería: minería de datos dirigida y minería de datos no dirigida. Este capítulo
se enfoca en lo que estos enfoques tienen en común.
Se presentan los tres estilos principales de minería de datos, comenzando con el
Enfoque más simple: probar hipótesis típicamente mediante el uso de consultas ad hoc.
trabajando en actividades más sofisticadas, como construir modelos que pueden ser
utilizado para puntuar y encontrar patrones utilizando técnicas de minería de datos no dirigidas.
El tema del capítulo es obtener una declaración clara del objetivo comercial
a una comprensión clara de las tareas de minería de datos necesarias para lograr el objetivo
y las técnicas de minería de datos apropiadas para la tarea.

¿Qué puede ir mal?
La minería de datos es una forma de aprender del pasado para tomar mejores decisiones
en el futuro. Las mejores prácticas descritas en este capítulo están diseñadas para evitar
dos resultados indeseables del proceso de aprendizaje:
■ Aprender cosas que no son ciertas.

■ Aprender cosas que son verdaderas, pero que no son útiles.

Los antiguos marineros aprendieron a evitar las rocas de Scylla y el remolino de
Caribdis que protegen el estrecho estrecho entre Sicilia y el continente italiano.
tierra. Al igual que los antiguos marineros que aprendieron a evitar estas amenazas, los mineros de datos
necesita saber cómo evitar peligros comunes.
Aprender cosas que no son ciertas
Aprender cosas que no son ciertas es más peligroso que aprender cosas que son verdaderas.
inútil porque pueden tomarse decisiones comerciales importantes basadas en incorrectos
información. Los resultados de la minería de datos a menudo parecen confiables porque se basan
en datos reales procesados de una manera aparentemente científica. Esta apariencia de
La fiabilidad puede ser engañosa. Los datos pueden ser incorrectos o no relevantes para el
pregunta a mano. Los patrones descubiertos pueden reflejar decisiones comerciales pasadas o
nada en absoluto. Las transformaciones de datos como el resumen pueden haber destruido
o información importante oculta. Las siguientes secciones discuten algunos de los
problemas más comunes que pueden llevar a conclusiones falsas.
ADVERTENCIA El análisis más cuidadoso y minucioso, utilizando la mayoría
técnicas sofisticadas, arroja resultados incorrectos cuando los datos analizados son
incorrecto o simplemente no relevante. En los círculos de tecnología de la información, un popular
el aforismo es "basura adentro, basura afuera".

Page 107
Capítulo 3 ■ El proceso de minería de datos 69
Los patrones pueden no representar ninguna regla subyacente
A menudo se dice que las cifras no mienten, pero los mentirosos sí. Cuando se trata de encontrar
En los patrones de datos, las cifras no tienen que mentir para sugerir cosas
Eso no es cierto. Existen tantas formas de construir patrones que cualquier conjunto aleatorio
de puntos de datos revela uno si se examina lo suficiente. Los seres humanos dependen tanto
fuertemente en patrones en nuestras vidas que tendemos a verlos incluso cuando son
no ahí. Miramos hacia el cielo nocturno y no vemos un arreglo aleatorio
de estrellas, pero el Big Dipper, o la Cruz del Sur, o el Cinturón de Orión. Algunos incluso
ver patrones astrológicos y portentos que pueden usarse para predecir el futuro. los
La aceptación generalizada de teorías de conspiración extravagantes es una prueba más de
La necesidad humana de encontrar patrones.
Presumiblemente, la razón por la cual los humanos han desarrollado tanta afinidad por
patrones es que los patrones a menudo reflejan alguna verdad subyacente sobre la forma
El mundo funciona. Las fases de la luna, la progresión de las estaciones, el
alternancia constante de noche y día, incluso la aparición regular de un favorito
Los programas de televisión al mismo tiempo el mismo día de la semana son útiles porque
son estables y por lo tanto predictivos. Podemos usar estos patrones para decidir cuándo
es seguro plantar tomates, cuándo desayunar y cómo programar el DVR.
Otros patrones claramente no tienen ningún poder predictivo. Si viene una moneda justa
cara arriba cinco veces seguidas, todavía hay una probabilidad de 50­50 de que aparezca
colas en el sexto lanzamiento.
El desafío para los mineros de datos es descubrir qué patrones son útiles y
que no son. Considere los siguientes patrones, todos los cuales han sido citados en
Artículos en la prensa popular como si tuvieran valor predictivo:
■ El partido que no ocupa la presidencia toma escaños en el Congreso

durante las elecciones fuera de año.
■ Cuando la Liga Americana gana la Serie Mundial, los republicanos toman el

Casa Blanca.
■ Cuando los Washington Redskins ganan su último partido en casa, el titular
El partido guarda la Casa Blanca.
■ En las contiendas presidenciales de Estados Unidos, el hombre más alto generalmente gana.

El primer patrón (el que involucra elecciones fuera del año) es explicable en
términos políticos Cada cuatro años, poco más de la mitad de los votantes estadounidenses obtienen todo
emocionado y votar por su candidato a presidente. Unos meses después, el candi
la fecha se hace cargo, y comienza la decepción: los políticos simplemente no pueden mantener
Todas las promesas que su base espera. Dos años después, en el Congreso
elecciones, se produce una reacción violenta, generalmente causada por partidarios decepcionados que

108
70
Capítulo 3 ■ El proceso de minería de datos
no salgas a votar. Debido a que este patrón tiene una explicación subyacente,
parece probable que continúe en el futuro, lo que implica que tiene valor predictivo.
Los siguientes dos supuestos predictores, los que involucran eventos deportivos, parecen simplemente
tan claramente como no tener valor predictivo. No importa cuántas veces los republicanos
y la Liga Americana puede haber compartido victorias en el pasado (y los autores
no he investigado este punto), no hay razón para esperar que la asociación
continuar en el futuro
¿Qué pasa con las alturas de los candidatos? Desde 1948 cuando Truman (que era bajo, pero
más alto que Dewey) fue elegido, la elección en la que Carter venció a Ford y el
en el que Bush venció a Kerry son los únicos en los que el candidato más bajo ganó más
votos populares La elección de 2000 que enfrentó a 6'1 "Gore contra los 6'0" Bush todavía encaja
el patrón, si se supone que el patrón se relaciona con ganar el voto popular
en lugar del voto electoral. En 2008, el jugador de baloncesto Obama superó el sondeo
McCain más bajo. La altura no parece tener nada que ver con el trabajo de
siendo presidente Sin embargo, nuestras exposiciones de lenguaje “heightism”: nos miran hacia arriba con la 
gente
como señal de respeto, y menospreciar a las personas para mostrar desdén. La altura está asociada
con una mejor nutrición infantil, lo que a su vez conduce a una mayor inteligencia
y otros indicadores de éxito social. Como explica este capítulo, la forma correcta de
decidir si una regla es estable y predictiva es comparar su rendimiento en
Múltiples muestras seleccionadas al azar de la misma población. En el caso
de altura presidencial, los autores dejan esto como un ejercicio para el lector. Como es
a menudo el caso, la parte más difícil de la tarea es recopilar los datos, antes de
edad de Google, determinando las alturas de los candidatos presidenciales fracasados
de siglos anteriores no fue fácil!
El término técnico para encontrar patrones que no se pueden generalizar es sobreajustar .
El sobreajuste conduce a modelos inestables que funcionan un día, pero no el siguiente, en uno
conjunto de datos pero no en otro. La construcción de modelos estables es el objetivo principal de la
metodología de minería de datos.
El conjunto de modelos puede no reflejar la población relevante
El conjunto de modelos son los datos utilizados para crear un modelo de minería de datos, y necesariamente
describe lo que sucedió en el pasado. El modelo solo puede ser tan bueno como los datos.
solía crearlo. Para que las inferencias sean válidas, el conjunto de modelos debe reflejar la población
mencione que el modelo debe describir, clasificar o puntuar. Una muestra que no
reflejar adecuadamente la población que se califica o la población general está sesgada .
Un conjunto de modelos sesgados puede llevar a aprender cosas que no son ciertas. A menos que el
se tienen en cuenta los sesgos, el modelo resultante también está sesgado. Los prejuicios pueden ser
Difícil de evitar. Considerar:
■ Los clientes no son como los prospectos.

■ Los encuestados no son como los que no responden.

■ Las personas que leen correos electrónicos no son como las personas que no leen correos electrónicos.

Page 109
Capítulo 3 ■ El proceso de minería de datos 71
■ Las personas que se registran en un sitio web no son como las personas que no se registran.

■ Después de una adquisición, los clientes de la empresa adquirida no son necesarios.

principalmente como clientes del adquirente.
■ Los registros sin valores faltantes reflejan una población diferente de los registros

con valores faltantes.
Considere el primer punto. Los clientes no son como prospectos porque representan
personas que respondieron positivamente a cualquier mensaje, oferta y promoción
se hicieron para atraer clientes en el pasado. Es probable un estudio de clientes actuales
para sugerir más de lo mismo. Si las campañas pasadas han ido detrás de ricos, urbanos
consumidores, entonces cualquier comparación de clientes actuales con la población general
probablemente mostraría que los clientes tienden a ser ricos y urbanos. Tal modelo
puede perder oportunidades en suburbios de ingresos medios.
SUGERENCIA La atención cuidadosa a la selección y muestreo de datos para el conjunto de modelos es crucial.
Cial para la minería de datos exitosa.
Las consecuencias de usar una muestra sesgada pueden ser peores que simplemente una pérdida
Oportunidad de comercialización. En los Estados Unidos, hay una historia de "líneas rojas"
La práctica ilegal de negarse a emitir préstamos o pólizas de seguro en ciertas
barrios (generalmente barrios de bajos ingresos o minoritarios). Una búsqueda de
patrones en los datos históricos de una empresa que tenía un historial de líneas rojas
revelaría que es poco probable que las personas en ciertos vecindarios sean personalizadas
ers en absoluto. Si los esfuerzos de marketing futuros se basaron en ese hallazgo, la minería de datos
ayudaría a perpetuar prácticas ilegales y poco éticas.
Los datos pueden estar en el nivel de detalle incorrecto
En más de una industria, a los autores se les ha dicho que el uso a menudo va
abajo en el mes antes de que un cliente se vaya. Tras un examen más detenido, esto
puede ser un ejemplo de aprender algo que no es cierto. Figura 3­1
muestra los minutos mensuales de uso para un grupo de suscriptores de teléfonos celulares
quienes están registrados como detenidos en el mes nueve. Durante siete meses, los suscriptores
use aproximadamente 100 minutos por mes. En el octavo mes, su uso disminuye a
aproximadamente la mitad de eso. Y en el mes siguiente, no hay uso en absoluto, porque
Los suscriptores se han detenido. Esto sugiere que un esfuerzo de marketing desencadenó
por una disminución en el uso podría salvar a estos clientes.
Estos suscriptores parecen ajustarse a un patrón donde un mes con disminución
el uso precede al abandono del servicio. Las apariencias engañan. Estas
los clientes no tienen uso en el mes nueve porque la fecha de finalización real es el mes
ocho. En promedio, la fecha de finalización sería a mediados de mes. Estas
los clientes continúan utilizando el servicio a un ritmo constante hasta que se detienen, suponiendo
hábilmente porque ese día, los clientes comienzan a utilizar un servicio de la competencia. los
período putativo de uso decreciente en realidad no existe y ciertamente existe

Page 110
72
Capítulo 3 ■ El proceso de minería de datos
No proporcionar una ventana de oportunidad para retener al cliente. Lo que aparece
ser un indicador principal es en realidad un indicador final.
Figura 3­1: ¿La disminución del uso en el mes 8 predice la deserción en el mes 9?
1
140
120
100
80
60 60
40
20
0 0
2
3
4 4
5 5
6 6
7 7
8
9 9
10
11
Minutos de uso por tenencia
La Figura 3­2 muestra otro ejemplo de confusión causada por la agregación. Ventas
parece estar abajo en octubre en comparación con agosto y septiembre. La imagen
proviene de un negocio que tiene actividad de ventas solo en los días en que
Los mercados están abiertos. Debido a la forma en que cayeron los fines de semana y días festivos en 2003,
Octubre tuvo menos días de negociación que agosto y septiembre. Solo ese hecho
representa la caída total de las ventas.
Figura 3­2: ¿Realmente disminuyeron las ventas en octubre?
$ 38,000
$ 39,000
$ 40,000
$ 41,000
$ 42,000
$ 43,000
$ 44,000
agosto
septiembre
octubre
En los ejemplos anteriores, la agregación conduce a la confusión. Fracaso de agregar
al nivel apropiado también puede conducir a la confusión. Un miembro de un hogar
podría tener una cuenta corriente con un saldo bajo y poca actividad, mientras que otra
El miembro del mismo hogar tiene varias cuentas grandes. Tratando a los pequeños
titular de la cuenta como un cliente menos que valioso podría poner la relación con
todo el hogar en riesgo. En este caso, una cifra de saldo total puede ser más
importante que el saldo en cualquier cuenta.
Página 111
Capítulo 3 ■ El proceso de minería de datos 73
SUGERENCIA Al resumir datos, elija un nivel de agregación que no
ocultar patrones importantes dentro de un solo período. Un negocio con fuerte
Los cambios semanales no deben informar la actividad resumida mensualmente.

Aprender cosas que son verdaderas, pero no útiles
Aunque no es tan peligroso como aprender cosas que no son ciertas, aprender cosas
que no son útiles es más común. Esto puede suceder de varias maneras.
Aprender cosas que ya son conocidas (o deberían ser conocidas)
La minería de datos debe proporcionar nueva información. Muchos de los patrones más fuertes.
en los datos representan cosas que ya se conocen. Personas mayores de edad de jubilación
tienden a no responder a las ofertas de planes de ahorro para la jubilación. Personas que viven afuera
las zonas de entrega a domicilio no se convierten en suscriptores de periódicos. A pesar de que
puede responder a ofertas de suscripción, el servicio nunca comienza. Personas que no poseen
los automóviles no compran seguro de automóvil.
La minería de datos también puede descubrir patrones que deberían haberse sabido
cierto. En un ejemplo interesante, los autores estaban trabajando en un proyecto analizando
patrones de compra en los datos de la tienda de comestibles. Cuando llegó el primer conjunto de datos, 
nosotros
se dispuso a buscar productos que se compran juntos. Las primeras combinaciones fueron
“Huevos y carne”, “huevos y leche” y “huevos y refrescos”. Las reglas continuaron en
la misma vena: los huevos salían corriendo de los estantes con casi todos los productos
en la tienda. Al principio, esto parecía un problema potencial en los datos. Entonces uno
de nuestros colegas notaron que los datos provenían de la semana anterior a Pascua. Y,
de hecho, cuando las personas van de compras antes de Pascua, a menudo compran huevos
para teñir o esconderse para las vacaciones de Pascua.
Los patrones más fuertes a menudo reflejan las reglas de negocios. Si la minería de datos "descubre"
que las personas que tienen bloqueo de llamadas anónimas también tienen identificador de llamadas, la razón
quizás sea porque el bloqueo de llamadas anónimas solo se vende como parte de un paquete de
servicios que también incluyen identificador de llamadas. Si la minería de datos "descubre" ese 
mantenimiento
los acuerdos se venden con electrodomésticos grandes (como se encontró una vez Sears), eso es porque
Los acuerdos de mantenimiento casi siempre se venden después del aparato. No solo
son estos patrones poco interesantes, su fuerza puede oscurecer menos obvio pero
Patrones más procesables.
Aprender cosas que ya se conocen tiene un propósito útil. Eso
demuestra que, a nivel técnico, las técnicas de minería de datos están funcionando
y los datos son razonablemente precisos. Esto puede ser reconfortante, incluso si no es útil.
Cuando las técnicas de minería de datos son lo suficientemente potentes como para descubrir cosas que son
se sabe que es verdad, hay razones para creer que pueden descubrir más útiles
patrones también.

112
74
Capítulo 3 ■ El proceso de minería de datos
Aprendiendo cosas que no se pueden usar
La minería de datos puede descubrir relaciones que son verdaderas y anteriores
desconocido, pero aún difícil de usar. A veces el problema es regulatorio.
Los patrones de llamadas inalámbricas de un cliente pueden sugerir una afinidad por cierta tierra
paquetes de líneas de larga distancia, pero una compañía que brinda ambos servicios puede
No se le permitirá aprovechar el hecho debido a restricciones legales. Similar,
El historial crediticio de un cliente puede predecir futuros reclamos de seguro, pero
los reguladores pueden prohibir tomar decisiones de suscripción basadas en dicha información
mation. O, en lo que se está convirtiendo en un ejemplo más frecuente, la genética de una persona
el material puede sugerir propensión a ciertas enfermedades, una característica que
las compañías de seguros en los Estados Unidos y la mayoría de los países europeos son
Prohibido el uso.
Otras veces, la minería de datos revela que los resultados importantes están fuera de
control de la empresa. Un producto puede ser más apropiado para algunos climas que
otros, pero es difícil cambiar el clima. El servicio de telefonía móvil puede ser peor
en algunas regiones por razones de topografía, pero eso también es difícil de cambiar.
CONSEJO Un estudio de la deserción del cliente puede mostrar que un fuerte predictor de
los clientes que se van es la forma en que fueron adquiridos. Es muy tarde para regresar y
cambiar eso para los clientes existentes, pero eso no hace que la información
inútil. El desgaste futuro puede reducirse cambiando la combinación de adquisición
canales para favorecer a aquellos que atraen clientes más duraderos.
Los mineros de datos deben tener cuidado de mantenerse alejados del Scylla de aprender cosas que
no son ciertas y los Caribdis de no aprender nada útil. Las metodologías
establecidos en el Capítulo 5 y el Capítulo 12 están diseñados para garantizar que la minería de datos
Los esfuerzos conducen a modelos estables que abordan con éxito los problemas comerciales.

Estilos de minería de datos
El Capítulo 1 dice que la minería de datos implica la "exploración y análisis de grandes
cantidades de datos para producir resultados significativos ”. Esa es una definición suficientemente amplia
nición para cubrir muchos enfoques diferentes. Estos vienen en tres estilos principales:
■ Prueba de hipótesis

■ Minería de datos dirigida

■ Minería de datos no dirigida

En las pruebas de hipótesis, el objetivo es utilizar datos para responder preguntas o ganar
en pie. En la minería de datos dirigida, el objetivo es construir un modelo que explique
o predice una o más variables objetivo particulares. En la minería de datos no dirigida,
El objetivo es encontrar patrones generales que no estén vinculados a un objetivo particular. Durante

113
Capítulo 3 ■ El proceso de minería de datos 75
En el transcurso de un proyecto de minería de datos, puede pasar tiempo trabajando en cualquiera o en todos
de estos estilos dependiendo de la naturaleza del problema y su familiaridad
con los datos
Aunque los tres estilos de minería de datos tienen algunas diferencias técnicas,
También tienen mucho en común. Muchos de los temas discutidos en el Capítulo 5 en
El contexto de la minería de datos dirigida también es importante para la prueba de hipótesis
y encontrar patrones. De hecho, los primeros tres pasos de la minería de datos dirigida
metodología: traducir un problema empresarial en un problema de minería de datos,
seleccionar los datos apropiados y conocer los datos, también podría
estar cubierto en este capítulo.
Prueba de hipótesis
Las pruebas de hipótesis son parte de casi todos los esfuerzos de minería de datos. Mineros de datos
a menudo rebotan de un lado a otro entre enfoques, primero pensando posible
explicaciones del comportamiento observado (a menudo con la ayuda de expertos en negocios)
y dejar que esas hipótesis dicten los datos a analizar, y luego dejar
Los datos sugieren nuevas hipótesis para probar.
Una hipótesis es una explicación propuesta cuya validez puede ser probada por
Análisis de datos. Dichos datos pueden simplemente recopilarse por observación o generarse
a través de un experimento, como una campaña de marketing de prueba. Prueba de hipótesis
a veces revela que los supuestos que han estado guiando a una empresa
Las acciones son incorrectas. Por ejemplo, la publicidad de una empresa se basa en un número
de hipótesis sobre el mercado objetivo de un producto o servicio y la naturaleza de
las respuestas. Vale la pena probar si estas hipótesis son confirmadas por
respuestas reales
Dependiendo de las hipótesis, esto puede significar interpretar un solo valor
devuelto de una consulta simple, a través de una colección de reglas de asociación
generado por el análisis de la canasta de mercado, determinando la importancia de una
ción encontrada por un modelo de regresión o diseño de un experimento controlado. En todo
En los casos, es necesario un pensamiento crítico cuidadoso para asegurarse de que el resultado no esté 
sesgado
de maneras inesperadas La evaluación adecuada de los resultados de la minería de datos requiere tanto
Conocimientos analíticos y empresariales. Cuando estos no están presentes en la misma persona,
hacer un buen uso de la nueva información requiere una cooperación interfuncional.
Por su naturaleza, la prueba de hipótesis es ad hoc, pero el proceso tiene alguna identificación
pasos, el primero y más importante de los cuales es generar buenas hipótesis para probar.
Luego viene encontrar o generar datos para confirmar o refutar las hipótesis.
Generando Hipótesis
La clave para generar hipótesis es obtener información diversa de todo
la organización y, cuando corresponda, también fuera de ella. Los forasteros pueden
cuestionar las cosas que los de adentro dan por sentados, tal vez proporcionando

114
76
Capítulo 3 ■ El proceso de minería de datos
visión. A menudo, todo lo que se necesita para comenzar a fluir las ideas es una declaración clara de
el problema en sí mismo, especialmente si es algo que no ha sido previamente
reconocido como un problema
Más a menudo de lo que uno podría suponer, los problemas no se reconocen porque
no son capturados por las métricas utilizadas para evaluar el rendimiento. Si una empresa tiene
siempre midió su fuerza de ventas en función del número de nuevas ventas realizadas cada mes,
los vendedores pueden nunca haber pensado mucho en la cuestión de cómo
siempre nuevos clientes permanecen activos o cuánto gastan en el transcurso de
su relación. Sin embargo, cuando se le hacen las preguntas correctas, la fuerza de ventas puede
tener conocimientos sobre el comportamiento del cliente que el marketing, con su mayor distancia
del cliente, ha fallado.
El objetivo es proponer ideas que sean comprobables y procesables. Considerar
Las siguientes hipótesis:
■ La mayoría de los clientes que aceptan una oferta de retención se quedarían de todos modos.

■ Las familias con niños de secundaria tienen más probabilidades que otras de

responder a una oferta de línea de equidad de la vivienda.
■ Los clientes que compran tipos de productos más distintos tienen en general un mayor

gasto.
Todas estas proposiciones pueden o no ser ciertas, y en cada caso, saber
La respuesta sugiere alguna acción concreta. Si la primera hipótesis es cierta, pare
gastar dinero para retener clientes que no corren el riesgo de irse o encontrar un
mejor forma de orientar las ofertas de retención a los clientes que realmente van a
salir. Si la segunda hipótesis es cierta, continúe con el enfoque de marketing actual
en este grupo Si la tercera hipótesis es correcta, aliente a los vendedores a hacer
Más venta cruzada.
Prueba de hipótesis utilizando datos existentes
A menudo es posible probar una nueva hipótesis buscando evidencia en
información histórica. Por ejemplo, un fabricante de dispositivos médicos vendidos a hospitales.
tenía la hipótesis de que los clientes que compraron productos en múltiples categorías
tendía a gastar más. Como primer paso, analizaron las ventas promedio por número
de productos distintos y produjo el cuadro que se muestra en la Figura 3­3.
El cuadro muestra claramente que los clientes que compran muchos tipos de productos
generar sustancialmente más ingresos por cliente, pero no muestra
en qué medida la venta cruzada genera ingresos adicionales. Instituciones más grandes natu­
rally gastan más, y tal vez también es más probable que necesiten productos de
Múltiples categorías. Quizás los altos ingresos y múltiples categorías de productos son
ambos impulsados por el tamaño del cliente, algo que no está bajo el control de la compañía. Ese,
también, es una hipótesis comprobable: agrupe a los clientes por tamaño y tipo y busque un
relación entre productos distintos e ingresos dentro de cada grupo.

115 de 1189.
Capítulo 3 ■ El proceso de minería de datos 77
Figura 3­3: Los clientes que compran más tipos de productos gastan más dinero.
$ 0
$ 3,000,000
$ 6,000,000
$ 9,000,000
$ 12,000,000
$ 15,000,000
$ 18,000,000
$ 21,000,000
0 0
100
200
300
400
500
600
700
0 0
5 5
10
15
20
25
30
35
40
Ventas promedio por cliente
Numero de clientes
Cantidad de productos por cliente
Probar creencias arraigadas puede ser más difícil porque los datos históricos reflejan qué­
alguna vez se han hecho suposiciones en el pasado. Si familias con bachillerato
los niños siempre han sido seleccionados para un producto en particular, este hecho será
reflejado en tasas de adopción más altas para esas familias. Esto no prueba que
son el segmento más receptivo; algún otro grupo, como pequeñas empresas
propietarios, podrían haber respondido aún más. En tales casos, realizar un control
El experimento es aconsejable.
Pequeños cambios en qué y cómo se recopilan los datos pueden aumentar considerablemente su valor
para analizar. Por ejemplo, use diferentes direcciones web o números de llamada en
diferentes anuncios y realizar un seguimiento de cómo entra cada respuesta.
SUGERENCIA Cada vez que una empresa solicita una respuesta de sus clientes, ya sea
a través de la publicidad o una forma más directa de comunicación, tiene una
oportunidad de recopilar información. Ligeros cambios en el diseño de la
comunicación, como incluir una forma de identificar el canal cuando un
prospecto responde, puede aumentar considerablemente el valor de los datos recopilados.
Prueba de hipótesis y experimentación
Aunque muchas hipótesis pueden ser probadas contra datos históricos, muchas no pueden.
Tome la hipótesis de que las personas que aceptaron una oferta de retención tendrían
se quedó con o sin el atractivo adicional. Los datos históricos describen quién
recibió la oferta, quién la aceptó y quién terminó quedándose, pero a menos que
la campaña se configuró como un experimento adecuado con un grupo de control, no
responda la pregunta sobre qué hubiera pasado si la oferta no hubiera sido
hecho. Esta pregunta no puede responderse comparando la retención para aquellos que
recibió la oferta y aquellos que no lo hicieron porque los dos grupos casi con certeza
difieren en formas sistemáticas.

Page 116
78
Capítulo 3 ■ El proceso de minería de datos
Si la oferta fue dirigida a clientes considerados de alto riesgo de desgaste, entonces
las personas que no recibieron la oferta pueden tener una mejor retención incluso si la oferta
Realmente salvó una gran cantidad de clientes. Por otro lado, si la oferta se fue
para los clientes considerados particularmente valiosos, pueden tener una mejor retención
que los no destinatarios por razones que no tienen nada que ver con la oferta. Un válido
La prueba de la efectividad del programa requiere comparar dos grupos de
ers que son similares en todos los sentidos, excepto por lo que se está probando. Datos como
eso puede no ocurrir naturalmente, por lo que debe diseñar un experimento para generar
eso. El diseño y análisis experimental es un campo amplio en estadística. Esta sección
cubre algunos puntos clave sobre detalles específicos de las pruebas de marketing.
Prueba y control
El diseño experimental más básico consiste en crear dos grupos. Uno, conocido
como grupo de prueba o grupo de tratamiento , recibe algún tipo de tratamiento, como un
correo electrónico o llamada telefónica. El otro grupo, conocido como grupo de control , no recibe
el tratamiento. Los dos grupos se seleccionan para que sean lo más similares posible: el
misma edad promedio, el mismo ingreso promedio, la misma distribución de hombres y
mujeres, la misma distribución de la tenencia del cliente, y así sucesivamente. Eso puede sonar
minucioso, pero no lo es. Básicamente, elija un grupo general y luego al azar
dividirlo en el grupo de prueba y control. Mientras los grupos de prueba y control
son lo suficientemente grandes, las leyes de probabilidad aseguran que los grupos sean similares a
entre sí (y para toda la población). Si quieres asegurarte de que los grupos estén
representante de ciertos rasgos clave (por ejemplo, sexo y tenencia), luego clasifique la población
por estos campos y tomar cada n ­ésimo registro para el grupo control.
Después del experimento, cualquier diferencia significativa entre los grupos puede
con confianza se atribuirá al tratamiento. El Capítulo 4 explica el concepto de
significación estadística y cómo probarlo.
Pruebas A / B
Una prueba A / B compara dos (o posiblemente más) tratamientos. Los clientes son al azar
asignado al grupo A o al grupo B. Los dos grupos reciben tratamientos diferentes
como diferentes mensajes publicitarios, diseños de páginas web, precios o pagos
opciones. Las empresas con orientación analítica realizan rutinariamente pruebas A / B para determinar
el efecto de incluso cambios aparentemente menores porque pequeños cambios pueden tener
efectos grandes e imprevistos.
Una compañía minorista en línea descubrió que agregar una caja donde los clientes pudieran
ingresar un código de cupón de descuento redujo la proporción de clientes que hicieron
compras en un significativo 6.5 por ciento. La mayoría de los compradores no tenían cupones y
aparentemente la invitación a proporcionar un código de descuento causó que las personas sin uno
pensar que estaban recibiendo un mal trato. Quizás tales compradores fueron alentados
buscar un cupón en Google, posiblemente encontrando un mejor precio en el proceso.
Las pruebas A / B generalmente se asocian con marketing directo y basadas en la web
venta minorista porque en estos entornos controla qué clientes obtienen

Página 117
Capítulo 3 ■ El proceso de minería de datos 79
qué mensajes es relativamente simple. Las pruebas A / B también son útiles para personas menos dirigidas
tipos de publicidad como vallas publicitarias, radio y televisión. El truco es
para ejecutar diferentes campañas en mercados similares. Tales pruebas se llaman emparejadas
pruebas , porque dependen de pares de diferentes mercados (o ubicaciones de tiendas o
lo que sea) para ser lo más similar posible para fines de prueba. La mitad de
la pareja recibe el tratamiento y la otra mitad es el control. El capítulo 9 discute
pruebas pareadas con más detalle.
Pruebas de campeón / retador
Una forma común de prueba A / B compara un nuevo tratamiento, el retador , con
El tratamiento existente, el campeón . Esta idea a menudo se aplica a la minería de datos.
modelos utilizados para puntuar clientes. El nuevo modelo no debe adoptarse hasta que
se muestra que es mejor que el anterior.
Amazon.com es particularmente experto en esta forma de prueba A / B. Todo en
su sitio web: desde la colocación de reseñas de productos y descripciones de productos
al número de comentarios de usuarios y palabras clave: se ha probado con
"Campeón" mejor diseño. En el entorno en vivo de Amazon, los visitantes del sitio web
se eligen al azar para que el grupo de prueba vea un diseño modificado. Después de unos cuantos
horas o días, se han reunido suficientes datos para sugerir si la prueba
Las modificaciones en el diseño producen mayores o menores ventas que el campeón.
Si las mejoras son significativas, la prueba se convierte en el nuevo campeón.
Estudio de caso en pruebas de hipótesis: medición de la cosa incorrecta
Esta es una historia sobre una compañía que hace software de recomendación para minoristas.
ing sitios web. Sus clientes, los minoristas, dejan algunas áreas en blanco en una web particular
páginas, como las páginas de productos, el carrito de compras y las páginas de pago. los
el software de recomendaciones proporciona recomendaciones de productos para completar el
espacios en blanco cuando los clientes compran en el sitio. Cuando un cliente compra
El artículo recomendado, la compañía de software hace una comisión. La meta,
por supuesto, es aumentar las ventas generales en el sitio, lo que beneficia a los minoristas
y los alienta a seguir usando el software de recomendación.
La compañía de software tenía un enigma: según todas sus métricas, su
Las recomendaciones fueron mejorando año tras año. Más clientes fueron click­
ing y comprar los artículos recomendados. Sin embargo, los minoristas se quejaron
que los ingresos no aumentaron tanto como se esperaba. En algunas pruebas cara a cara,
el sofisticado software de recomendación no funcionaba tan bien
Reglas generales desarrolladas por los clientes.
Este no es un problema bien formado para la minería de datos dirigida. Cuál es el
variable objetivo? Tampoco es un buen candidato para la búsqueda de patrones no dirigidos;
El patrón es demasiado claro. Es un ajuste perfecto para la prueba de hipótesis. Los datos
El trabajo del minero era hacer una lluvia de ideas sobre lo que podría estar yendo mal y luego probar
Las hipótesis resultantes.

118
80
Capítulo 3 ■ El proceso de minería de datos
La compañía de software se acercó a Data Miners (la compañía consultora
fundado por los autores) para ayudar a dar sentido a este enigma. Recibimos
datos de una prueba A / B que arrojaron resultados decepcionantes. En una prueba A / B,
la mitad de los compradores fueron seleccionados al azar para recibir recomendaciones de
la empresa mientras que la otra mitad recibió recomendaciones competitivas
del minorista. Estos datos incluyen una tabla de líneas de pedido con detalles sobre cada
artículo como su precio, categoría de producto y, en los casos en que el comprador tenía
hizo clic en una recomendación para el producto, una ID de clic. Por cada clic, un clic
la tabla mostró cuál de varios algoritmos de recomendación había generado
la recomendación y qué artículo había estado mirando el comprador cuando
Se hizo una recomendación.
Mediante consultas SQL simples, encontramos que los clientes del lado de nuestro cliente
la prueba hizo clic en más recomendaciones y, en ambos lados de la prueba,
los clientes que hicieron clic tenían más probabilidades de realizar una compra. Más compras
Debería significar más dinero. Y más dinero debería significar que los minoristas están contentos.
¿Cómo podría perder el lado A, el lado de nuestro cliente, dadas estas métricas? los
La primera pista fue que el precio promedio de los artículos en los que se hizo clic fue menor en el lado A.
que el lado B. Nuestra primera hipótesis fue que A estaba recomendando una diferente
mezcla de productos que B, pero eso fue fácilmente refutado. Seguimos probando otros
hipótesis hasta que encontramos dos que, juntos, explicaron lo que estaba sucediendo:
■ Las recomendaciones del lado A produjeron más sustituciones y menos

venta cruzada.
■ Muchas de las recomendaciones del lado A fueron ventas negativas.

Las ventas cruzadas son cuando los consumidores compran productos recomendados además de
productos que ya están considerando, lo que resulta en una compra total mayor.
Una sustitución es cuando los consumidores compran productos recomendados en lugar de
los originales Una venta cruzada es más valiosa para el minorista porque aumenta
la cantidad que gasta el cliente. Sin embargo, la comisión de nuestro cliente fue solo
según si el consumidor final compró o no su recomendación.
El minorista diseñó sus recomendaciones para generar ventas cruzadas. Donde se
recomendó sustituciones, el producto recomendado fue casi siempre
algo más caro: venta superior. En comparación, las recomendaciones de nuestros clientes.
se vendieron en promedio.
Nuestra conclusión fue que nuestro cliente había estado midiendo lo incorrecto. Sus
recomendaciones "mejoradas" con el tiempo en el sentido de atraer más clics,
pero los clics no son útiles por sí mismos. La forma más fácil de atraer clics es mostrar
Los compradores sustituyen más barato los artículos que están viendo. Este comportamiento
comisiones generadas para nuestro cliente, pero (sin darse cuenta) a expensas de la
minorista que terminó vendiendo un artículo más barato y pagando una comisión por el
¡privilegio! Recomendamos que la compañía de software cambie su comisión
estructura para que sea recompensado por ingresos incrementales en lugar de clics:
Un resultado valioso de la minería de datos utilizando pruebas de hipótesis.

Page 119
Capítulo 3 ■ El proceso de minería de datos 81
Minería de datos dirigida
La minería de datos dirigida es otro estilo de minería de datos. Minería de datos dirigida
se centra en una o más variables que son objetivos, y el con­ tenido de datos históricos
contiene ejemplos de todos los valores objetivo. En otras palabras, minería de datos dirigida
no busca cualquier patrón en los datos, sino patrones que explican el
valores objetivo Un ejemplo muy típico es el modelado de retención. Los datos históricos
contiene ejemplos de clientes que están activos y otros que se han detenido.
El objetivo de la minería de datos dirigida es encontrar patrones que diferencien entre
factores que hacen que los clientes se vayan y que los clientes se queden.
En estadística, el término modelado predictivo se usa a menudo para la minería de datos dirigida.
En opinión de los autores, esto es un poco inapropiado, porque aunque predictivo
el modelado es definitivamente un aspecto de la minería de datos dirigida, tiene otros aspectos, como
bien. El capítulo 5 distingue entre modelado predictivo y modelado de perfil,
basado en la relación temporal entre la variable objetivo y las entradas.
El modelado predictivo es específicamente cuando el objetivo proviene de un marco de tiempo
más tarde que las entradas; el modelado de perfil es específicamente cuando el objetivo y las entradas
provienen del mismo marco de tiempo.
Minería de datos no dirigida
La minería de datos no dirigida es un estilo de minería de datos que no utiliza una variable de destino
capaz, al menos no explícitamente. En la minería de datos dirigida, diferentes variables juegan diferentes
papeles diferentes. Las variables objetivo son los objetos de estudio; el resto de las variables son
Se utiliza para explicar o predecir los valores de los objetivos. En la minería de datos no dirigida,
No hay roles especiales. El objetivo es encontrar patrones generales. Después de que los patrones tienen
detectado, es responsabilidad de una persona interpretarlo y decidir
si son útiles
El término no dirigido en realidad puede ser un poco engañoso. Aunque no hay objetivo
se utiliza la variable, los objetivos comerciales aún deben abordarse. Los objetivos de negocio
abordado por la minería de datos no dirigida puede sonar tan dirigido como cualquier otro
metas; "Encontrar ejemplos de fraude" es un ejemplo de un objetivo comercial que podría llamarse
para minería de datos dirigida o no dirigida dependiendo de si la capacitación
los datos contienen transacciones fraudulentas identificadas. Un enfoque dirigido
buscar nuevos registros que sean similares a los casos que se sabe que son fraudulentos. Un
el enfoque no dirigido buscaría nuevos registros que sean inusuales.
El aumento del tamaño promedio de los pedidos es otro ejemplo de un objetivo comercial que
podría abordarse utilizando minería de datos no dirigida. Reglas de asociación, un indi­
técnica de minería de datos recitada, revelar patrones sobre qué elementos son frecuentemente
se venden juntos Esta información podría usarse para aumentar el tamaño de los pedidos a través de
venta cruzada mejorada.
A veces, los objetivos comerciales en sí pueden ser un poco vagos y los datos
El esfuerzo minero es una forma de refinarlos. Por ejemplo, una empresa podría tener un objetivo

120
82
Capítulo 3 ■ El proceso de minería de datos
de desarrollar servicios especializados para diferentes segmentos de clientes sin tener
Una idea clara de cómo deben segmentarse los clientes. Agrupamiento, un no dirigido
técnica de minería de datos, podría utilizarse para descubrir segmentos de clientes. Estudiando
los segmentos pueden dar una idea de lo que los miembros del segmento tienen en común,
lo que a su vez podría sugerir necesidades comunes que un nuevo producto podría abordar.

Objetivos, tareas y técnicas
Un consultor de minería de datos que los autores conocen dice que vive con miedo a los clientes.
leyendo un artículo de revista que menciona alguna técnica particular de minería de datos
por nombre. Cuando un vicepresidente de marketing comienza a preguntar sobre redes neuronales
versus máquinas de vectores de soporte, probablemente sea hora de restablecer la conversación. Datos
la minería siempre comienza con un objetivo comercial, y el primer trabajo del minero de datos es
para obtener una buena comprensión de ese objetivo. Este paso requiere una buena comunicación.
relación entre las personas de la alta gerencia que establecen las metas y los analistas
responsable de traducir esos objetivos en tareas de minería de datos. El siguiente trabajo es
para reformular el objetivo comercial en términos de tareas de minería de datos, y solo entonces son
Técnicas particulares de minería de datos seleccionadas.
Objetivos comerciales de minería de datos
Las aplicaciones de minería de datos en el capítulo anterior proporcionan varias buenas
ejemplos de objetivos comerciales:
■ Elija los mejores lugares para anunciar.

■ Encuentre las mejores ubicaciones para sucursales o tiendas.

■ Adquiera clientes más rentables.

■ Disminuir la exposición al riesgo de incumplimiento.

■ Mejorar la retención de clientes.

■ Detectar reclamos fraudulentos.

El resto de este libro también contiene muchos ejemplos de minería de datos en uso.
en el mundo real para resolver problemas reales. No todos los objetivos comerciales se prestan
a la minería de datos directamente; a veces necesitan convertirse en minería de datos
objetivos de negocio. Para que la minería de datos sea exitosa, el objetivo comercial debe ser
bien definido y dirigido a esfuerzos particulares que sean susceptibles de análisis
sis utilizando los datos disponibles. Un objetivo comercial de minería de datos generalmente se puede 
expresar
en términos de algo medible, como ingresos incrementales, tasa de respuesta,
tamaño del pedido o tiempo de espera.
Alcanzar cualquiera de estos objetivos requiere más que solo minería de datos, por supuesto, pero
La minería de datos tiene un papel importante que desempeñar. El primer paso es diseñar un alto nivel

Page 121
Capítulo 3 ■ El proceso de minería de datos 83
aproximación al problema. Para adquirir clientes más rentables, puede comenzar
al aprender qué impulsa la rentabilidad para los clientes existentes y luego reclutar
Nuevos clientes con las características adecuadas. Disminución de la exposición al riesgo crediticio
podría significar predecir cuáles de los clientes actualmente en buen estado son
es probable que salga mal y disminuya preventivamente sus líneas de crédito. Mejora de cus­
la retención de mañana podría centrarse en mejorar la experiencia de los clientes existentes
o al reclutar nuevos clientes con tenencias más largas esperadas. El alto nivel
El enfoque sugiere tareas de modelado particulares.
Tareas de minería de datos
Las tareas de minería de datos son actividades técnicas que se pueden describir de forma independiente.
de cualquier objetivo comercial particular. Si un objetivo comercial es adecuado para la minería de datos,
Por lo general, puede expresarse en términos de las siguientes tareas:
■ Preparación de datos para minería

■ Análisis de datos exploratorios.

■ Modelado de respuesta binaria (también llamada clasificación binaria)

■ Clasificación de valores discretos y predicciones.

■ Estimación de valores numéricos.

■ Encontrar grupos y asociaciones

■ Aplicar un modelo a nuevos datos.

Los proyectos de minería de datos generalmente involucran varias de estas tareas. Toma el ejemplo de
decidir qué clientes incluir en una campaña de marketing directo. Exploratorio
El análisis de datos sugiere qué variables son importantes para caracterizar al cliente
respuesta. Estas variables podrían utilizarse para encontrar grupos de clientes similares.
La asignación de clúster de un cliente podría ser una variable explicativa importante en
Un modelo de respuesta binaria. Y, por supuesto, el objetivo de crear el modelo.
es aplicarlo a los nuevos datos que representan clientes potenciales para calificarlos para
propensión a responder a la campaña.
Preparación de datos para minería
La preparación de datos para la minería es el tema de los capítulos 18 a 20. El
la cantidad de esfuerzo requerida depende de la naturaleza de las fuentes de datos y
los requisitos de técnicas particulares de minería de datos. Algunos datos prepa­
casi siempre se requiere ración y no es inusual para la preparación de datos
ser la parte más lenta de un proyecto de minería de datos. Algunos datos
se requiere preparación para solucionar problemas con los datos de origen, pero gran parte de
Está diseñado para mejorar el contenido de información de los datos. Mejores datos
significa mejores modelos.

Page 122
84
Capítulo 3 ■ El proceso de minería de datos
Por lo general, los datos de una variedad de fuentes deben combinarse para formar un cliente
firma con un registro por cliente y una gran cantidad de campos para capturar
todo de interés sobre ellos. Debido a que los datos de origen generalmente no están en el
A nivel del cliente, construir la firma del cliente requiere muchas transformaciones.
Las transacciones deben resumirse de formas útiles. Tendencias en series temporales podrían
ser capturado como pendientes o diferencias. Para técnicas de minería de datos que solo funcionan
en números, los datos categóricos deben de alguna manera representarse numéricamente. Algunos
las técnicas de minería de datos no pueden manejar valores perdidos, por lo que los valores faltantes deben
de alguna manera ser tratado; Lo mismo ocurre con los valores atípicos. Cuando algunos resultados son raros,
Puede ser necesario utilizar un muestreo estratificado para equilibrar los datos. Cuando las variables
se miden en diferentes escalas, también puede ser necesario estandarizarlas.
La preparación de datos puede implicar la creación de nuevas variables combinando las existentes.
variables de manera creativa. También puede implicar la reducción del número de variables.
utilizando componentes principales y otras técnicas.
Análisis exploratorio de datos
El análisis exploratorio de datos no es un enfoque principal de este libro, pero eso no es porque
Creemos que no es importante. De hecho, uno de los autores (Gordon) ha escrito un
libro dedicado en gran medida a esta tarea de minería de datos: Análisis de datos con SQL
y Excel . El producto del análisis exploratorio de datos puede ser un informe o una recopilación
ción de gráficos que describen algo de interés. El análisis exploratorio de datos puede
También se puede utilizar para agregar nuevas medidas y variables en los datos.
La elaboración de perfiles es un enfoque familiar para muchos problemas, y no necesita involucrar
cualquier algoritmo sofisticado de minería de datos. Los perfiles a menudo se basan en
variables demográficas, como ubicación geográfica, sexo y edad. Porque
la publicidad se vende de acuerdo con estas mismas variables, los perfiles demográficos pueden
convertirse directamente en estrategias de medios. Se utilizan perfiles simples para establecer seguros
primas Un hombre de 17 años paga más por el seguro del automóvil que un hombre de 60 años.
hembra. Del mismo modo, el formulario de solicitud para una póliza de seguro de vida a término simple
pregunta sobre la edad, el sexo y el tabaquismo, y no mucho más.
Por poderoso que sea, la creación de perfiles tiene serias limitaciones. Uno es la incapacidad
para distinguir causa y efecto. Siempre y cuando el perfil se base en familiar
variables demográficas, esto no se nota. Si los hombres compran más cerveza que
mujeres, no tenemos que preguntarnos si beber cerveza podría ser la causa
de masculinidad. Podemos suponer con seguridad que el vínculo es de hombres a cerveza y no
viceversa.
Con los datos de comportamiento, la dirección de la causalidad no siempre es tan clara. Considerar
Un par de ejemplos de proyectos de minería de datos reales:
■ Las personas que han comprado certificados de depósito (CD) tienen poco o nada

dinero en sus cuentas de ahorro.
■ Los clientes que usan el correo de voz hacen muchas llamadas cortas a su propio número.

123
Capítulo 3 ■ El proceso de minería de datos 85
No guardar dinero en una cuenta de ahorros es un comportamiento común de CD
titulares, al igual que ser hombre es una característica común de los bebedores de cerveza. Compañías 
cerveceras
buscar hombres para comercializar su producto, por lo que los bancos deben buscar personas con
¿No tiene dinero en ahorros para venderles certificados de depósito? ¡Probablemente no!
Presumiblemente, los titulares de CD no tienen dinero en sus cuentas de ahorro porque
usaron ese dinero para comprar CD. Una razón más común para no tener dinero.
en una cuenta de ahorro no hay dinero, y las personas sin dinero
No son buenas perspectivas para las cuentas de inversión. Del mismo modo, los usuarios del correo de voz 
llaman
tanto su propio número porque en este sistema en particular esa es una forma de
revise el correo de voz. El patrón es inútil para encontrar posibles usuarios.
Modelado de respuesta binaria (clasificación binaria)
Muchos objetivos comerciales se reducen a la separación de dos categorías entre sí:
bueno de lo malo, las ovejas de las cabras, o (a riesgo de ser sexista y
ageist) los hombres de los niños. En una campaña de marketing directo, los buenos responden
y los malos no. Cuando se extiende el crédito, el bien paga lo que se debe y
El mal incumplimiento. Cuando se presentan reclamos, los buenos son válidos y los malos son
fraudulento. Existen técnicas, como la regresión logística, que están especializadas.
para este tipo de modelos sí o no.
Dependiendo de la aplicación, una puntuación de modelo de respuesta puede ser la etiqueta de clase
sí mismo o una estimación de la probabilidad de estar en la clase de interés. Un credito
compañía de tarjetas que quiere vender espacios publicitarios en sus sobres de facturación a un esquí
El fabricante de arranque puede construir un modelo de clasificación que ponga todo su portatarjetas
Entra en una de dos clases, esquiador o no esquiador. Más típicamente, asignaría
cada titular de tarjeta tiene una puntuación de propensión a esquiar. Cualquier persona con un puntaje mayor 
o
igual a algún umbral se clasifica como esquiador, y cualquier persona con una puntuación más baja
Se considera que no es un esquiador.
El enfoque de estimación tiene la gran ventaja de que los registros individuales
se puede ordenar de acuerdo a la estimación. Para ver la importancia de esto,
imagine que la compañía de botas de esquí ha presupuestado un envío de 500,000 piezas.
Si se utiliza el enfoque de clasificación y se identifican 1,5 millones de esquiadores, entonces
podría simplemente colocar el anuncio en las facturas de 500,000 personas seleccionadas al azar
De esa piscina. Si, por otro lado, cada titular de la tarjeta tiene una propensión a esquiar
puntaje, puede contactar a los 500,000 candidatos más probables.
Clasificación
La clasificación, una de las tareas de minería de datos más comunes, parece ser humana
imperativo. Para entender y comunicarnos sobre el mundo, estamos constantemente
clasificar, categorizar y calificar. Dividimos los seres vivos en phyla,
especies y géneros; materia en elementos; perros en razas; personas en razas;
filetes y jarabe de arce en grados USDA.

Page 124
86
Capítulo 3 ■ El proceso de minería de datos
La clasificación consiste en asignar un objeto recién presentado a uno de un conjunto
de clases predefinidas. La tarea de clasificación se caracteriza por un bien definido
definición de las clases y un conjunto de modelos que consiste en ejemplos preclasificados.
La tarea es construir un modelo de algún tipo que pueda aplicarse a personas no clasificadas
datos para clasificarlos.
Ejemplos de tareas de clasificación que se han abordado utilizando las técnicas.
descritos en este libro incluyen:
■ Clasificar a los solicitantes de crédito como de riesgo bajo, medio o alto

■ Elegir el contenido que se mostrará en una página web

■ Determinar qué números de teléfono corresponden a máquinas de fax, cuáles

a líneas de voz, y que se comparten
■ Detectar reclamos de seguro fraudulentos

■ Asignación de códigos industriales y designaciones de trabajo en base a texto libre

descripciones de trabajo
En todos estos ejemplos, hay un número limitado de clases, y la tarea es
para asignar cualquier registro en uno u otro de ellos.
Estimacion
La clasificación se ocupa de resultados discretos: sí o no; sarampión, rubéola o pollo
viruela. La estimación se ocupa de resultados valorados continuamente. Dada alguna entrada
datos, la estimación genera un valor para alguna variable continua desconocida
como ingresos, tamaño del pedido o saldo de la tarjeta de crédito.
Los ejemplos de tareas de estimación incluyen:
■ Estimación del ingreso familiar total de una familia

■ Estimación del valor de vida de un cliente.

■ Estimación del valor en riesgo si un cliente incumple

■ Estimar la probabilidad de que alguien responda a una transferencia de saldo

solicitación
■ Estimación del tamaño del saldo a transferir

El producto de las estimaciones creadas en los últimos dos puntos es el esperado
valor de la oferta de transferencia de saldo. Si el valor esperado es menor que el costo de
Al hacer la oferta, la solicitud no debe hacerse.
Encontrar clústeres, asociaciones y grupos de afinidad
Determinar qué cosas van juntas en un carrito de compras en el supermercado,
y encontrar grupos de compradores con hábitos de compra similares son exámenes
ples de minería de datos no dirigida. Los productos que tienden a venderse juntos se llaman

125
Capítulo 3 ■ El proceso de minería de datos 87
Los grupos de afinidad y los clientes con comportamientos similares comprenden segmentos de mercado .
Los minoristas pueden usar la agrupación por afinidad para planificar la disposición de los artículos en la 
tienda
estantes o en un catálogo para que los artículos que se compran juntos se vean en
al mismo tiempo. El personal de marketing puede diseñar productos y servicios para atraer
a segmentos particulares.
La agrupación de afinidad es un enfoque simple para generar reglas a partir de datos.
Si dos elementos, digamos comida para gatos y arena para gatos, ocurren juntos con suficiente frecuencia,
Puede pensar en cómo utilizar esta información en campañas de marketing. También
trae a colación otro problema: ¿qué no compran los clientes que deberían? UNA
el cliente que compra mucha arena para gatos también debe comprar comida para gatos, donde
¿Lo están entendiendo?
La agrupación es la tarea de segmentar una población heterogénea en un número
de subgrupos o grupos más homogéneos. Lo que distingue la agrupación
Según la clasificación, la agrupación no se basa en clases predefinidas. En
clasificación, a cada registro se le asigna una clase predefinida sobre la base de un modelo
desarrollado a través de la capacitación en ejemplos preclasificados.
En la agrupación, no hay clases predefinidas ni ejemplos. Los registros son
agrupados en base a la autosimilitud. Depende del usuario determinar
qué significado, si lo hay, asociar a los grupos resultantes. Grupos de síntomas
podría indicar diferentes enfermedades. Los grupos de atributos del cliente pueden indicar
diferentes segmentos del mercado
La agrupación suele ser un preludio de alguna otra forma de minería de datos o modelo.
En g. Por ejemplo, la agrupación podría ser el primer paso en una segmentación del mercado
esfuerzo: en lugar de tratar de llegar a una regla única para "qué tipo
de promoción, ¿responden mejor los clientes? ”, primero divida la base de clientes
en grupos o personas con hábitos de compra similares, y luego pregunte qué tipo de
La promoción funciona mejor para cada grupo. Los capítulos 13 y 14 cubren técnicas para
detección de conglomerados en detalle.
Aplicar un modelo a nuevos datos
Muchas de las tareas enumeradas anteriormente generalmente implican la aplicación de un modelo a nuevos 
datos.
Esto no es cierto para el análisis exploratorio de datos, y puede o no ser cierto para
agrupamiento, pero para el modelado de respuesta binaria, clasificación y estimación, el
Los datos utilizados para crear el modelo contienen valores conocidos de la variable objetivo. Uno
razón para aplicar un modelo a datos donde el valor objetivo ya se conoce
es evaluar el modelo. Una vez que se ha implementado el modelo, su propósito es
puntuar nuevos datos donde se estimará la probabilidad de respuesta, clase o valor
es desconocido.
La aplicación de un modelo a nuevos datos se denomina puntuación . Los datos a puntuar deben
contener todas las variables de entrada requeridas por el modelo junto con un único
identificador para cada fila. El resultado de la puntuación es una nueva tabla con al menos dos
columnas: el identificador y la puntuación.

Page 126
88
Capítulo 3 ■ El proceso de minería de datos
Técnicas de minería de datos
El título de este libro comienza con "Técnicas de minería de datos", y la mayoría de los
Los capítulos describen técnicas individuales.
En muchos casos, la minería de datos se logra mediante la creación de modelos. En un sentido
de la palabra, un modelo es una explicación o descripción de cómo funciona algo
eso refleja la realidad lo suficientemente bien como para que pueda usarse para hacer inferencias sobre el
mundo real. Sin darse cuenta, los seres humanos usan modelos todo el tiempo. Cuando
ves dos restaurantes y decides que el que tiene manteles blancos y
las flores reales en cada mesa son más caras que las de las mesas de formica
y flores de plástico, estás haciendo una inferencia basada en un modelo que llevas
en tu cabeza basado en tu experiencia pasada. Cuando te pones a caminar hacia uno
de los restaurantes, vuelve a consultar un modelo mental de la ciudad.
En un sentido más técnico de la palabra, un modelo es algo que usa datos
para clasificar cosas, hacer predicciones, estimar valores o producir algún otro
Resultado útil. Como se muestra en la Figura 3­4, casi todo lo que se puede aplicar
a los datos para producir una puntuación de algún tipo se ajusta a la definición de un modelo.
Figura 3­4: Los modelos toman una entrada y producen una salida.
Modelo
Entradas
Salida
Un modelo de minería de datos tiene dos propósitos. El primer propósito es producir
puntajes que puede usar para guiar las decisiones. El segundo es proporcionar información sobre
La relación entre las variables explicativas utilizadas para construir el modelo y
el objetivo. Dependiendo de la aplicación, uno u otro de estos propósitos
puede ser más importante que el otro
Las técnicas de minería de datos se dividen en dos categorías: pueden ser dirigidas
o no dirigido, lo que significa respectivamente si las técnicas requieren
o no requieren variables objetivo. Las técnicas dirigidas y no dirigidas deberían
no debe confundirse con la minería de datos dirigida y no dirigida, porque ambos tipos
de técnicas se pueden utilizar para ambos tipos de minería de datos.

Formulación de problemas de minería de datos: de objetivos a
Tareas a Técnicas
Los objetivos comerciales, las tareas de minería de datos y las técnicas de minería de datos forman un tipo
de escalera de lo general a lo específico y de lo no técnico a lo técnico.
Formular un problema de minería de datos implica descender esta escalera un paso

Page 127
Capítulo 3 ■ El proceso de minería de datos 89
a la vez; pasar primero de los objetivos comerciales a las tareas de minería de datos y luego de
tareas de minería de datos a técnicas de minería de datos. Por lo general, cada paso requiere el
participación de diferentes miembros del personal con diferentes conjuntos de habilidades. Establecer y 
priorizar
los objetivos son responsabilidad de la alta dirección. Traduciendo estos objetivos a
las tareas de minería de datos y el uso de técnicas de minería de datos para lograrlas es la
papel de los mineros de datos. Recopilar los datos necesarios y transformarlos en un traje.
El formulario apto para la minería a menudo requiere cooperación con los administradores de bases de datos
y otros miembros del grupo de tecnología de la información.
Elegir los mejores lugares para anunciar
Una empresa está tratando de llegar a nuevos clientes rentables. ¿Dónde debería mirar?
¿AdWords de Google? ¿Un reality show sobre cocina? ¿Una revista? Si es así, cuál
¿uno? Resumen arquitectónico ? People en Español ? Rolling Stone ?
Muchos factores afectan la decisión, incluidos el costo general, el costo por impresión,
y costo por conversión. La minería de datos puede proporcionar información para la decisión al
emparejar la demografía del vehículo publicitario con la demografía de
Los mejores clientes. Los datos de comportamiento para los clientes rentables no ayudan,
porque la publicidad se basa solo en datos demográficos.
Un posible enfoque es:
1. Perfile a los clientes rentables existentes utilizando datos demográficos y geográficos
características como edad, sexo, ocupación, estado civil y vecindario
características Utilice este perfil para definir el cliente rentable prototípico.
2. Defina la audiencia de cada vehículo publicitario potencial usando el mismo
variables utilizadas para perfilar clientes rentables.
3. Estime la distancia desde cada canal publicitario hasta el prototipo
cliente rentable Esta distancia es la similitud del canal publicitario.
Puntuación; como en el golf, más pequeño es mejor.
4. Anuncie en los lugares con las puntuaciones más bajas.
Este es un ejemplo de un modelo de similitud, que se trata en el Capítulo 6.
Determinar el mejor producto para ofrecer a un cliente
¿Cuál es la mejor próxima oferta para hacerle a un cliente? Esta pregunta es un ejemplo.
de venta cruzada que ocurre en muchas industrias.
Existen varios enfoques posibles para este problema, dependiendo, entre
otras cosas, en la cantidad de productos para elegir. Si el número de productos
ucts es manejablemente pequeño, un buen enfoque es construir un modelo separado para cada
producto para que cada cliente pueda recibir tantos puntajes como productos, como
se muestra en la figura 3­5. La mejor oferta de un cliente es el producto por el cual él o ella
tiene el puntaje más alto (posiblemente excluyendo productos que el cliente ya tiene).

Page 128
90
Capítulo 3 ■ El proceso de minería de datos
1. Para cada producto, cree un modelo de respuesta binaria para estimar la propensión
de clientes para el producto.
2. Establezca el puntaje de propensión a 0 para los clientes que ya tienen un producto.
3. Usando los puntajes de propensión, diseñe un procedimiento de decisión que asigne
el mejor producto para cada cliente, basado en algo como lo más alto
propensión o el mayor beneficio esperado.
Las opciones naturales para el Paso 1 incluyen árboles de decisión, redes neuronales y logística
regresión.
Figura 3­5: Se comparan las puntuaciones de propensión individual para cada producto para determinar
la mejor oferta.
Producto 6
Producto 7
Producto 1
Producto 2
Producto 3
Producto 4
Producto 5
Comparar puntajes
Mejor oferta
Un modelo de respuesta binaria no es el único método para desarrollar propensión
puntuaciones. Otro método es agrupar los datos usando variables de entrada y ver
qué productos predominan en cada grupo. La proporción del grupo con
un producto determinado puede asignarse como puntaje de propensión. Este método
use k­means clustering u otra técnica de clustering.
Encontrar las mejores ubicaciones para sucursales o tiendas
¿Cuáles son las mejores ubicaciones para nuevas tiendas? En este escenario, los datos de rendimiento
para las tiendas existentes está disponible junto con datos sobre el área de captación: el
Área de mercado natural de la cual cada tienda atrae a sus clientes. La idea es
encuentra la combinación de variables explicativas que predice un buen rendimiento
para una tienda
Las siguientes tareas de modelado son un enfoque para abordar este problema:
1. Cree un modelo para estimar algunas métricas de rendimiento de la tienda basadas en
Variables explicativas disponibles para el área de captación.
2. Aplique el modelo a las ubicaciones candidatas para que las ubicaciones con la puntuación más alta
Se puede seleccionar.

Page 129
Capítulo 3 ■ El proceso de minería de datos 91
Este es básicamente un modelo de estimación, que puede usar una variedad de técnicas,
tales como redes neuronales, regresión o MBR.
Un enfoque alternativo es clasificar las tiendas como buenas o malas, y luego
construya un modelo que prediga estos grupos. A menudo, una buena manera de abordar esto
está utilizando el enfoque intermedio excluido : la rentabilidad de cada tienda se divide
en tercios: alto, medio y bajo. Eliminar las tiendas "medianas" y construir
un modelo para separar lo alto de lo bajo (un estudio de caso en el Capítulo 15 toma esto
enfoque para encontrar los factores que distinguen a las tiendas en áreas hispanas de
aquellos en áreas no hispanas):
1. Clasifique las tiendas existentes como buenas o malas y cree un modelo que pueda distinguir
Guish entre las dos clases.
2. Aplique el modelo a las ubicaciones candidatas para que se pueda seleccionar el bueno.
Las variables explicativas probables incluyen la población dentro de la distancia de conducción,
El número de competidores dentro de la distancia de conducción y los factores demográficos.
Este es un modelo de perfil porque el objetivo es vincular el rendimiento actual con
condiciones actuales. Las técnicas de modelado son las utilizadas para la clasificación,
tales como regresión logística, árboles de decisión y MBR.
Segmentación de clientes en rentabilidad futura
Se ha establecido un método para definir la rentabilidad, como el total
ingresos o ingresos netos generados por los clientes en el transcurso de un año.
El objetivo es segmentar a los clientes hoy en función de su rentabilidad anticipada
durante el próximo año.
Hay muchas formas de abordar los cálculos de rentabilidad. Este enfoque
elimina algunas de las áreas más difíciles, como predecir cuánto tiempo un cliente
seguirá siendo un cliente (y, por lo tanto, decidirá sobre las tasas de descuento futuras) y cómo
atribuir efectos de red a los clientes.
Para este enfoque, retroceda el reloj un año y tome una instantánea de cada
cliente que estaba activo en esa fecha. Luego, mida el ingreso total durante
el año siguiente. Este es el modelo:
1. Prepare los datos para modelar haciendo retroceder el reloj un año y
tomando una instantánea de cada cliente que estaba activo en esa fecha. Entonces,
medir el ingreso total durante el año siguiente. Esto crea un pre
conjunto de modelos de dicción.
2. Use este conjunto de modelos para estimar cuánto valdrá alguien en el
el próximo año.
3. Segmente los ingresos anticipados en tercios, para obtener altos, medios y
Bajos ingresos anticipados.
El paso 2 requiere la construcción de un modelo de estimación, utilizando una técnica como la neural
redes, MBR o regresión.

130
92
Capítulo 3 ■ El proceso de minería de datos
Una ligera variación en este enfoque sería clasificar a los clientes en
el modelo establecido como generadores de ingresos altos, medios o bajos en el próximo
año. Esto usaría un modelo de clasificación, que podría usar árboles de decisión
(con un objetivo de tres vías) o tres modelos de regresión logística (uno para cada uno de
los tres grupos).
Exposición decreciente al riesgo de incumplimiento
El objetivo de este problema empresarial es detectar señales de advertencia por defecto mientras
Todavía hay tiempo para tomar medidas para disminuir la exposición. Un método de detección utiliza
un modelo de respuesta binaria, con un objetivo de "predeterminado". El conjunto de modelos es una 
instantánea
de todos los clientes en un momento dado (por ejemplo, el primero del año) y
una bandera que indica si están predeterminados o no en los tres meses posteriores a la
fecha de la instantánea Los nuevos clientes se pueden puntuar con la respuesta binaria.
modelo para predecir su probabilidad de incumplimiento. Quizás clientes con altos niveles
de incumplimiento debería tener sus líneas de crédito bajadas.
Tal modelo de respuesta binaria podría construirse utilizando una variedad de técnicas, como
como regresión logística, árboles de decisión o redes neuronales. Técnicas no dirigidas,
como la agrupación, incluso podría usarse. Crear grupos en las variables de entrada, y
luego mida la capacidad de los grupos para separar los valores objetivo. Esto es un
ejemplo de uso de una técnica no dirigida para un modelo dirigido.
Otro enfoque combina la probabilidad de incumplimiento con la cantidad
de incumplimiento Este modelo de dos etapas estima cuánto haría un cliente
deber después del incumplimiento. El modelo establecido para esto consiste solo en clientes que
han incumplido, siendo el objetivo la cantidad adeudada. Este modelo
ser usado para calcular el valor esperado de la pérdida, que es la probabilidad
de incumplimiento multiplicado por la cantidad estimada adeudada. La estimación de la
la cantidad adeudada podría construirse usando MBR, redes neuronales, regresión o
posiblemente árboles de decisión.
Otro enfoque sería tratar esto como un problema de tiempo hasta el evento, estimado
apareamiento cuando es probable que un cliente falle. En este caso, el conjunto de modelos consiste
de todos los clientes, con su fecha de inicio, fecha de finalización y si el cliente
por defecto. El modelo estimaría la cantidad de tiempo hasta que un cliente incumple.
Al calificar a nuevos clientes, si el tiempo estimado para el incumplimiento está cerca
futuro, entonces se tomarían medidas para mitigar el valor predeterminado. Este tipo de modelo
típicamente se construiría usando análisis de supervivencia.

Página 131
Capítulo 3 ■ El proceso de minería de datos 93
Mejorando la retención de clientes
Hay muchas formas diferentes de mejorar la retención de clientes:
■ Encuentre clientes con mayor riesgo de irse y aliéntelos a quedarse.

■ Cuantifique el valor de mejorar las operaciones para que los clientes se queden.

■ Determine qué métodos de adquisición de clientes aportan mejor

clientes.
■ Determine qué clientes no son rentables y déjelos irse.

Esta sección solo discute el primero de estos.
La lista de tareas para determinar quién se quedará es similar a la lista de tareas para cualquier
modelo de respuesta binaria. Cree un conjunto de modelos que consista en clientes que se quedan
e ir, y dejar que el modelo encuentre los patrones que distinguen entre ellos. Esta
proporciona una puntuación de modelo que luego puede usar para un esfuerzo de retención.
Este tipo de modelo de respuesta binaria se puede construir utilizando muchas técnicas, como
como árboles de decisión, redes neuronales, regresión logística y MBR. Una alternativa
enfoque sería estimar la tenencia restante del cliente utilizando la supervivencia
análisis y aplique el mensaje de retención a aquellos clientes con más probabilidades de
dejar en el futuro cercano.
A veces, el resultado más importante de un modelo no son las puntuaciones
produce, pero la comprensión que proviene de examinar el modelo en sí.
El modelo puede explicar si los clientes se van principalmente debido
a interrupciones del servicio, sensibilidad de precios u otras causas. Sin embargo, esto requiere
usando una técnica que puede explicar sus resultados. Árboles de decisión y regresión logística
Sion son los mejores del grupo para la explicabilidad.
Detección de reclamos fraudulentos
La traducción de este objetivo en tareas de modelado depende de si los ejemplos
de fraude conocido están disponibles. Si es así, esta es una tarea de minería de datos dirigida:
1. Cree un modelo de perfil que sea capaz de distinguir reclamos fraudulentos
de los legítimos.
2. Use el modelo para calificar todos los reclamos que ingresen. Marque los reclamos que califican
más alto que algún umbral para un escrutinio adicional antes de la aprobación.

Page 132
94
Capítulo 3 ■ El proceso de minería de datos
Los árboles de decisión y la regresión logística son técnicas probables para construir el
modelo de perfilado en el Paso 1.
A veces, se sospecha fraude, pero no está claro qué transacciones son
fraudulento. Esta situación requiere una minería de datos no dirigida:
1. Forme grupos de afirmaciones similares. La mayoría de los reclamos probablemente caerán en unos pocos
grandes grupos que representan diferentes tipos de reclamo legítimo.
2. Examine los grupos más pequeños para ver qué los hace especiales.
Los reclamos en los grupos más pequeños también pueden ser perfectamente legítimos. Todo lo que el
El ejercicio de agrupamiento muestra que son inusuales. Algunas reclamaciones inusuales giran
fuera fraudulento, por lo que todos merecen un mayor escrutinio.
UN OBJETIVO, DOS TAREAS: GANAR UN CONCURSO DE MINERÍA DE DATOS
Cada año, los concursantes de la academia y la industria prueban sus habilidades de minería de datos.
en un concurso realizado conjuntamente con el KDD anual (Knowledge Discovery and
Conferencia de minería de datos). Un año, estaba claro que lo que separaba a los ganadores
de los perdedores no fueron los algoritmos que usaron o el software que emplearon,
pero cómo tradujeron el problema comercial en tareas de minería de datos.
El problema comercial era maximizar las donaciones a una organización benéfica sin fines de lucro.
Los datos fueron una base de datos histórica de contribuciones.
La exploración de los datos reveló la primera idea: cuanto más a menudo alguien
contribuido, menos dinero contribuyeron cada vez. Esperando lo mejor
Los donantes para ser los que responden con mayor frecuencia es bastante razonable.
En este caso, sin embargo, las personas parecen planear sus donaciones caritativas anualmente.
base. Podrían donar una suma global de una vez, o espaciar sus contribuciones.
a través del tiempo. Más cheques no siempre significa más dinero. Esta sugerencia
que la decisión de hacer una donación es independiente de la decisión de cómo
Gran donación para hacer. Es probable que las dos decisiones estén influenciadas por
diferentes factores Quizás las personas de todos los niveles de ingresos tienen más probabilidades de donar
a una organización de veteranos si ellos mismos han servido en el ejército.
Después de que hayan decidido contribuir, el nivel de ingresos puede influir en
El tamaño de las donaciones.
Estas ideas condujeron al enfoque ganador, que consistía en modelar la respuesta
y el tamaño de la contribución por separado. El modelo de respuesta se basa en un conjunto de entrenamiento.
que contiene contribuyentes y no contribuyentes. Esta es una salida binaria.
Venga tarea de clasificación.
El modelo de tamaño de contribución se basa en un conjunto de capacitación que consta solo de
contribuyentes Esta es una tarea de estimación. La siguiente figura muestra los dos
modelos y cómo se combinan sus resultados para producir una respuesta esperada
valor para cada prospecto.
Las tres entradas ganadoras adoptaron este enfoque de combinar modelos. los
la mayoría de los concursantes, por otro lado, construyeron un solo modelo con cantidad
contribuido como el objetivo. Estos modelos trataron todo el problema como una estimación.
tarea con una falta de respuesta representada como una contribución de cero dólares.

Page 133
Capítulo 3 ■ El proceso de minería de datos 95
Un modelo de dos etapas para el valor esperado de una contribución.
Identificación del cliente
Respuesta
Contribución
X1
X2
X3
292129
0 0
UNA
39,220
1
292130
0 0
UNA
39,749
1
292134
0 0
do
40,052
1
197549
0 0
UNA
39,485
1
292137
0 0
UNA
39,749
1
291800
0 0
UNA
39,610
1
292138
0 0
UNA
39,749
0 0
332806
0 0
UNA
39,860
0 0
292140
0 0
UNA
39,686
1
347807
1
$ 40 C
40,139
0 0
292141
0 0
UNA
39,749
1
292143
1
$ 30 C
40,027
0 0
409542
0 0
UNA
40,050
0 0
292848
0 0
do
40,012
1
292850
0 0
do
40,151
1
292851
0 0
UNA
39,750
0 0
292852
0 0
do
39,997
1
292853
0 0
UNA
39,750
1
292857
0 0
UNA
39,750
1
292859
1
$ 30 A
39,994
1
292860
0 0
UNA
39,750
0 0
292861
0 0
UNA
39,750
0 0
292862
1
$ 30 C
39,859
0 0
292863
0 0
do
39,877
1
292864
1
$ 40 C
40,071
1
292868
0 0
UNA
39,750
0 0
403246
0 0
UNA
40,035
0 0
292869
1
$ 30 D
40,132
0 0
292870
0 0
do
39,788
0 0
292871
0 0
UNA
39,750
1
292872
0 0
UNA
39,750
1
292873
0 0
do
39,997
1
292874
1
$ 40 C
40,150
1
292878
0 0
UNA
39,750
1
292879
1
$ 40 C
40,132
0 0
292880
1
$ 30 C
39,859
1
292881
0 0
do
39,879
0 0
24583
0 0
UNA
38,966
0 0
292884
0 0
UNA
39,750
1
126612
1
$ 40 A
40,016
0 0
292886
0 0
UNA
39,288
1
292887
0 0
UNA
39,750
1
292888
1
$ 40 A
40,113
0 0
292889
0 0
do
39,795
0 0
390095
0 0
UNA
40,000
1
292893
0 0
UNA
39,462
1
292894
0 0
UNA
40,118
1
292964
0 0
re
40,138
0 0
292897
1
$ 30 C
39,859
1
292900
0 0
UNA
39,750
1
292901
0 0
do
39,808
1
292902
1
$ 30 C
39,859
0 0
292905
0 0
UNA
39,750
1
292908
0 0
UNA
39,750
0 0
292909
0 0
UNA
39,750
1
292911
0 0
UNA
39,750
1
292913
0 0
do
39,798
1
292914
1
$ 30 D
40,132
0 0
292915
0 0
UNA
39,750
0 0
292916
0 0
do
39,812
0 0
292917
0 0
UNA
39,750
0 0
292919
0 0
UNA
39,750
1
292920
0 0
re
40,114
0 0
Modelo de respuesta basado en todas las filas.
de datos de entrenamiento:
Modelo de contribución basado en
respondedores:
Ambos modelos se aplican a todas las filas.
de una tabla que describe el potencial
contribuyentes Lo esperado
contribución es el producto de la
dos resultados del modelo:
P (respuesta) = f (X 1 , X 2 , X 3 )
E ($ | respuesta) = g (X 1 , X 2 , X 3 )
E ($) = E * P

¿Qué técnicas para qué tareas?
Puede utilizar todas las técnicas de minería de datos descritas en este libro en creatividades
formas de aplicaciones fuera de las que están asociadas con mayor frecuencia
Ated. Cada familia principal de técnicas tiene un capítulo (o incluso más de uno

Page 134
96
Capítulo 3 ■ El proceso de minería de datos
capítulo). Los capítulos de técnicas individuales incluyen ejemplos de cómo aplicar
Las técnicas para diversos fines. Aún así, algunas técnicas son más adecuadas para
Algunas tareas Al elegir una técnica, hágase estas preguntas:
■ ¿Hay un objetivo u objetivos?

■ ¿Cómo son los datos de destino?

■ ¿Cómo son los datos de entrada?

■ ¿Qué tan importante es la facilidad de uso?

■ ¿Qué tan importante es la explicabilidad?

Las respuestas a estas preguntas reducen la elección de las técnicas.
¿Hay un objetivo o objetivos?
Todas las técnicas de minería de datos dirigidas, incluidas la regresión, los árboles de decisión y
redes neuronales, requieren entrenamiento con valores conocidos para las variables objetivo.
Cuando los datos no contienen dicho objetivo, una de las técnicas no dirigidas
como la agrupación o el análisis exploratorio de datos es necesario.
¿Cómo son los datos de destino?
Cuando el objetivo es numérico y puede adoptar una amplia gama de valores, una técnica
que produce valores continuos es apropiado. Los modelos de regresión lineal pueden
producir cualquier valor de infinito negativo a infinito, como pueden hacerlo las redes neuronales.
Cuando la tarea es estimar el valor de un objetivo continuo, estos son naturales
opciones Los árboles de regresión y los modelos de búsqueda de tablas se pueden usar para estimar
valores numéricos también, pero producen un número relativamente pequeño de valores discretos
valores. El razonamiento basado en la memoria es otra opción para los objetivos numéricos que pueden
producir un amplio rango de valores, pero nunca fuera del rango de los datos originales.
Cuando el objetivo es una respuesta binaria o una variable categórica, técnicas que
producen una probabilidad de estar en cada clase que se requieren. Los árboles de decisión son un
ajuste muy natural para este tipo de problemas, como son la regresión logística y neural
redes Dependiendo de otros aspectos del problema y de la naturaleza del
entradas, otras técnicas como modelos de similitud, razonamiento basado en memoria,
y los modelos bayesianos ingenuos pueden ser buenas opciones.
¿Cómo son los datos de entrada?
Los modelos de regresión, las redes neuronales y muchas otras técnicas realizan matemáticas.
operaciones matemáticas en los valores de entrada y, por lo tanto, no pueden procesar datos categóricos
o valores perdidos. Por supuesto, es posible recodificar datos categóricos o reemplazar
campos categóricos con campos numéricos que capturan características importantes de la
categorías. También es posible ingresar valores perdidos. Estas operaciones pueden ser

135
Capítulo 3 ■ El proceso de minería de datos 97
Sin embargo, requiere mucho tiempo y es impreciso. Como el número de campos categóricos
y los campos con valores perdidos aumentan, también lo hace el atractivo de los árboles de decisión,
modelos de búsqueda de tabla y modelos bayesianos ingenuos, todos los cuales pueden manejar fácilmente
campos categóricos y valores faltantes. Cuando las entradas son numéricas y no
contener valores faltantes, los modelos de regresión y las redes neuronales pueden
hacer uso de más información en los datos.
¿Qué tan importante es la facilidad de uso?
Algunas técnicas requieren mucha más preparación de datos que otras. Por ejemplo,
Las redes neuronales requieren que todas las entradas sean numéricas y dentro de un pequeño rango de
valores. También son sensibles a los valores atípicos y no pueden procesar valores perdidos.
Otros, como los árboles de decisión, son mucho más indulgentes y requieren menos datos.
preparación, pero no puede hacer un buen trabajo. A menudo hay una compensación entre
potencia, precisión y facilidad de uso. Como ejemplo extremo, algoritmos genéticos
requieren tanto trabajo por parte del minero que rara vez se usan si un
Se dispone de un enfoque alternativo.
Desde que apareció la primera edición de este libro en la década de 1990, la minería de datos
Las herramientas de software han hecho grandes avances en el área de facilidad de uso. Los mejores
Proporcionar interfaces de usuario que admitan las mejores prácticas y que incluso lo hacen complejo
técnicas como las redes neuronales relativamente fáciles de usar.
¿Qué tan importante es la explicabilidad del modelo?
Para algunos problemas, obtener la respuesta correcta rápidamente es primordial. Un moderno,
El cajero automático que no requiere sobres debe ser capaz de reconocer
cantidades escritas con precisión para aceptar cheques para depósito. A pesar de esto
sin duda sería fascinante aprender cómo el algoritmo diferencia a los estadounidenses
"7" de los "1" europeos, no hay necesidad urgente de hacerlo. En el breve intervalo
entre cuando se pasa una tarjeta de crédito y se transmite el código de aprobación,
la transacción se califica por la probabilidad de ser fraudulenta. Obteniendo esta decisión
lo correcto es importante. Aprobar una transacción fraudulenta tiene un efecto inmediato y
costo obvio; rechazar una transacción legítima molesta a un cliente valioso. En
En ambos ejemplos, obtener la respuesta correcta es claramente más importante que
tener una explicación clara de cómo se tomó la decisión.
En el otro extremo, algunas decisiones, ya sea otorgar o negar crédito, por
ejemplo: puede estar sujeto a revisión regulatoria. Explicando que el crédito era
denegado porque el solicitante tenía demasiadas líneas abiertas y una proporción demasiado grande de
la deuda al ingreso está bien. Diciendo: "El modelo identificó al solicitante como de alto riesgo,
pero no tenemos idea de por qué ", es inaceptable.
Diferentes técnicas ofrecen diferentes compensaciones entre precisión y explicación.
bilidad Se puede decir que los árboles de decisión ofrecen las mejores explicaciones porque cada hoja tiene 
un
Descripción precisa en forma de una regla. Aunque esto significa que la puntuación para
Page 136
98
Capítulo 3 ■ El proceso de minería de datos
cualquier registro dado puede explicarse, no significa que un árbol grande y complejo
Es fácil de entender en su conjunto. La compensación es que los árboles de decisión pueden no
hacer uso de tanta información inherente de una variable como otras técnicas que
utilice el valor directamente en lugar de simplemente compararlo con un valor de división.
Con un poco de atención a la preparación de datos, los modelos de regresión también arrojan mucho
de luz sobre lo que contribuye a una puntuación. Cuando las variables explicativas han sido
estandarizado, la magnitud relativa de los coeficientes del modelo muestra cuánto
cada uno contribuye al puntaje. En una regresión, cada pequeño cambio en el
El valor de una variable explicativa tiene un efecto en la puntuación. En ese sentido, el
El modelo de regresión hace más uso de la información proporcionada por la explicación.
variables históricas que los árboles de decisión.
Las redes neuronales son bastante flexibles y son capaces de modelar bastante complejas.
funciona con mucha precisión, pero son esencialmente inexplicables. Cada una de estas tecnologías
niques proporciona una compensación diferente entre los mejores puntajes y las mejores explicaciones.
Conociendo las fortalezas y debilidades, debes decidir sobre las técnicas
que son más apropiados para su aplicación.
La Tabla 3­1 muestra qué técnicas se usan típicamente para qué tareas. Como el
la tabla deja en claro, casi cualquiera de las técnicas dirigidas se puede utilizar para
problemas de clasificación, predicción y estimación. La elección final es impulsada
en la medida en que el modelo debería poder contar una historia además de
produciendo puntajes, y por características de los datos a extraer.
Tabla 3­1: ¿Qué técnicas para qué tareas?
TAREA
MEJOR AJUSTE
TAMBIÉN CONSIDERA
Clasificación
y predicción
Árboles de decisión, logis­
regresión de tic, neural
redes
Modelos de similitud, consulta de tabla
modelos, modelos vecinos más cercanos,
modelos bayesianos ingenuos
Estimacion
Regresión lineal, neural
redes
Árboles de regresión, vecino más cercano
modelos
Respuesta binaria
Regresión logística, deci­
árboles de sion
Modelos de similitud, consulta de tabla
modelos, modelos vecinos más cercanos,
modelos bayesianos ingenuos
Encontrar grupos
y patrones
Cualquiera de los grupos
algoritmos
reglas de asociación

Lecciones aprendidas
El proceso de minería de datos puede fallar de muchas maneras. El fracaso puede tomar varias formas,
incluyendo simplemente no responder las preguntas que se propuso responder, también
como "descubrir" cosas que ya sabes. Una forma especialmente perniciosa de

137
Capítulo 3 ■ El proceso de minería de datos 99
fracaso es aprender cosas que no son ciertas. Esto puede suceder de muchas maneras: cuando
los datos utilizados para la minería no son representativos; o cuando contiene accidental
patrones que no se generalizan; o cuando se ha resumido de una manera que
destruye información; o cuando mezcla información de períodos de tiempo que
debe mantenerse separado
Hay tres estilos de minería de datos. La minería de datos exploratoria produce
ideas o respuestas preguntas en lugar de producir modelos utilizados para la puntuación.
La minería de datos exploratoria a menudo implica la formulación de hipótesis que pueden
ser probado o refutado utilizando datos. La minería de datos exploratoria es muy importante;
sin embargo, no es el tema de las técnicas avanzadas en este libro.
La minería de datos dirigida se usa cuando los datos históricos contienen ejemplos de
lo que se busca Para un modelo de desgaste, esto supone que la historia
Los datos de cal contienen ejemplos de clientes que tienen y no han parado. por
un modelo de valor del cliente, esto supone que es posible estimar al cliente
valor utilizando los datos históricos. El objetivo (o objetivos) del modelo son estos
variables Las variables "explicativas" en el modelo son las entradas.
La minería de datos no dirigida no utiliza una variable de destino. Es como tirar el
datos en la computadora y ver dónde aterriza. Dar sentido a los datos no dirigidos
La minería requiere comprender e interpretar los resultados. Sin un objetivo,
la computadora no puede juzgar si los resultados son buenos o no.
Puede usar los tres estilos de minería de datos por separado o en combinación para
lograr una amplia gama de objetivos comerciales. El proceso de minería de datos comienza con
Un objetivo comercial. El proceso de minería de datos implica traducir el objetivo comercial
en una o más tareas de minería de datos. Una vez definidas las tareas, la naturaleza
de la tarea, el tipo de datos disponibles, la forma en que se entregarán los resultados y
La compensación entre la precisión del modelo y la explicabilidad del modelo influye en la
elección de la técnica de minería de datos.
Cualquiera que sea la técnica que elija, e independientemente del estilo de minería de datos,
El uso eficaz de la minería de datos requiere cierto conocimiento de las estadísticas, el tema
del siguiente capítulo.

Page 138

CAPÍTULO
7 7
Árboles de decisión
Los árboles de decisión son una de las técnicas de minería de datos dirigidas más poderosas,
porque puedes usarlos en una gama tan amplia de problemas y producen
modelos que explican cómo funcionan. Los árboles de decisión están relacionados con la búsqueda de tablas
modelos. En el modelo de búsqueda de tabla simple descrito en el Capítulo 6, como RFM
cubos, las celdas se definen de antemano dividiendo cada dimensión en un
número arbitrario de particiones espaciadas uniformemente. Entonces, algo de interés: un
tasa de respuesta o tamaño promedio de pedido, por ejemplo, se mide en cada celda.
Los nuevos registros se puntúan determinando a qué celda pertenecen.
Los árboles de decisión extienden esta idea de dos maneras. Primero, los árboles de decisión recursivamente
dividir datos en celdas cada vez más pequeñas que son cada vez más "puras" en el
sentido de tener valores similares del objetivo. El algoritmo del árbol de decisiones trata
cada celda de forma independiente. Para encontrar una nueva división, el algoritmo prueba divisiones basadas
en
Todas las variables disponibles. Al hacerlo, los árboles de decisión eligen lo más importante
variables para la tarea de minería de datos dirigida. Esto significa que puede usar deci­
árboles de siones para la selección variable, así como para la construcción de modelos.
Segundo, el árbol de decisión usa la variable objetivo para determinar cómo cada
La entrada debe ser particionada. Al final, el árbol de decisión divide los datos en
segmentos, definidos por las reglas de división en cada paso. En conjunto, las reglas
para todos los segmentos forman el modelo de árbol de decisión.
Un modelo que puede expresarse como una colección de reglas es muy atractivo. Reglas
se expresan fácilmente en inglés para que podamos entenderlos. Reglas, de la
tipo que forma un árbol de decisión, también se puede expresar en SQL, la base de datos

Página 276
238 Capítulo 7 ■ Árboles de decisión
acceder al idioma, para recuperar o puntuar registros coincidentes. Como modelos, decisión
los árboles se pueden usar para clasificación, estimación y predicción. Árboles de decisión
También son útiles para la exploración de datos y la selección de variables incluso cuando planifica
usar una técnica diferente para crear el modelo final. Las variables elegidas para
La inclusión en el árbol también puede ser útil para otras técnicas de minería de datos.
Este capítulo se abre con un ejemplo de un árbol de decisión para una predicción simple.
tarea Este ejemplo destaca la forma en que los árboles de decisión pueden proporcionar información
en un problema de negocios, y qué fácil es entender los árboles de decisión. También
ilustra cómo puede usar un árbol para seleccionar variables, hacer clasificaciones,
y estimar números reales.
El capítulo continúa con más detalles técnicos sobre cómo crear una decisión.
arboles En particular, varios criterios diferentes para evaluar la división del árbol de decisión
Se introducen y comparan reglas de ting. Hay muchos árboles de decisión diferentes
algoritmos, algunos nombres de rodamientos como CART, CHAID y C5.0. Sin embargo,
Todas estas variantes se basan en los mismos bloques de construcción.
Este capítulo también presenta una discusión sobre la diferencia entre local y
modelos globales que usan una comparación de árboles de decisión con modelos de regresión lineal
como un caso puntual. Un apartado técnico compara los árboles de decisión con el vector de soporte.
máquinas, otra técnica para particionar clases. Aplicaciones interesantes
de los árboles de decisión se encuentran dispersos en todo el capítulo.

¿Qué es un árbol de decisión y cómo se usa?
Un árbol de decisión es una colección jerárquica de reglas que describe cómo dividir
una gran colección de registros en grupos de registros sucesivamente más pequeños. Con
cada división sucesiva, los miembros de los segmentos resultantes se vuelven más
y más similares entre sí con respecto al objetivo.
Esta sección presenta ejemplos de árboles utilizados para diversos fines, incluidos
obtener información sobre un problema comercial, explorar datos (de manera dirigida),
hacer predicciones, clasificar registros y estimar valores.
Un árbol de decisión típico
El árbol de decisión en la Figura 7­1 se creó a partir de un conjunto de modelos que describe
abonados a teléfonos pagados; Estos son suscriptores que hablan primero y pagan después. los
El conjunto de modelos está configurado para un modelo predictivo. Entonces, las variables de entrada se 
registran
para todos los clientes activos en una fecha determinada, y el objetivo se asigna en función de
El estado del cliente 100 días después. El conjunto de modelos es equilibrado, que contiene igual
Número de clientes que están activos 100 días después, que se detuvieron involuntariamente
(al no pagar) y quién se detuvo voluntariamente. Estas tres posibilidades son representativas
sentada por la variable de destino, que se lleva en uno de los tres valores, A , V , o I .

Página 277
Capítulo 7 ■ Árboles de decisión 239
Figura 7­1: Un árbol de decisión.
Objetivo:
YO:
UNA:
V:
futureChurnType
33%
33%
33%
Objetivo:
YO:
UNA:
V:
futureChurnType
60%
23%
17%
Objetivo:
YO:
UNA:
V:
futureChurnType
74%
21%
5%
Objetivo:
YO:
UNA:
V:
futureChurnType
39%
26%
35%
Objetivo:
YO:
UNA:
V:
futureChurnType
20%
66%
14%
Objetivo:
YO:
UNA:
V:
futureChurnType
7%
34%
59%
Objetivo:
YO:
UNA:
V:
futureChurnType
4%
35%
61%
Objetivo:
YO:
UNA:
V:
futureChurnType
23%
31%
46%
Objetivo:
YO:
UNA:
V:
futureChurnType
5%
42%
53%
Objetivo:
YO:
UNA:
V:
futureChurnType
3%
20%
77%
Objetivo:
YO:
UNA:
V:
futureChurnType
5%
80%
15%
Objetivo:
YO:
UNA:
V:
futureChurnType
5%
34%
61%
Objetivo:
YO:
UNA:
V:
futureChurnType
10%
43%
47%
do
CLASE DE CRÉDITO
TENENCIA
TENENCIA
=> 264.5
<264.5 o faltante
=> 265.5 o faltante
<265,5
YA NO
APAGANDO
<50 o falta
<0.5 o falta
=> 0.5 o falta
> = 50
> = 0.5
<0.5
DEPOSITAR
B, A, D o falta
yo
V
UNA
El cuadro en la parte superior del diagrama es el nodo raíz , que contiene todos los
ing datos utilizados para hacer crecer el árbol. En este nodo, las tres clases están representadas
Igualmente. El nodo raíz tiene dos hijos y una regla que especifica qué registros
ir a qué niño. La regla en la parte superior del árbol se basa en la clase de crédito: Crédito
la clase "C" va al niño izquierdo y las clases de crédito "A", "B" y "D" van al
niño correcto. El objetivo del árbol es dividir estos registros en nodos dominados
por una sola clase. Los nodos que finalmente se utilizan están en los extremos de su
ramas, sin hijos. Estas son las hojas del árbol.
Página 278
240 Capítulo 7 ■ Árboles de decisión
La ruta del nodo raíz a una hoja describe una regla para los registros en ese
hoja. En la Figura 7­1, los nodos con distribuciones similares a los datos de entrenamiento son
ligeramente sombreado; nodos con distribuciones bastante diferentes de los datos de entrenamiento
son más oscuros Las flechas apuntan a tres de las hojas más oscuras. Cada una de estas hojas
Tiene una clara clase de mayoría.
Los árboles de decisión asignan puntajes a nuevos registros, simplemente dejando que cada registro fluya
a través del árbol para llegar a su hoja apropiada. Por ejemplo, el árbol en la figura 7­1
se puede usar para asignar un puntaje A , un puntaje V y un puntaje a cualquier activo actualmente
abonado. Cada hoja tiene una regla, que se basa en el camino a través del árbol.
Las reglas se utilizan para asignar a los suscriptores que necesitan puntuar al
hoja. La proporción de registros en cada clase proporciona los puntajes.
Usando el árbol para aprender sobre la rotación
En los mercados maduros, casi todos los proveedores de servicios móviles están preocupados por la rotación ,
El término de la industria para los suscriptores que cambian de un proveedor a otro. En
mercados donde la penetración telefónica ya es alta, la forma más fácil de adquirir
nuevos suscriptores es atraerlos lejos de un competidor. El árbol de decisiones en
La figura 7­1 describe quién está haciendo el batido y cuál de las dos variantes de
la rotación es más común en segmentos particulares. La rotación voluntaria es cuando el
El cliente decide irse. La rotación involuntaria es cuando la compañía le dice
se van, generalmente porque no han estado pagando sus facturas. Para crear el
conjunto de modelos, se observaron suscriptores activos en una fecha particular y varios
atributos de cada capturado en una firma del cliente.
La primera división en el árbol está en la clase de crédito. Los suscriptores con crédito clase C toman
un camino, mientras que aquellos con cualquier otra clase de crédito toman otro. La clase de crédito
es "A", "B", "C" o "D", con "A" que significa excelente crédito y "D" el más bajo
calificación crediticia El hecho de que esta variable se elija primero significa que la clase de crédito es
La variable más importante para dividir los datos.
Esta división cambia drásticamente la distribución del objetivo en cada uno de los niños.
Dren El sesenta por ciento de los suscriptores con clase de crédito "C" experimentan involuntariamente
abandono en comparación con solo el 10 por ciento para todas las demás clases de crédito. Divisiones 
posteriores
continuar concentrando las clases. Tenga en cuenta que se utilizan diferentes variables en
Diferentes partes del árbol. Sin embargo, cualquier variable se puede usar en cualquier lugar del
árbol, y una variable se puede usar más de una vez.
En el árbol completo, la mayoría de las hojas están dominadas por una sola clase. Cada nodo es
anotado con el porcentaje de suscriptores en cada una de las tres clases.
Mire primero la hoja marcada I . Estos suscriptores son de clase de crédito "C" y
Tener una tenencia de 264 días o menos. Setenta y cuatro por ciento de ellos fueron cancelados
por falta de pago. La tasa de cancelaciones voluntarias es bastante baja porque la mayoría
Los suscriptores tienen un contrato de un año que incluye una considerable tarifa de cancelación.
En lugar de pagar la tarifa, suscriptores insatisfechos cuya actitud hacia la deuda
el reembolso les ha valido la clase de crédito "C" simplemente alejarse.
Consideremos ahora el nodo marcado V . Estos suscriptores no pagan depósito (el
el depósito más pequeño es de $ 100) y ha existido por al menos 265 días. A pesar de que

Página 279
Capítulo 7 ■ Árboles de decisión 241
estaban en contrato en el momento en que se registraron las entradas, se conocían
estar fuera de contrato antes de la fecha en que se registró el objetivo. La división
en depósito> = 50 es exactamente equivalente a una división en clase de crédito = 'D' porque
todas las personas con clase de crédito D pagan un depósito que oscila entre $ 100 y $ 600, mientras que
las personas con clase de crédito "A", "B" o "C" no pagan depósito.
Por último, mire la hoja marcada A . Al igual que aquellos en el nodo marcado V , tienen
sin depósito y han existido por más de 265 días. Pero estos suscriptores
todavía están bajo contrato y no están a punto de salirse del contrato. Quizás firmaron dos
contratos anuales para comenzar, o tal vez se sintieron atraídos para renovar un contrato
después del primer año En cualquier caso, el 80% sigue activo.
A juzgar por este árbol, los contratos hacen un buen trabajo al retener a los suscriptores que están
cuidado con sus puntajes de crédito, y los depósitos grandes hacen un buen trabajo al retener
clientes que no lo son. Ambos grupos esperan hasta que puedan irse voluntariamente.
tarily y sin castigo. El peor desgaste es entre suscriptores con
clase de crédito "C". No están obligados a pagar un depósito, pero a diferencia de otros que
no tienen depósito, los clientes con clase de crédito "C" están dispuestos a retirarse
de un contrato. Quizás a estos clientes se les debería pedir que paguen un depósito.
Usando el árbol para aprender sobre datos y seleccionar variables
El árbol de decisión en la Figura 7­1 usa cinco variables de entre las muchas disponibles.
capaz en el conjunto de modelos. El algoritmo del árbol de decisión eligió estos cinco porque,
juntos, hacen un buen trabajo al explicar la rotación voluntaria e involuntaria.
La primera división utiliza la clase de crédito , porque la clase de crédito mejora
trabajo de separar las clases de variables de destino que cualquier otro campo disponible.
Cuando te enfrentas a docenas o cientos de variables desconocidas, puedes usar un
árbol de decisión para dirigir su atención a un subconjunto útil. De hecho, los árboles de decisión
a menudo se usan como una herramienta para seleccionar variables para usar con otro modelado
técnica. En general, los árboles de decisión hacen un trabajo razonable al seleccionar un pequeño
cantidad de variables bastante independientes, pero porque cada decisión de división
se realiza de forma independiente, es posible que diferentes nodos elijan correlacionados
o incluso variables sinónimas. Un ejemplo es la inclusión de ambos créditos
Clase y depósito visto aquí.
Las diferentes opciones de variable objetivo crean diferentes árboles de decisión que contienen
ing diferentes variables. Por ejemplo, usando los mismos datos usados para el árbol en
Figura 7­1, pero cambiando la variable objetivo a la elección binaria de activo o
no activo (combinando V e I ) cambia el árbol. El nuevo árbol ya no
Tiene clase de crédito en la parte superior. En cambio, la tasa de rotación del teléfono , una variable que ni 
siquiera
En el primer árbol, se eleva a la cima. Esta variable es consistente con el dominio
conocimiento: clientes que no están satisfechos con su teléfono móvil (
conjunto) son más propensos a irse. Una medida de insatisfacción es la historia
tasa de rotación de teléfonos. Esta tasa puede (y debe) recalcularse con frecuencia
porque las preferencias del teléfono cambian con la velocidad de la moda. Gente que
tener teléfonos asociados con altas tasas de deserción en el pasado reciente son
Es más probable que se vaya.

Page 280
242 Capítulo 7 ■ Árboles de decisión
SELECCIÓN DE VARIABLES PARA UN MODELO DE PENETRACIÓN DEL HOGAR
EN EL GLOBO DE BOSTON
Durante la fase de exploración de datos de un proyecto de minería de datos dirigido, decisión
los árboles son una herramienta útil para elegir variables que probablemente sean importantes
para predecir objetivos particulares. Uno de los clientes del periódico de los autores, el
Boston Globe , estaba interesado en estimar la entrega a domicilio esperada de una ciudad
nivel de circulación basado en varios caracteres demográficos y geográficos
istica. Armado con tales estimaciones, sería posible detectar ciudades con
potencial sin explotar donde la circulación real fue menor que la esperada
circulación. El modelo final sería una ecuación de regresión basada en una mano
lleno de variables. ¿Pero qué variables? La Oficina del Censo de los Estados Unidos genera cientos
de variables disponibles. Antes de construir el modelo de regresión, usamos la decisión
árboles para explorar las posibilidades.
Aunque el periódico finalmente estaba interesado en predecir lo real
número de hogares suscriptores en una ciudad o pueblo determinado, ese número
no es un buen objetivo para un modelo de regresión porque los pueblos y ciudades varían
tanto en tamaño Perder el poder de modelado al descubrir que hay más
los suscriptores en ciudades grandes que en ciudades pequeñas no son útiles. Un mejor objetivo es
penetración : la proporción de hogares que se suscriben al documento. Esta
número produce una estimación del número total de hogares suscriptores
simplemente multiplicándolo por el número de hogares en una ciudad. Factorizando
el tamaño de la ciudad produce una variable objetivo con valores que varían de 0 a algo
menos que 1.
El siguiente paso fue averiguar qué factores, de entre los cientos en
la firma del pueblo, pueblos separados con alta penetración (los pueblos "buenos")
de aquellos con baja penetración (los pueblos "malos"). Nuestro enfoque era construir
un árbol de decisión con una variable binaria de destino bueno / malo. Esto implicó la clasificación
las ciudades por penetración de entrega a domicilio y etiquetar el tercio superior "bueno"
y el tercio inferior "malo". Ciudades en el tercio medio ­ las que están
no claramente bueno o malo: quedaron fuera del conjunto de entrenamiento.
SUGERENCIA Al intentar modelar la diferencia entre dos grupos, eliminar
Los ejemplos que no están claramente en un grupo u otro pueden ser útiles.
El árbol resultante utilizó el valor medio de la casa como la primera división. En una region
con algunas de las viviendas más caras del país, pueblos donde el
el valor medio de la vivienda es inferior a $ 226,000 dólares son malas perspectivas para esto
papel (todas las variables del censo son del Censo 2000). La siguiente división estaba en
una de una familia de variables derivadas que compara la base de suscriptores en la ciudad
a la población del pueblo en su conjunto. Ciudades donde los suscriptores son similares a
la población general es mejor, en términos de penetración de entrega a domicilio, que
ciudades donde los suscriptores están más lejos del promedio. Otras variables que
fueron importantes para distinguir las ciudades buenas de las malas incluido el promedio

Page 281
Capítulo 7 ■ Árboles de decisión 243
años de escuela completados, el porcentaje de la población en cuello azul
ocupaciones, y el porcentaje de la población en ocupaciones de alto estatus.
Algunas variables seleccionadas por el árbol de decisión fueron menos adecuadas para la regresión.
modelo de sion. Un ejemplo es la distancia de Boston. El problema es que al principio,
A medida que uno conduce a los suburbios, la penetración en el hogar aumenta con la distancia
de Boston Después de un tiempo, sin embargo, la distancia de Boston se vuelve negativa
correlacionado con la penetración ya que a las personas lejos de Boston no les importa tanto
sobre lo que pasa allí. Un árbol de decisión encuentra fácilmente la distancia correcta para
dividido, pero un modelo de regresión espera la relación entre la distancia y
La penetración es la misma para todas las distancias. El precio de la vivienda es un mejor predictor
porque su distribución se asemeja a la de la variable objetivo, aumentando en el
primero unas pocas millas y luego disminuyendo. El árbol de decisiones proporciona orientación sobre
qué variables pensar y qué variables usar.

Usando el árbol para producir clasificaciones
Los árboles de decisión obtienen nuevos registros al observar las variables de entrada en cada nuevo
registrar y seguir el camino apropiado a la hoja. Para muchas aplicaciones, el
El orden de los puntajes es más importante que los puntajes reales. Ese
es decir, saber que el Cliente A tiene una rotación más alta o más baja que el Cliente B es más
importante que tener una estimación real del riesgo de abandono para cada cliente.
Dichas aplicaciones incluyen la selección de un número fijo de clientes para un determinado
campaña de marketing, como una campaña de retención. Si la campaña está siendo
diseñado para 10,000 clientes, el propósito del modelo es encontrar los 10,000 clientes
tomers más propensos a batir; determinar la tasa de rotación real no es importante.
Usando el árbol para estimar las probabilidades de clase
Para muchos propósitos, las clasificaciones no son suficientes y las probabilidades de clase
Se necesita membresía. Las probabilidades de clase se obtienen de las hojas.
Por ejemplo, la distribución de clases en el nodo etiquetado como I en la Figura 7­1
proviene de aplicar la regla clase de crédito = 'C' y tenencia <264.5 a la
datos balanceados en el nodo raíz. Diciendo que cualquier registro que llegue al nodo I tiene
Probabilidad 0.6 de revolverse involuntariamente en los próximos 100 días puede parecer
razonable; sin embargo, la distribución de valores en los datos originales es bastante
diferente de la distribución en el conjunto de modelos utilizado para construir el árbol. Después
seis meses, 89.30 por ciento de los suscriptores todavía están activos, 4.39 por ciento se han ido
involuntariamente, y 6.32 por ciento se han ido voluntariamente.
El Capítulo 5 explica una forma de convertir puntajes en estimaciones de probabilidad. Otro
La forma de estimar las probabilidades reales es aplicar las reglas del árbol de decisiones a la
datos preclasificados desequilibrados originales y observar la distribución resultante.

Página 282
244 Capítulo 7 ■ Árboles de decisión
Para este conjunto de datos en particular, seleccionando todos los suscriptores con clase de crédito = 'C'
y la tenencia <264.5 produce una muestra en la cual el 84.14% todavía está activo, el 14.44% tiene
se fue involuntariamente, y el 1,42% se fue voluntariamente. Entonces la probabilidad correcta
La estimación del abandono involuntario en esta hoja es del 14 por ciento en lugar del 60 por ciento.
El porcentaje de rotación involuntaria en esta hoja es más de tres veces el
nivel en la población de suscriptores, pero incluso aquí, "activo" sigue siendo el problema más
resultado capaz de lejos.
Usando el árbol para clasificar registros
Para usar el árbol como clasificador, todo lo que se requiere es estimar el problema de clase
habilidades como se describió anteriormente y etiquete cada hoja con su clase más probable.
Este es un uso de árboles de decisión que a menudo se presenta como primario en el ámbito académico.
literatura. En el mundo del marketing, las estimaciones de probabilidad de clase suelen ser
más útil que la clasificación porque los clasificadores producen con bastante frecuencia
Solo un resultado. Clasificar a todos como no respondedores no es útil porque
el punto de crear modelos es diferenciar entre registros.
Un modelo que pone a todos en la misma clase no es sorprendente ni incómodo.
mon en aplicaciones de marketing donde los comportamientos de interés (respuesta, fraude,
desgaste, etc.) tienden a ser raros. No importa cómo los segmentos para un marketing
se definen las campañas, el resultado más probable en cualquier segmento es la no respuesta.
Afortunadamente, algunos segmentos tienen más probabilidades de responder que otros y eso
Es suficiente para ser útil. Una organización benéfica no le envía una apelación para donaciones.
porque piensan que responderás; te alcanzan porque piensan
La posibilidad de que responda, aunque baja, es lo suficientemente alta como para justificar el franqueo.
Usando el árbol para estimar valores numéricos
Un árbol utilizado para estimar el valor de una variable numérica de destino (en lugar de
la probabilidad de pertenencia a la clase) se conoce como un árbol de regresión . El árbol
está construido de manera que los registros en cualquier hoja dada tengan valores objetivo cercanos al 
promedio
edad para esa hoja, o en el lenguaje de las estadísticas, el objetivo es minimizar el
varianza de los valores objetivo en cada hoja. El promedio de la hoja es el puntaje asignado
a cualquier nuevo registro que coincida con la regla para la hoja.
Un árbol de regresión solo puede generar tantos valores distintos como haya
Hojas en el árbol. Usar un modelo discreto como un árbol de regresión para estimar
un valor continuo puede parecer extraño al usar una función continua para estimar
los valores continuos de mate parecen más naturales; sin embargo, los árboles de regresión pueden ser
usado de otras maneras, como seleccionar las variables para un modelo de regresión. También,
los árboles de regresión hacen un buen trabajo al dividir los datos originales en segmentos locales
ments. Construir un modelo diferente en cada segmento utilizando una técnica como
La regresión también puede producir modelos efectivos. La siguiente sección discute
esta idea de encontrar fenómenos locales en los datos.

Page 283
Capítulo 7 ■ Árboles de decisión 245

Los árboles de decisión son modelos locales
La discusión de los modelos de regresión en el capítulo anterior señala que
los modelos de regresión son globales y, como consecuencia, los modelos de regresión no
hacer un buen trabajo ajustando datos que tengan características locales. Tratando de encajar local
Los fenómenos en el espacio de entrada cambian los valores del modelo en todas partes.
Los árboles de decisión, por otro lado, son modelos locales; tallan el espacio de entrada
en segmentos y producir una estimación separada para cada uno.
La Figura 7­2 muestra un árbol que usa solo dos variables de entrada, días desde el último
pedidos de compra y de por vida para predecir el tamaño del pedido , una variable numérica. Esta
el árbol tiene 12 hojas y una profundidad de 4. La figura 7­3 muestra el mismo modelo que un rectángulo.
caja angular dividida en más cajas. Cada caja secundaria representa una hoja en el árbol.
Observe que los cuadros llenan todo el rectángulo. Así como todos los registros alcanzan algunos
hoja, cada registro aterriza en una caja. El sombreado de los cuadros representa el promedio
tamaño del pedido para los registros que aterrizan allí; Las cajas más oscuras tienen tamaños de pedido 
promedio más altos.
Las divisiones en sí son las líneas verticales y horizontales en este cuadro. Cada
la división en pedidos de por vida corresponde a uno de los segmentos de línea vertical. Cada
dividido en días desde la última compra corresponde a una de las líneas horizontales
segmentos La línea vertical más larga, justo en el medio de la figura, es la
división más alta en el árbol.
Este ejemplo solo usa dos dimensiones, porque es más fácil de mostrar en un
diagrama. Introducir otra variable introduciría otra dimensión. Entonces,
los datos se representarían como una forma de ladrillo (técnicamente, un polihe rectangular
dron), y se dividiría en pequeños ladrillos, por planos cortándolo en pedazos.
Figura 7­2: Un árbol de regresión para el tamaño de orden promedio en función de lo reciente y la frecuencia.
Promedio
contar:
47,75
48356
Promedio
contar:
54,67
1025
Promedio
contar:
49,92
3876
Promedio
contar:
49,53
4870
Promedio
contar:
43,79
4870
Promedio
contar:
52,44
5109
Promedio
contar:
48,58
9937
Promedio
contar:
49,71
2463
Promedio
contar:
44,66
9498
Promedio
contar:
39,39
1863
Promedio
contar:
37,18
1715
Promedio
contar:
38,33
3576
Promedio
contar:
45,70
11961
Promedio
contar:
49,89
15046
Promedio
contar:
48,03
27007
Promedio
contar:
71,66
1772
Promedio
contar:
48,06
14459
Promedio
contar:
37,08
5118
Promedio
contar:
46,29
32125
Promedio
contar:
50,64
16231
Promedio
contar:
46,60
9558
Promedio
contar:
50,91
4901
Promedio
contar:
34,17
1540
pedidos de por vida
<3922
> = 3922
> = 617.5
> = 2383.5
<2383.5
<617,5
> = 2635.5
<2635.5
> = 560.5
<560,5
> = 145.5
<1108
> = 1630.5
<1630.5
<2.5
> = 2.5
> = 170.5
<170,5
> = 1108
<145,5
días desde el último
días desde el último
días desde el último
días desde el último
días desde el último
días desde el último
días desde el último
días desde el último
días desde el último
días desde el último
> = 1.5
<1.5

Page 284
246 Capítulo 7 ■ Árboles de decisión
Figura 7­3: El árbol coloca los registros en cajas rectangulares.
2,385
3.922
617
170
1,630
2,635
560
145
$ 46.60
$ 49.92
$ 54.67
$ 39.39
$ 37.18
$ 49.71
$ 44.66
$ 48.58
$ 52.44
Días desde la última compra
Pedidos de por vida
$ 34.17
$ 71.66
El diagrama de caja hace que sea más fácil ver un patrón interesante que es difícil de
Mancha en el árbol. En su mayor parte, los clientes que han realizado un pedido recientemente
tienen tamaños de pedido más grandes. Sin embargo, existe un punto donde la correlación entre
La antigüedad y el tamaño del pedido cambian de dirección. En la mayor parte del rango, orden promedio
El tamaño aumenta con la actualidad. En otras palabras, está inversamente correlacionado con los días.
Desde la última compra . Pero sorprendentemente, el tamaño promedio de pedido más alto es
en el cuadro en la esquina superior izquierda ­ clientes cuya única compra fue más
que hace siete años (Por otro lado, parece un poco extraño que la compañía lo haga
no purgue a los "clientes" que no hayan realizado una compra en siete años a partir de su
archivo de la casa Quizás purguen a la mayoría de esos clientes, pero ahorren a quienes
han gastado más de $ 50, lo que podría explicar por qué los clientes perdidos hace mucho tiempo
todavía en el archivo estaban todos esos grandes gastadores.) Cualquiera sea su causa, el cambio de signo
de la correlación significa que un modelo de regresión podría no hacer un buen uso de
La variable de actualidad. Los modelos de regresión asumen la relación entre un
entrada y el objetivo es el mismo en todas partes.
Debido a que el modelo de árbol de decisión es local, está bien para la relación entre
La antigüedad y el tamaño del pedido son bastante diferentes en diferentes hojas. Si nuevos clientes
si entraran y hicieran compras muy grandes, no tendrían ningún efecto en el
cuadro en la esquina superior izquierda, que solo contiene clientes cuya compra más reciente
Fue hace mucho tiempo. Por el contrario, uno podría alterar los datos de capacitación para darles a los clientes
Page 285
Capítulo 7 ■ Árboles de decisión 247
el cuadro superior izquierdo una compra promedio de $ 100 o incluso $ 1,000 sin afectar
El tamaño promedio del pedido en cualquier otra caja. Otra fortaleza del árbol de regresión.
modelo es eso, porque los tamaños de pedido estimados asociados con cada cuadro son
promedios de los valores reales observados, nunca pueden ser demasiado irrazonables. Esta
está en contraste con un modelo de regresión, que puede predecir tamaños de orden negativos
u otros valores fuera del rango de lo que se ha visto.
El diagrama de árbol tradicional es una forma muy efectiva de representar lo real
estructura de un árbol de decisión, pero para algunos propósitos, diagramas de caja como el de
La figura 7­3 puede ser más expresiva. Un diagrama de caja trae todas las hojas, no importa
cuántos niveles hay en el árbol, a la superficie donde son fáciles de componer
cortar. Por ejemplo, la Figura 7­3 muestra de un vistazo que la esquina superior izquierda contiene
Los que más gastan. Una forma de pensar sobre los árboles de decisión es que ellos
son una forma de dibujar cuadros alrededor de grupos de registros similares. Todos los registros
dentro de un cuadro en particular se clasifican de la misma manera porque todos cumplen con el
regla que define ese cuadro. Esto difiere de los métodos de clasificación global como
regresión logística e inventos más recientes como máquinas de vectores de soporte,
todos los cuales intentan particionar datos en clases dibujando una sola línea o
curva o hiperplano a través del espacio de datos. Esta es una distinción fundamental:
Los modelos globales son débiles cuando hay varias formas muy diferentes para un registro
para formar parte de la clase objetivo.
En la industria de las tarjetas de crédito, por ejemplo, hay varias formas para que los clientes
para ser rentable Algunos clientes rentables, llamados revólveres , tienen pocas transacciones
tasas, pero mantenga altos saldos rotativos sin incumplimiento. Transactores , en el
Por otro lado, pagar su saldo completo cada mes, pero son rentables debido a
El alto volumen de transacciones que generan. Sin embargo, otros, llamados usuarios de conveniencia ,
tiene pocas transacciones, pero ocasionalmente realiza una compra grande y toma varias
meses para pagarlo. Dos clientes muy diferentes pueden ser igualmente rentables. UNA
el árbol de decisión puede encontrar cada grupo separado, etiquetarlo y proporcionar una descripción
En cada cuadro, sugiera el motivo de la rentabilidad de cada grupo.

Árboles de decisión en crecimiento
Aunque hay muchas variaciones en el algoritmo del árbol de decisión central, todas
ellos comparten el mismo método básico para crear el árbol: haga clic en la decisión
icono de árbol en su herramienta de elección o llame al procedimiento de árbol de decisión apropiado.
¿Pero qué pasa adentro? Esta sección se sumerge en más detalles, porque
mantener los detalles le ayuda a usar los árboles de decisión de manera más efectiva y
entender sus resultados más fácilmente.
El algoritmo del árbol de decisión divide repetidamente los datos en pequeños y
grupos más pequeños de tal manera que cada nuevo conjunto de nodos tenga mayor pureza
que sus antepasados con respecto a la variable objetivo. En su mayor parte, esto
la discusión asume una variable objetivo binaria y categórica, como respondedor /
no respondedor Esta suposición simplifica las explicaciones sin mucho
Pérdida de generalidad.
Page 286
248 Capítulo 7 ■ Árboles de decisión
Encontrar la división inicial
Al comienzo del proceso, hay un conjunto de modelos que consiste en preclasificados
registros, es decir, el valor de la variable de destino es conocido para todos los casos. los
El objetivo es construir un árbol que use los valores de los campos de entrada para crear reglas que
dan como resultado hojas que hacen un buen trabajo al asignar un valor objetivo a cada registro.
Para un objetivo binario, este valor es la probabilidad de pertenencia a cada clase.
Recuerde que cada registro en el conjunto de modelos comienza con un objetivo conocido, y
Esto guía la construcción del árbol.
El árbol comienza con todos los registros en un subconjunto del conjunto de modelos (el tren)
conjunto ing ­ en el nodo raíz. La primera tarea es dividir los registros en hijos por
creando una regla sobre las variables de entrada. ¿Cuáles son los mejores niños? La respuesta
son los más puros en uno de los valores objetivo, porque el objetivo es
separe los valores del objetivo tanto como sea posible.
Para realizar la división, el algoritmo considera todas las divisiones posibles en todas las entradas
variables Por ejemplo, durante días desde la última compra , el árbol considera dividido
ting a los 100 días, con clientes que tienen de 0 a 100 días para un niño y el
descanse yendo al otro niño. Considera divisiones a 1 día y a 1,000 días, y
en todos los demás valores distintos encontrados en el conjunto de entrenamiento. El algoritmo evalúa
divide, y elige el mejor valor de división para cada variable. La mejor variable
es el que produce la mejor división.
La medida utilizada para evaluar una división potencial es la pureza de la variable objetivo
en los niños Baja pureza significa que la distribución del objetivo en el
children es similar a la del nodo padre, mientras que alta pureza significa que
predominan los miembros de una sola clase. La mejor división es la que aumenta
pureza en los niños por la mayor cantidad. Una buena división también crea nodos
de tamaño similar, o al menos no crea nodos que contengan muy pocos registros.
Estas ideas son fáciles de ver visualmente. La figura 7­4 ilustra algunas buenas y
malas divisiones En este caso, los datos originales consisten en nueve círculos y nueve tri­
ángulos y el objetivo es separar estos dos grupos. La primera división es un pobre
uno porque no existe un aumento en la pureza. La población inicial contiene igual
números de las dos formas; después de la división, también lo hace cada niño. La segunda división
también es pobre, porque aunque la pureza aumenta ligeramente, el nodo puro tiene
pocos miembros y la pureza del niño más grande es solo marginalmente mejor que
la del padre La división final es buena porque conduce a hijos de
aproximadamente del mismo tamaño y con una pureza mucho más alta que la de los padres. Visualizante
la pureza es quizás más fácil que formalizar el concepto para que pueda calcularse
por una computadora; La siguiente sección discute varias formas diferentes de calcular
pureza, incluidas medidas para objetivos categóricos y numéricos.
Las divisiones se evalúan según la pureza de los niños resultantes en el objetivo.
variable. Esto significa que la elección de un criterio de división apropiado depende
en el tipo de la variable de destino, no en el tipo de la variable de entrada. Numérico
los objetivos tienen diferentes definiciones de pureza de los objetivos categóricos y binarios.

Página 287
Capítulo 7 ■ Árboles de decisión 249
Figura 7­4: Una buena división aumenta la pureza de todos los niños.
Buena división
Pobre división
Pobre división
División en una variable de entrada numérica
Al buscar una división binaria en una variable de entrada numérica, distinga cada
El valor que la variable adquiere en el conjunto de entrenamiento se trata como un valor candidato
por la división Las divisiones en una variable numérica toman la forma X < N . Todos los registros donde
el valor de X (la variable de división) es menor que algunas N constantes que se envían a
un hijo y todos los registros donde el valor de X es mayor o igual que N son
enviado al otro. Después de cada división de prueba, el aumento de la pureza debido a la división es
mesurado. En aras de la eficiencia, algunas implementaciones de árboles de decisión
use una muestra representativa de los valores en lugar de evaluar cada uno.
Cuando se puntúa el árbol de decisión, el único uso que hace de las entradas numéricas
es comparar sus valores con los puntos divididos. Nunca se multiplican por
pesos o sumados como están en muchos otros tipos de modelos. Esto tiene
La importante consecuencia de que los árboles de decisión no son sensibles a los valores atípicos o
distribuciones sesgadas de variables numéricas.
División en una variable de entrada categórica
El algoritmo más simple para dividir en una variable de entrada categórica es crear
una nueva rama para cada clase que puede asumir la variable categórica. Entonces, una división
en el mes de inicio del contrato produciría doce hijos, uno para cada calendario

Page 288
250 Capítulo 7 ■ Árboles de decisión
mes. Este enfoque se ha utilizado en algunas implementaciones de software, pero
a menudo produce malos resultados. Los altos factores de ramificación reducen rápidamente la población
de registros de capacitación disponibles en cada nodo secundario, lo que hace que la división sea menor
probable y menos confiable.
Un enfoque mejor y más común es agrupar clases que, tomadas
individualmente, predicen resultados similares. Para un objetivo binario, el enfoque más simple
es determinar la proporción del objetivo para cada valor de la variable de entrada.
Luego, todos los valores que tienen una proporción menor de un valor objetivo que el
el nodo padre va a un hijo y el resto al otro hijo.
Un enfoque más sofisticado analiza las distribuciones del objetivo dentro de
cada valor de la variable de entrada, y combina valores cuyas distribuciones son
muy similar. La prueba habitual para determinar si las distribuciones difieren significativamente es
La prueba de chi­cuadrado explicada en el Capítulo 4.
División en presencia de valores perdidos
Una de las mejores cosas de los árboles de decisión es su capacidad para manejar las fallas.
ing valores en campos de entrada usando nulo como un valor permitido. Este enfoque
es preferible tirar registros con valores faltantes o intentar imputar
valores faltantes. Es probable que desechar registros cree un conjunto de entrenamiento sesgado
porque los registros con valores perdidos probablemente no sean una muestra aleatoria de
la población. Reemplazar valores perdidos por valores imputados corre el riesgo
esa información importante proporcionada por el hecho de que falta un valor será
ignorado en el modelo.
Los autores han visto muchos casos donde el hecho de que un valor particular
es nulo tiene valor predictivo. En uno de estos casos, el recuento de valores no nulos en
los datos demográficos a nivel de hogar adjuntos fueron predictivos de la respuesta
a una oferta de seguro de vida a término. Al parecer, las personas que dejan muchos rastros
en la base de datos de hogares de Acxiom (comprando casas, casándose, teniendo
bebés, registrar productos, suscribirse a revistas, etc.) son más
Es probable que esté interesado en un seguro de vida que aquellos cuyos estilos de vida dejan más
campos nulos.
ADVERTENCIA Los árboles de decisión pueden producir divisiones basadas en valores faltantes de
Una variable de entrada. El hecho de que un valor sea nulo a menudo puede tener un valor predictivo
así que no se apresure a filtrar registros con valores faltantes o intente reemplazar
ellos con valores imputados.
Un enfoque alternativo a los valores perdidos, que forma parte del algoritmo CART
Ritmo y disponible en varias implementaciones de software, mantiene varias divisiones
reglas para cada nodo. Estas divisiones sustitutas usan diferentes campos para producir similares
resultados. Cuando se encuentra un valor nulo en el campo que produce la mejor división,
se puede usar la siguiente mejor regla. El uso de divisiones sustitutas es más interesante

Page 289
Capítulo 7 ■ Árboles de decisión 251
en teoría que en la práctica porque a menudo, cuando falta la primera variable,
faltan sustitutos también. Por ejemplo, si la primera variable es del censo
datos y describe algo sobre el barrio, los sustitutos probablemente
También describa el barrio. Y, si falta la primera variable, es porque
la información del censo no está disponible para la dirección del cliente, por lo que es similar
También faltan variables.
Cultivando el árbol completo
La división inicial produce dos o más hijos, cada uno de los cuales se divide en el
de la misma manera que el nodo raíz. Esto se llama algoritmo recursivo , porque el
Se utiliza el mismo método de división en los subconjuntos de datos en cada elemento secundario. Una vez 
más,
todos los campos de entrada se consideran divisores candidatos, incluso los campos ya utilizados
para divisiones Finalmente, la construcción del árbol se detiene, por una de tres razones:
■ No se puede encontrar ninguna división que aumente significativamente la pureza de cualquier nodo

niños.
■ El número de registros por nodo alcanza un límite inferior preestablecido.

■ La profundidad del árbol alcanza un límite predeterminado. En este punto, el pleno

El árbol de decisión ha sido cultivado.
Si existiera una relación completamente determinista entre las variables de entrada
y el objetivo, esta división recursiva eventualmente produciría un árbol con
hojas completamente puras. Fabricar ejemplos de este tipo es fácil, pero no
ocurren muy a menudo en aplicaciones de marketing o CRM. Datos de comportamiento del cliente
casi nunca contiene relaciones claras y deterministas entre entradas y
salidas. El hecho de que dos clientes tengan exactamente la misma descripción en términos
de las variables de entrada disponibles no garantiza que exhibirán la misma
comportamiento. Un árbol de decisión para un modelo de respuesta de catálogo podría incluir una 
representación de hoja
resentido a las mujeres con una edad superior a 50, tres o más compras dentro del
el año pasado, y un gasto total de por vida de más de $ 145. Los clientes llegando
esta hoja típicamente será una mezcla de respondedores y no respondedores. Si la hoja en
la pregunta se etiqueta como "respondedor", entonces la proporción de no respondedores es la
tasa de clasificación errónea para esta hoja.
Una circunstancia en la que es probable que se descubran reglas deterministas es
cuando los patrones en los datos reflejan las reglas del negocio. Los autores tenían este hecho impulsado
a casa mientras analiza los reclamos de garantía en Caterpillar, un fabricante
de motores diesel. Creamos un modelo de árbol de decisión para predecir qué reclamos
ser aprobado. En ese momento, la compañía tenía la política de pagar ciertos reclamos
automáticamente. Los resultados fueron sorprendentes: el árbol de decisión tenía algunas hojas
que eran 100 por ciento precisos en datos de prueba no vistos. En otras palabras, el árbol tenía
descubrió las reglas exactas utilizadas para clasificar los reclamos. Por supuesto, descubriendo
las reglas comerciales conocidas pueden no ser particularmente útiles; lo hace, sin embargo, subrayar

Page 290
252 Capítulo 7 ■ Árboles de decisión
La efectividad de los árboles de decisión en problemas orientados a las reglas. En este mismo
problema, una red neuronal también produjo buenos resultados, pero no pudo explicar
los patrones que encontró El árbol de decisión podría identificar una regla comercial que
explicó por qué el modelo estaba tan bien.

Encontrar la mejor división
Se pueden usar muchos criterios diferentes para evaluar posibles divisiones. División alternativa
Los criterios de ting a menudo conducen a árboles que se ven muy diferentes entre sí, pero
Tener un rendimiento similar. Eso es porque generalmente hay muchos candidatos
Se divide con un rendimiento muy similar. Diferentes medidas de pureza seleccionan diferentes
se divide, pero debido a que todas las medidas intentan capturar la misma idea, el
Los modelos resultantes tienden a comportarse de manera similar.
La figura 7­5 muestra una buena división. El nodo padre contiene 9 círculos y 9
triangulos. El niño izquierdo contiene 7 círculos y 1 triángulo. El niño correcto
contiene 8 triángulos y 2 círculos. Claramente, la pureza ha aumentado, pero ¿cómo puede
el aumento se cuantifica? ¿Y cómo se puede comparar esta división con otras?
Eso requiere una definición formal de pureza, varias de las cuales se enumeran a continuación.
Figura 7­5: Una buena división en una variable categórica binaria aumenta la pureza.
Las medidas de pureza para evaluar divisiones para variables objetivo categóricas incluyen:
■ Gini (también llamada diversidad de población)

■ Entropía (también llamada ganancia de información)

Page 291
Capítulo 7 ■ Árboles de decisión 253
■ prueba de Chi­cuadrado

■ Respuesta incremental

Cuando la variable objetivo es numérica, un enfoque es agrupar el valor y usar
Una de las medidas anteriores. Sin embargo, dos medidas son de uso común
para objetivos numéricos:
■ Reducción de varianza

■ prueba F

Tenga en cuenta que la elección de una medida de pureza adecuada depende de si
La variable de destino es categórica o numérica. El tipo de la variable de entrada hace
no importa. La división ilustrada en la Figura 7­5 podría proporcionarse con la misma facilidad
por una variable de entrada numérica ( EDAD> 46 ) o por una variable categórica ( STATE es un
miembro de CT, MA, ME, NH, RI, VT).
Gini (diversidad de la población) como criterio de división
Un criterio de división popular se llama Gini, después del siglo XX italiano
estadista y economista, Corrado Gini. Esta medida, que también se usa
por biólogos y ecologistas que estudian la diversidad de la población, da el problema
capacidad de que dos elementos elegidos al azar de la misma población estén en el
misma clase.
Como ejemplo, considere un ecosistema que tiene exactamente dos animales: astutamente
coyotes y correcaminos. La pregunta es: ¿qué tan puro es este ecosistema? los
El enfoque para responder esta pregunta es el siguiente: Dos ecologistas entran en el
ecosistema y cada uno toma una foto de un animal. La pureza es entonces la probabilidad
que estas dos imágenes son del mismo tipo de animal. Para una población pura,
la probabilidad es 1, porque las imágenes siempre serán de ese animal. Para
población que es mitad coyotes astutos y mitad correcaminos, la probabilidad es 0.5.
Esta probabilidad es el puntaje de Gini.
Para la medida de Gini, un puntaje de 0.5 significa que dos clases están representadas
Igualmente. Cuando un nodo tiene solo una clase, su puntaje es 1. Porque los nodos más puros
tener puntuaciones más altas, el objetivo de los algoritmos de árbol de decisión que utilizan esta medida
es maximizar el puntaje de Gini de la división.
La medida de Gini de un nodo es fácil de calcular. Es simplemente la suma de
los cuadrados de las proporciones de las clases en el nodo. Para la división que se muestra
En la Figura 7­5, la población de padres tiene el mismo número de círculos y tri­
anglos. Un nodo con igual número de cada una de las dos clases tiene una puntuación de
P (círculo) 2 P (triángulo) 2
0.5 2
0.5 2
0.5, que se espera porque la posibilidad
de elegir la misma clase dos veces por selección aleatoria con reemplazo es 1 salida
de 2. La puntuación de Gini para el niño izquierdo es 0.125 2
0.875 2
0.781. El puntaje de Gini
para el niño correcto es 0.200 2
0.800 2
0.680.

Page 292
254 Capítulo 7 ■ Árboles de decisión
Para calcular el impacto de una división, tome el promedio de las puntuaciones de Gini de
los niños, ponderados por el tamaño de cada niño. En este caso, 0.444 * 0.875
0,556 * 0,680 0,725.
Como se muestra en la Figura 7­6, el puntaje de Gini varía entre 0.5 y 1. A perfectamente
el nodo puro tiene una puntuación de Gini de 1. Un nodo que está equilibrado de manera uniforme tiene una 
puntuación de Gini
de 0.5. A veces, la puntuación se manipula para que esté en el rango de 0 a 1
(duplicando el puntaje y restando el resultado de 1). Sin embargo, tal manipulación
La relación no hace ninguna diferencia al comparar diferentes puntajes para optimizar la pureza.
Figura 7­6: Para un objetivo binario, el puntaje de Gini varía de 0.5 cuando
hay un número igual de cada clase a 1 cuando todos los registros están en
la misma clase.
0.0
0.1
0.2 0.2
0,3
0.4 0.4
0.5 0.5
0.6
0.7
0.8
0.9
1.0
0%
10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Proporción en 1ra clase
Gini

Reducción de entropía o ganancia de información
como criterio de división
La obtención de información utiliza una idea inteligente para definir la pureza, prestada del mundo
de aprendizaje automático. Si una hoja es completamente pura, entonces las clases en la hoja pueden ser
se describe muy fácilmente, solo hay uno. Por otro lado, si una hoja es altamente
impuro, luego describirlo es mucho más complicado. La teoría de la información tiene
una medida para esto llamada entropía , que mide qué tan desorganizado es un sistema
es. Una introducción integral a la teoría de la información está mucho más allá del alcance
de este libro Para los propósitos de este libro, la noción intuitiva es que el número
de bits requeridos para describir un resultado particular depende del número de
posibles resultados Puedes pensar en la entropía como una medida del número de
sí / no preguntas que tomaría para determinar el estado del sistema. Si hay
16 estados posibles, toma registro
2

(16), o cuatro bits, para enumerarlos o identificar un
uno particular La información adicional reduce la cantidad de preguntas necesarias

Page 293
Capítulo 7 ■ Árboles de decisión 255
para determinar el estado del sistema, por lo que la ganancia de información significa lo mismo
como reducción de entropía. Ambos términos se usan para describir algoritmos de árbol de decisión.
La entropía de un nodo de árbol de decisión particular se puede calcular fácilmente usando
una fórmula. La entropía para un nodo es la suma, para todos los valores objetivo en el nodo,
de la proporción de registros con un valor particular multiplicado por la base dos
logaritmo de esa proporción. (En la práctica, esta suma generalmente se multiplica por –1
para obtener un número positivo, porque los logaritmos de probabilidades son
negativo.) A pesar de los logaritmos, esta fórmula es bastante similar a la fórmula para
el puntaje de Gini; el puntaje de Gini multiplica la proporción de cada valor objetivo por sí mismo
mientras que la puntuación de entropía multiplica la proporción de cada valor objetivo por su logaritmo.
Como se muestra en la Figura 7­7, una puntuación de entropía de 1 significa que dos clases son 
representativas
resentido igualmente. Cuando un nodo tiene solo una clase, su puntaje es 0. Entonces, los nodos más puros
tienen puntajes más bajos y el objetivo es minimizar el puntaje de entropía de la división.
Figura 7­7: La entropía va de 0 para una población pura a 1 cuando hay un igual
Número de cada clase.
0.0
0.1
0.2 0.2
0,3
0.4 0.4
0.5 0.5
0.6
0.7
0.8
0.9
1.0
0%
10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Proporción en 1ra clase
Entropía
La entropía de una división se calcula de la misma manera que la puntuación de Gini: es
simplemente el promedio ponderado de las entropías de todos los niños. Cuando la entropía
la reducción es el criterio de división, el algoritmo del árbol de decisión selecciona la división
eso reduce la entropía en la mayor cantidad.
Para una variable objetivo binaria como la que se muestra en la Figura 7­5, la fórmula
para la entropía de un solo nodo es:
1 * ( P (círculo) log
2 P (círculo) P (triángulo) log
2

P (triángulo))
En este ejemplo, para el niño izquierdo, P (círculo) es 7 de 8 y P (triángulo) es 1 de
de 8. Al conectar estos números a la fórmula de entropía se obtiene:
1 * (0.875 log
2 (0,875) 0,125 log 2 (0,125)) 0,544

Page 294
256 Capítulo 7 ■ Árboles de decisión
El primer término es para los círculos y el segundo término es para los triángulos. Para el
hijo derecho, P (círculo) es 2 de 10 y P (triángulo) es 8 de 10. Enchufar estos
en la fórmula de entropía produce:
1 * (0.200 log
2 (0.200) 0.800 log 2 (0.800)) 0.722

Para calcular la entropía total del sistema después de la división, multiplique la entropía
de cada nodo por la proporción de registros que llegan a ese nodo y los suman.
En este ejemplo, 8 de 18 registros están en el niño izquierdo y 10 de 18 en el derecho. los
La reducción total de la entropía o la ganancia de información debido a la división funciona a 0.643.
Esta es la cifra que se usaría para comparar esta división con otros candidatos.
Proporción de ganancia de información
Las medidas de pureza pueden tener problemas cuando la metodología de división permite
Más de dos divisiones. Este fue el caso de ID3, una herramienta de árbol de decisiones desarrollada por
El investigador australiano J. Ross Quinlan en la década de 1980 que se convirtió en parte de varios
paquetes de software de minería de datos comerciales. Y fue particularmente grave
problema para ID3, porque colocó cada categoría en un hijo separado, lo que resulta
en nodos con muchos hijos. Sin embargo, el mismo problema surge cada vez que un árbol
considera divisiones con diferentes números de niños. Solo rompiendo el más grande
conjunto de datos en muchos subconjuntos pequeños, el número de clases representadas en cada nodo
tiende a disminuir, por lo que cada niño aumenta su pureza, incluso para una división aleatoria.
El profesor Quinlan usó la entropía para ID3. La disminución de la entropía debido únicamente a
El número de ramas se llama información intrínseca de una división. Por un azar
división n­way, la probabilidad de cada rama es 1 / n . Por lo tanto, la entropía debida
únicamente para dividir desde una división en n direcciones es n * 1 / n log (1 / n) o log (1 / n) (y un
un cálculo similar se aplicaría para Gini). Debido a la información intrínseca.
de divisiones de muchos sentidos, árboles de decisión construidos utilizando la división de reducción de 
entropía
criterio sin ninguna corrección para la información intrínseca debido a la división
tienden a preferir muchas divisiones en un nodo. Árboles espesos con muchas divisiones de múltiples vías
no son deseables porque estas divisiones conducen a un pequeño número de registros en cada
nodo: una receta para modelos inestables.
En reacción a este problema, C5.0 y otros descendientes de ID3 que una vez
la ganancia de información utilizada ahora usa la relación de la ganancia de información total debido a un
división propuesta a la información intrínseca atribuible únicamente al número de
ramas creadas como criterio para evaluar las divisiones propuestas. Esta prueba reduce
La tendencia hacia árboles muy tupidos que fue un problema en la decisión anterior
paquetes de software de árbol.
Prueba de Chi­cuadrado como criterio de división
Como se describe en el Capítulo 4, la prueba de chi­cuadrado es una prueba de significación estadística
desarrollado por el estadístico inglés Karl Pearson en 1900. El valor de chi­cuadrado

Page 295
Capítulo 7 ■ Árboles de decisión 257
mide qué tan probable o improbable es una división. Cuanto mayor sea el valor de chi­cuadrado, el
es menos probable que la división se deba al azar, y no ser debido al azar significa que
La división es importante.
Calcular el valor de chi­cuadrado se basa en una fórmula simple. Para un nodo hijo,
el valor de chi­cuadrado es la suma de los cuadrados de las diferencias entre el
frecuencias esperadas y observadas de cada valor del objetivo, dividido por el
frecuencia esperada El valor de chi­cuadrado de una división es simplemente la suma de
valores de chi­cuadrado de todos los niños, no el promedio ponderado como con Gini
y entropía. En común con otras pruebas de significación, es una medida de la
probabilidad de que pueda ocurrir una diferencia observada entre muestras solo por
oportunidad. Cuando se usa para medir la pureza de las divisiones del árbol de decisión, valores más altos
de chi­cuadrado significa que la variación es más significativa y no se debe simplemente
al azar.
Por ejemplo, suponga que la variable de destino es un indicador binario que indica si
o no, los clientes continuaron sus suscripciones al final de la introducción
período de oferta y la división propuesta está en el canal de adquisición , un categórico
variable con tres clases: correo directo, llamada saliente y correo electrónico. Si el acervo­
canal no tuvo efecto en la tasa de renovación, el número esperado de renovaciones en
cada clase sería proporcional al número de clientes adquiridos a través de
ese canal
Cada división propuesta se puede evaluar de acuerdo con la siguiente tabla:
Tabla 7­1: Tabla de contingencia para la evaluación dividida
RESPUESTA = 0
RESPUESTA = 1
Niño izquierdo
# de 0s a la izquierda
# de 1s a la izquierda
Niño derecho
# de 0s a la derecha
# de 1 a la derecha
En una tabla de contingencia, como esta, cualquier registro dado se cuenta exactamente una vez.
El valor de chi­cuadrado mide la probabilidad de que la tabla de contingencia pueda
ser debido al azar. La idea es que una división debido al azar no es interesante, algunos
Otra división es más útil. Esto se mide observando las proporciones de
El objetivo en los niños. Cuando tienen proporciones similares a sus padres,
entonces la división se debe probablemente al azar y, por lo tanto, no es interesante. En el otro
mano, si la distribución de la respuesta en los niños difiere de la del
padres, existe una probabilidad muy baja de que la división se deba al azar y la división
Es probable que sea útil.
Calcular el valor de chi­cuadrado solo requiere un poco de aritmética. Para cada
celda en la tabla, la prueba de chi­cuadrado calcula el número esperado de 0s y
1s. El valor de chi­cuadrado para cada celda se calcula restando el esperado
valor del valor observado, cuadrando el resultado y dividiendo por el esperado

Page 296
258 Capítulo 7 ■ Árboles de decisión
número. El chi­cuadrado general es la suma de todas las contribuciones de chi­cuadrado de la celda.
iones Como se describe en el Capítulo 4, la distribución de chi­cuadrado proporciona una forma de
traducir esta puntuación de chi­cuadrado a una probabilidad, aunque esto no es necesario
cuando se usa para árboles de decisión. Para medir la pureza de una división en una decisión
árbol, la puntuación es suficiente. Una puntuación alta de chi­cuadrado significa que la propuesta
dividir con éxito divide a la población en subpoblaciones con significativamente
diferentes distribuciones
A diferencia de las medidas de Gini y entropía, el valor de chi­cuadrado no tiene
un rango restringido como 0 a 1; crece a medida que crece la cantidad de datos.
La Figura 7­8 representa gráficamente el valor de chi­cuadrado para una muestra de 100 registros, tomados de
un
población de padres que tiene números iguales en cada una de las dos clases, como el número
de elementos en la primera clase varía de 0 a 100.
Figura 7­8: Chi­cuadrado es 0 cuando la distribución de la muestra es la misma que la de la población.
100
90
80
70
60 60
50
40
Chi­cuadrado (n = 100)
30
20
10
0 0
0 0
10
20
30
40
50
60 60
Conteo de registros en primera clase
70
80
90
100
La prueba de chi­cuadrado da su nombre a CHAID, un conocido árbol de decisión
algoritmo publicado por primera vez por John A. Hartigan en 1975 y mejorado por
Kass en 1980. El acrónimo completo significa Chi­square Automatic Interaction
Detector. CHAID utiliza la prueba de chi­cuadrado de varias maneras, primero para
fusionar clases que no tienen efectos significativamente diferentes en la variable objetivo,
luego elegir una mejor división y finalmente decidir si vale la pena realizar
cualquier división adicional en un nodo.
Respuesta incremental como criterio de división
Los criterios de división descritos hasta ahora dependen solo de la variable objetivo. Esta
La sección discute una medida diferente basada en la idea de respuesta incremental
introducido en el Capítulo 5. Cuando se trabaja con respuesta incremental, hay

Página 297
Capítulo 7 ■ Árboles de decisión 259
un grupo de prueba y un grupo de control, así como respondedores y no respondedores.
Los modelos de respuesta incremental intentan aislar a los persuables : las personas más
probablemente sea persuadido por una oferta, en lugar de aquellos que responderían de todos modos.
La respuesta incremental de modelado es diferente de la respuesta de modelado. La respuesta puede
medirse a nivel de individuos, pero la respuesta incremental no puede. Una persona
responde a una oferta o no, pero no hay forma de medir cómo alguien que
fue incluido en una campaña de marketing se habría comportado si se hubieran dejado de lado.
En el Capítulo 5, el enfoque es construir dos modelos de respuesta diferentes, uno para
probabilidad de respuesta dado el tratamiento (el grupo de prueba) y uno para probabilidad
de respuesta sin tratamiento (el grupo control). La respuesta incremental es
la diferencia entre estos dos puntajes Portrait Software tiene una alternativa inteligente
Enfoque activo para modelar la respuesta incremental. La mejora del software Portrait
Optimizer ™ crea un árbol de decisión utilizando la diferencia en respuesta entre
grupo tratado y el grupo de control como criterio de división utilizando registros de entrenamiento
que tienen una variable objetivo, como respuesta o falta de respuesta a una oferta,
y un campo que indica si el registro es del grupo de tratamiento o del control
grupo. La mejor división es la que maximiza la diferencia en la respuesta entre
Los dos grupos. Las hojas del árbol resultante identifican segmentos que son altamente
persuadible y segmentos que no lo son. Incluso puede haber segmentos que responden
mejor cuando no se trata. La barra lateral describe una aplicación de este enfoque.
Reducción de la varianza como criterio de división
para objetivos numéricos
Los cuatro criterios de división anteriores se aplican a objetivos categóricos. Cuando el
la variable objetivo es numérica, una forma de medir una buena división es que dicha división
debería reducir la varianza de la variable objetivo. Recordemos que la varianza es una medida
Asegúrese de la medida en que los valores de una muestra permanecen cerca del valor promedio.
En una muestra con baja varianza, la mayoría de los valores están bastante cerca del promedio; en un
muestra con alta varianza, muchos valores están bastante lejos del promedio.
Aunque la medida de reducción de la pureza de la varianza está destinada a valores numéricos
objetivos, los círculos y triángulos mostrados anteriormente en la Figura 7­5 todavía se pueden usar
para ilustrarlo considerando que los círculos son 1 y los triángulos son 0. El
El valor promedio en el nodo padre es claramente 0.5. Cada una de las 18 observaciones
difiere de la media en 0.5, por lo que la varianza es (18 * 0.5 2 ) / 18 0.25. Después
la división, el niño izquierdo tiene siete círculos y un triángulo, entonces el nodo significa
es 0.875. Siete de las observaciones difieren del valor medio en 0.125 y
una observación difiere del valor medio en 0.875. En el niño correcto, el
dos círculos y 8 triángulos tienen un valor promedio de 0.2. Los ocho triángulos
difieren del promedio en 0.2 y los dos triángulos difieren del promedio en
0.8. Entonces, la varianza entre ambos niños es (0.875 2
7 * 0.125 2
8 * 0.2 2
2 * 0.8 2 )
/ 18 0.138. La reducción en la varianza debido a la división es 0.25 0.138 0.112.

Page 298
260 Capítulo 7 ■ Árboles de decisión
BANCO DE ESTADOS UNIDOS MEJORA LA RESPUESTA INCREMENTAL
Con sede en Minneapolis, US Bank es uno de los diez bancos más grandes de
Estados Unidos con 2.850 sucursales que atienden a 15.8 millones de clientes. Ellos
son verdaderos creyentes en el valor del modelado de respuesta incremental para capturar
el verdadero retorno de la comercialización de dólares; en consecuencia, sus gerentes de producto
Las bonificaciones se basan en ello.
En la década de 1990, hicieron lo que muchos de sus competidores todavía hacen.
hoy: construyeron modelos de respuesta y esperaban que la gran respuesta fuera la respuesta
el modelo también produciría una elevación incremental. A menudo no fue así. Después de una cámara
paign, las personas con más probabilidades de responder ya no tenían más probabilidades de responder
de lo que ya estaban. En los años transcurridos desde entonces, US Bank ha intentado varios
enfoques para modelar la respuesta incremental.
El modelo de diferencia
El primer enfoque adoptado por US Bank fue el descrito en el Capítulo 5.
Los clientes fueron calificados utilizando un modelo capacitado en respuesta dada la inclusión
en la campaña y otro entrenado en un grupo de control no incluido en el
Campaña. Los clientes se clasificaron según la diferencia entre estos puntajes.
La dificultad con este enfoque es que el error estándar en la diferencia de
dos puntajes son más altos que el error estándar de cualquiera de los puntajes solos, y
los puntajes individuales pueden tener errores estándar altos cuando se basan
en pequeñas muestras Si construir buenos modelos fuera el único objetivo de la cámara
paign, la solución sería utilizar un tratamiento y control de gran tamaño e igual
grupos Desafortunadamente para los modeladores, el objetivo principal de la campaña es alcanzar
clientes persuadibles. Incluso en una empresa iluminada como el US Bank,
los modeladores tienen que negociar con los gerentes de marketing para obtener cualquier control
grupo en absoluto para los deciles superiores y que se les permita tener miembros de la
deciles inferiores incluidos en la campaña. Como resultado, el modelo de respuesta
dado que no hay tratamiento, se priva de datos en los deciles superiores y el modelo para
la respuesta al tratamiento dado se priva de datos en los deciles bajos.
El modelo matricial
US Bank intentó un enfoque basado en células. En los modelos basados en células, los clientes son
colocados en segmentos según el decil en el que se ubican para cada una de las variables
ables definiendo las celdas. En un modelo de respuesta incremental basado en celdas, al azar
los miembros seleccionados de cada celda se incluyen en una campaña de prueba. La diferencia en
la respuesta entre los incluidos y los excluidos se registra para cada celda,
y las celdas con la mayor diferencia en la tasa de respuesta están dirigidas a la
campaña completa US Bank llama a este enfoque el "modelo matricial". Sirvió como el
"campeón" de referencia para comparar con los modelos más nuevos de "retador".
Un desafío en la construcción de un modelo basado en células es decidir qué vari­
ables se deben usar para definir las celdas. Enfoque del Banco de EE. UU. A ese problema

Page 299
Capítulo 7 ■ Árboles de decisión 261
era esencialmente un árbol de decisión manual. Intentaron agrupar a cada candidato
variable a su vez para encontrar el que produjo la mayor diferencia en
respuesta entre el grupo de tratamiento y el grupo control. Los dos o
Se utilizaron tres mejores variables para esta medida para crear las celdas.
El optimizador vertical de retrato
US Bank finalmente se decidió por un paquete de software que crea árboles de decisión
con divisiones basadas en elevación incremental. Hicieron una comparación cabeza a cabeza
de la nueva herramienta con su modelo de matriz local en una campaña para cruzar
vender líneas de crédito con garantía hipotecaria a clientes existentes. Era un poco como John
Henry contra el simulacro de vapor: el modelo matricial y las celdas manuales fueron heroicas
esfuerzos, pero al final fueron derrotados por la tecnología moderna. El levantamiento
Optimizer de Portrait Software utiliza un árbol de decisión para elegir la mejor variedad
ables basados en la respuesta incremental. Como cualquier árbol de decisión, encuentra la opción
puntos incorrectos para dividir variables numéricas en lugar de usar límites arbitrarios,
como los deciles. Se trata del problema de la muestra pequeña, causado por el deseo.
para no perderse muchos persuadables, mediante el uso de embolsado y refuerzo . Harpillera
significa combinar los votos de varios modelos diferentes entrenados en el mismo
datos. Impulsar lleva esta idea más allá, al construir un segundo modelo capacitado en
los ejemplos que fueron clasificados erróneamente por el primero, y quizás un tercer modelo
entrenado en los errores del segundo.
La siguiente tabla muestra que el retador superó al campeón, especialmente
en los primeros tres deciles, los que están programados para recibir el correo.
Comparación campeón­retador.
Comparación de modelo
Uplift vs Matrix
Q107
0.00%
0.05%
0,10%
0,15%
0,20%
0.25%
0,30%
0,35%
0,40%
1
2
3
4 4
5 5
6 6
7 7
8
9 9
10
Décimo
Levantamiento acumulativo
Modelo de elevación
Modelo matricial

Page 300
262 Capítulo 7 ■ Árboles de decisión
Prueba F
Otro criterio de división que se puede usar para las variables numéricas objetivo es el F
prueba, llamada así por otro famoso inglés: el estadístico, astrónomo,
y genetista, Ronald. A. Fisher. Según los informes, Fisher y Pearson no obtuvieron
a pesar de, o quizás debido a, la gran superposición en sus áreas de interacción
est. La prueba de Fisher hace para variables continuas lo que la prueba de chi­cuadrado de Pearson
hace para variables categóricas. Proporciona una medida de la probabilidad de que
las muestras con diferentes medias y variaciones en realidad se extraen del
misma población
Existe una relación bien entendida entre la varianza de una muestra y
La varianza de la población de la que se extrajo. (De hecho, siempre que
las muestras son de tamaño razonable y se extraen al azar de la población, muestra
la varianza es una buena estimación de la varianza de la población; muestras muy pequeñas ­ con
menos de 30 observaciones más o menos, generalmente tienen una varianza más alta que su
poblaciones correspondientes.) La prueba F analiza la relación entre dos
estimaciones de la varianza de la población: una derivada de la agrupación de todas las muestras
y calcular la varianza de la muestra combinada, y una derivada de
la varianza entre muestras calculada como la varianza de las medias muestrales.
Si las diversas muestras se extraen al azar de la misma población, estas
dos estimaciones deberían coincidir estrechamente.
La puntuación F es la relación de las dos estimaciones. Se calcula dividiendo el
estimación entre muestras por la estimación de muestra agrupada. Cuanto mayor sea el puntaje,
menos probable es que todas las muestras se extraigan al azar de la misma
población. En el contexto del árbol de decisión, una puntuación F grande indica que una propuesta
split ha dividido exitosamente a la población en subpoblaciones con significativamente
diferentes distribuciones

Poda
El algoritmo básico para los árboles de decisión sigue haciendo crecer el árbol dividiendo nodos
siempre y cuando nuevas divisiones creen niños que aumenten la pureza. Tal árbol ha sido
optimizado para el conjunto de entrenamiento, por lo que eliminar las hojas solo aumentaría
La tasa de error del árbol en el conjunto de entrenamiento. ¿Esto implica que el árbol completo
¿También hace el mejor trabajo en nuevos datos? ¡Ciertamente no!
Un algoritmo de árbol de decisión hace su mejor división primero, en el nodo raíz donde
Hay una gran cantidad de registros. A medida que los nodos se hacen más pequeños, las idiosincrasias de
los registros particulares de entrenamiento en un nodo llegan a dominar el proceso. los
cuanto más pequeños se vuelven los nodos, mayor es el peligro de sobreajuste. Una manera de
Evitar el sobreajuste es establecer un tamaño de hoja mínimo grande. Otro enfoque es
permitir que el árbol crezca siempre que haya divisiones que parezcan ser significativas
en los datos de entrenamiento y luego elimine las divisiones que resultan inestables

Page 301
Capítulo 7 ■ Árboles de decisión 263
cortando hojas a través de un proceso llamado poda . Tres enfoques para
poda se discuten a continuación. Estas no son las únicas estrategias de poda posibles,
pero los dos primeros cubiertos aquí se implementan comúnmente, y el tercero
debería ser.
El algoritmo de poda CART
CART (árboles de clasificación y regresión) es un árbol de decisión popular
Ritmo publicado por primera vez por Leo Breiman, Jerome Friedman, Richard Olshen y
Charles Stone en 1984. El algoritmo CART cultiva árboles binarios y continúa
división siempre que se puedan encontrar nuevas divisiones que aumenten la pureza. Como se ilustra
En la Figura 7­9, dentro de un árbol complejo hay muchos subárboles más simples, cada uno de los cuales
representa una compensación diferente entre la complejidad y precisión del modelo. los
El algoritmo CART identifica un conjunto de subárboles como modelos candidatos. Estas
los subárboles candidatos se aplican al conjunto de validación y el árbol con
la validación del conjunto establece la tasa de clasificación errónea (o error cuadrado promedio para un valor 
numérico
objetivo) se selecciona como modelo final.
Figura 7­9: Dentro de un árbol complejo hay árboles más simples y más estables.
Crear subárboles candidatos
El algoritmo CART identifica subárboles candidatos a través de un proceso de repetición
poda. El objetivo es podar primero las ramas que proporcionan la menor cantidad de
Poder predictivo nacional por hoja. Para identificar estas ramas menos útiles, CART
se basa en un concepto llamado tasa de error ajustada . Esta es una medida que aumenta
tasa de clasificación errónea de cada nodo o error cuadrático medio en el conjunto de entrenamiento por
imponiendo una penalidad de complejidad basada en el número de hojas en el árbol. los
El error ajustado se utiliza para identificar ramas débiles (aquellas cuyo error no es bajo
suficiente para superar la penalización) y marcarlos para podar.

Página 302
264 Capítulo 7 ■ Árboles de decisión
La fórmula para la tasa de error ajustada es:
AE (T) = E (T) + recuento de hojas (T)
¿Dónde está un factor de ajuste que se incrementa en pasos graduales para crear
Nuevos subárboles. Cuando es 0, la tasa de error ajustada es igual a la tasa de error. los
El algoritmo continúa encontrando árboles ajustando y recortando un nodo en
una vez, creando una secuencia de árboles, 1
,
2

, y así sucesivamente, cada uno con cada vez menos
hojas. El proceso finaliza cuando el árbol ha sido podado hasta
El nodo raíz. Cada uno de los subárboles resultantes (a veces llamados alfa ) es un
candidato a ser el modelo final. Tenga en cuenta que todos los candidatos contienen la raíz
nodo y el candidato más grande es todo el árbol.
COMPARAR LAS TASAS DE MISCLASIFICACIÓN EN LA FORMACIÓN
Y CONJUNTOS DE VALIDACIÓN
La tasa de error en el conjunto de validación debe ser mayor que la tasa de error en el
conjunto de entrenamiento, porque el conjunto de entrenamiento se usó para construir las reglas en el modelo.
Sin embargo, una gran diferencia en la tasa de error de clasificación errónea es un síntoma
de un modelo inestable. Esta diferencia puede aparecer de varias maneras como se muestra
por los siguientes tres gráficos. Los gráficos representan el porcentaje de registros.
clasificado correctamente por los modelos candidatos en un árbol de decisión. Subcandidato
los árboles con menos nodos están a la izquierda; aquellos con más nodos están a la derecha.
Como se esperaba, el primer gráfico muestra que los árboles candidatos funcionan mejor
y mejor en el conjunto de entrenamiento ya que los árboles tienen más y más nodos: el
el proceso de entrenamiento se detiene cuando el rendimiento ya no mejora. Sobre el
conjunto de validación, sin embargo, los árboles candidatos alcanzan un pico y luego el rendimiento
mance comienza a disminuir a medida que los árboles se hacen más grandes. El árbol óptimo es el que
funciona mejor en el conjunto de validación, y la elección es fácil porque el pico es
bien definido.
Este gráfico muestra un punto de inflexión claro en el gráfico del porcentaje correctamente clasificado.
fied en el conjunto de validación.
A veces, sin embargo, no hay un punto claro de demarcación. Es decir, el per­
la forma de los modelos candidatos en el conjunto de validación nunca alcanza
máximo a medida que los árboles se hacen más grandes. En este caso, el algoritmo de poda elige
todo el árbol (el subárbol más grande posible), como se muestra.

Página 303
Capítulo 7 ■ Árboles de decisión 265
En este gráfico, el porcentaje correctamente clasificado en el conjunto de validación se nivela temprano y
permanece muy por debajo del porcentaje correctamente clasificado en el conjunto de entrenamiento.
0,88
0,86
0,84
0,82
0,80
0,78
0,76
0,74
0,72
0,70
0,68
0,66
0,64
0,62
0,60
0,58
0,56
0,54
0,52
0,50
0 0
20
40
60 60
80 100 120 140 160
Numero de hojas
Proporción clasificada correctamente
180200220240260280300320340360380400420440460480500520540560580

El ejemplo final es quizás el más interesante, porque los resultados en
el conjunto de validación se vuelve inestable a medida que los árboles candidatos se hacen más grandes. los
La causa de la inestabilidad es que las hojas son demasiado pequeñas. En este árbol, hay
un ejemplo de una hoja que tiene tres registros del conjunto de entrenamiento y los tres
tener un valor objetivo de 1: una hoja perfecta. Sin embargo, en el conjunto de validación, el
un registro que cae allí tiene el valor 0. La hoja está 100 por ciento equivocada. Como
el árbol crece más complejo, se incluyen más de estas hojas demasiado pequeñas,
resultando en la inestabilidad mostrada:
En este gráfico, el porcentaje correctamente clasificado en el conjunto de validación disminuye con el
complejidad del árbol y eventualmente se vuelve caótico.
1.0
0.9
0.8
0.7
0.6
0.5 0.5
0 0
20
40
60 60
80 100 120 140 160
Numero de hojas
Proporción de eventos en los primeros rangos (10%)
180200220240260280300320340360380400420440460480500520540560580

Las dos últimas figuras son ejemplos de modelos inestables. La forma más sencilla de
Evitar la inestabilidad de este tipo es garantizar que las hojas no se conviertan
demasiado pequeña.

304 de 1189.
266 Capítulo 7 ■ Árboles de decisión
Elegir el mejor subárbol
El siguiente paso es seleccionar, del grupo de subárboles candidatos, el que funciona
mejor en nuevos datos. Ese, por supuesto, es el propósito del conjunto de validación. Cada uno de
los subárboles candidatos se utilizan para clasificar los registros o estimar valores en el
conjunto de validación El árbol que realiza esta tarea con el error general más bajo es
declaró el ganador El subárbol ganador ha sido podado lo suficiente para eliminar
Los efectos del sobreentrenamiento, pero no tanto como para perder información valiosa. los
El gráfico de la Figura 7­10 ilustra el efecto de la poda en la precisión de la clasificación.
Figura 7­10: La poda elige el árbol cuya tasa de error de cálculo se minimiza en
conjunto de validación
Numero de hojas
Conjunto de validación
Pode aquí
Conjunto de entrenamiento
Tasa de error
El subárbol ganador se selecciona en función de su error general cuando se aplica
al conjunto de validación. Pero, mientras uno espera que el subárbol seleccionado
sigue siendo el mejor modelo cuando se aplica a otros conjuntos de datos, la tasa de error
eso causó que fuera seleccionado puede exagerar ligeramente su efectividad. Ahí
pueden ser muchos subárboles que funcionan tan bien como el seleccionado. A
hasta cierto punto, el que entregó la tasa de error más baja en el
conjunto de validación puede simplemente haber "tenido suerte" con esa colección en particular
de registros. Por esa razón, como se explica en el Capítulo 5, el subárbol seleccionado es
aplicado a un tercer conjunto de datos preclasificado, el conjunto de prueba. El error obtenido en el
el conjunto de prueba se usa para predecir el rendimiento esperado del modelo cuando se aplica
a datos sin clasificar.
ADVERTENCIA No evalúe el rendimiento de un modelo por su elevación o error
tasa en el conjunto de validación o el conjunto de entrenamiento. Ambos han contribuido a crear
el modelo y exagerar así la precisión del modelo. En cambio, mida el modelo
precisión en un conjunto de pruebas extraído de la misma población que el entrenamiento y
conjuntos de datos, pero no se utilizan de ninguna manera para crear el modelo.

305 de 1189.
Capítulo 7 ■ Árboles de decisión 267
Debido a que este algoritmo de poda se basa únicamente en la clasificación errónea
tasa, sin tener en cuenta la probabilidad de cada clasificación,
reemplaza cualquier subárbol cuyas hojas tengan la misma clasificación con un
padre común que también hace esa clasificación. En aplicaciones donde
el objetivo es seleccionar una pequeña proporción de los registros (el 1 por ciento superior o 10
porcentaje, por ejemplo), este algoritmo de poda puede dañar el rendimiento de
el árbol, porque puede eliminar hojas que contienen una proporción muy alta
de la clase objetivo.
ADVERTENCIA La poda a veces elimina las hojas que deben guardarse o falla
para quitar las hojas que se deben cortar. El algoritmo de poda CART elimina
niños que resultan en la misma clasificación incluso cuando un niño es mucho
Más puro que el otro. Para algunas aplicaciones, como cuando una buena elevación en el
el decil est es más importante que la tasa de error general, reteniendo tales divisiones para
preservar la regla asociada con el niño más puro es preferible. Otra poda
los algoritmos dejan algunos nodos donde la distribución del objetivo difiere
significativamente del conjunto de entrenamiento al conjunto de validación. Por lo tanto, a veces
aconsejable podar a mano.

Poda pesimista: el algoritmo de poda C5.0
C5.0 es una versión más reciente del algoritmo del árbol de decisión que J. Ross Quinlan
ha evolucionado y perfeccionado durante muchos años. Una versión anterior, ID3, publicada
en 1986 fue muy influyente en el campo del aprendizaje automático y sus sucesores
se utilizan en varios productos comerciales de minería de datos.
Los árboles cultivados por C5.0 son similares a los cultivados por CART (aunque
a diferencia de CART, C5.0 realiza divisiones de múltiples vías en variables categóricas). Como CARRITO,
el algoritmo C5.0 primero crece un árbol sobreajustado y luego lo poda para crear
Un modelo más estable. La estrategia de poda es bastante diferente porque C5.0 sí
no utilice un conjunto de validación para elegir entre subárboles candidatos. los
Los mismos datos utilizados para hacer crecer el árbol también se utilizan para decidir cómo debe ser el árbol
podado Esto puede reflejar los orígenes del algoritmo en el mundo académico, donde
en el pasado, los investigadores universitarios tenían dificultades para obtener
cantidades considerables de datos reales para usar en conjuntos de entrenamiento. En consecuencia, gastaron
mucho tiempo y esfuerzo tratando de convencer a las últimas gotas de información de su
conjuntos de datos empobrecidos: un problema que los mineros de datos en el mundo de los negocios hacen
No cara.
C5.0 poda el árbol midiendo el error de cada nodo en los datos de entrenamiento y
suponiendo que el error en datos no vistos sería sustancialmente peor. El algo
Ritmo trata los datos como si fueran el resultado de una serie de ensayos, cada uno de los cuales puede tener
Uno de los dos posibles resultados. (Cara o cruz es el ejemplo habitual). Como sucede,

Página 306
268 Capítulo 7 ■ Árboles de decisión
los matemáticos han estado estudiando esta situación particular desde al menos 1713,
el año en que la famosa fórmula binomial de Jacob Bernoulli fue póstumamente
publicado. Entonces, existen fórmulas bien conocidas para determinar lo que significa tener
observó E ocurrencias de algún evento, como el número de errores, en N ensayos.
En particular, existe una fórmula que, para un determinado nivel y tamaño de confianza
de un nodo, proporciona el intervalo de confianza: el rango de números esperados de
errores C5.0 supone que el número observado de errores en los datos de entrenamiento es
el extremo bajo de este rango; luego calcula el número correspondiente de errores
en el extremo superior de la gama. Cuando la estimación de gama alta del error en un nodo
es menor que la estimación del error de sus hijos, los hijos se podan.
Poda basada en estabilidad
Los algoritmos de poda utilizados por CART y C5.0 (y de hecho por todos los comerciales
las herramientas del árbol de decisiones que los autores han usado) tienen un problema. No logran podar
Algunos nodos que son claramente inestables. La división resaltada en la Figura 7­11 es buena
ejemplo. Los números en el lado izquierdo de cada nodo muestran lo que está sucediendo en
El conjunto de entrenamiento. Los números en el lado derecho de cada nodo muestran lo que está sucediendo.
ing en el conjunto de validación. Este árbol en particular está destinado a identificar los batidores. Cuando
solo se toman en cuenta los datos de entrenamiento, la rama resaltada parece
hacer muy bien; la concentración de batidores aumenta de 58.0 por ciento a 70.9 por ciento.
Desafortunadamente, cuando se aplica la misma regla al conjunto de validación, la concentración
La producción de batidores en realidad disminuye del 56.6 por ciento al 52 por ciento.
Figura 7­11: Una división inestable produce distribuciones muy diferentes en el entrenamiento y
conjuntos de validación.
13,5%
86,5%
39,628
13,8%
86,2%
19,814
14,9%
85,1%
23,361
15,6%
84,4%
11,529
58.0%
42,0%
219
<0.7%
<3.8%
Tasa de rotación del auricular
Tendencia de llamadas
≥ 3.8%
≥ 0.18
<0.18
<0.056
<4,855
<88,455
Total Amt. Atrasado
≥ 88.455
56,6%
43,4%
99
39,2%
60,8%
148
40,4%
59,6%
57
27,0%
73,0%
440
27,9%
72,1%
218
67,3%
32,7%
110
66,0%
34,0%
47
70,9%
29,1%
55
52,0%
48,0%
25
25,9%
74,1%
54
44,4%
55,6%
27
3.5%
96,5%
11,112
3,0%
97,0%
5,678
28,7%
71,3%
5,155
29,3%
70,7%
2,607

Página 307
Capítulo 7 ■ Árboles de decisión 269
Los modelos estables hacen predicciones consistentes en registros nunca antes vistos. Ninguna
La regla que no puede lograr ese objetivo debe eliminarse del modelo. Muchos
Las herramientas de minería de datos permiten al usuario podar un árbol de decisión manualmente. Esta 
facilidad
es útil, pero los autores esperan el software de minería de datos que proporciona
poda automática basada en la estabilidad como opción. Tal software necesitaría
tener un criterio menos subjetivo para rechazar una división que "la distribución de
los resultados del conjunto de validación se ven diferentes de la distribución del conjunto de entrenamiento
resultados ". Una prueba de significación estadística, como la prueba de chi­cuadrado sería
usado. La división se podaría cuando el nivel de confianza sea inferior a algunos
umbral definido por el usuario, por lo que solo divisiones que tienen, digamos, un 95 por ciento de confianza 
en el
conjunto de validación permanecería.
ADVERTENCIA Los nodos pequeños causan grandes problemas. Una causa común de inestabilidad
los modelos de árbol de decisión permiten nodos con muy pocos registros. La mayoría del árbol de decisión
Las herramientas permiten al usuario establecer un tamaño mínimo de nodo. Como regla general, los nodos que
recibir menos de aproximadamente 100 registros de entrenamiento es probable que sean inestables.

Extraer reglas de los árboles
Cuando un árbol de decisión se usa principalmente para generar puntajes, uno puede olvidar fácilmente
que un árbol de decisión es en realidad una colección de reglas. Si uno de los propósitos de la
El esfuerzo de minería de datos es para comprender el dominio del problema, reduciendo
la gran maraña de reglas en un árbol de decisión para un más pequeño, más comprensible
La colección puede ser útil.
Existen otras situaciones en las que el resultado deseado es un conjunto de reglas. En el dominio
Minería de datos (Wiley 2000), los autores describen la aplicación de los árboles de decisión
a un problema de mejora de procesos industriales, a saber, la prevención de un
cierto tipo de defecto de impresión. En ese caso, el producto final de la minería de datos
El proyecto era una pequeña colección de reglas simples que podían publicarse en el muro
al lado de cada pulsación.
Cuando se usa un árbol de decisión para producir puntajes, tener un gran número
de hojas es ventajoso porque cada hoja genera una puntuación diferente. Cuando
el objetivo es generar reglas, menos reglas pueden ser mejores. Afortunadamente, a menudo es
posible colapsar un árbol complejo en un conjunto más pequeño de reglas.
Como primer paso, se puede reemplazar cualquier subárbol donde todas las hojas tengan la misma etiqueta
por su nodo padre sin cambiar la forma en que se clasifica cualquier cosa. C5.0 incluye
un generador de reglas que va más allá; está dispuesto a sacrificar alguna clasificación
precisión para reducir el número de reglas. Lo hace eliminando cláusulas, luego
Comparar la tasa de error prevista de la nueva regla más breve con la del original
utilizando el mismo supuesto de tasa de error pesimista descrito anteriormente en el documento
sección de poda simista. A menudo, las reglas para varias hojas diferentes se generalizan
a la misma regla, por lo que este proceso resulta en menos reglas que el árbol de decisión
Tenía hojas.

Página 308
270 Capítulo 7 ■ Árboles de decisión
En el árbol de decisión, cada registro termina exactamente en una hoja, por lo que cada registro
Tiene una clasificación definitiva. Después del proceso de generalización de reglas, sin embargo,
puede haber reglas que no son mutuamente excluyentes y registros que no son
cubierto por cualquier regla. Simplemente elige una regla cuando más de una es aplicable
Puede resolver el primer problema. El segundo problema requiere la introducción de un
clase predeterminada asignada a cualquier registro no cubierto por ninguna de las reglas. Típicamente,
la clase más frecuente se elige como predeterminada.
Después de haber creado un conjunto de reglas generalizadas, C5.0 agrupa las reglas para
cada clase y elimina aquellos que no contribuyen mucho al total
precisión del conjunto de reglas. El resultado final es un pequeño número de con suerte fácil
para entender las reglas.

Variaciones del árbol de decisiones
Roble, fresno, arce, abedul, pino, abeto: los árboles reales vienen en muchas variedades y
también lo hacen los árboles de decisión. Además de algoritmos con nombre como CART, CHAID,
y C5.0, hay muchas otras formas de combinar criterios de evaluación divididos,
estrategias de poda y otras opciones algorítmicas. Esta sección presenta algunos
de las muchas variaciones.
Divisiones múltiples
Hasta ahora, todos los árboles en el capítulo tienen nodos con exactamente dos hijos. De tal
árboles, cada nodo representa una pregunta de sí o no, cuya respuesta determina
por cuál de los dos caminos un registro pasa al siguiente nivel del árbol. Porque
cualquier división de múltiples vías se puede expresar como una serie de divisiones binarias, no existe
necesidad de árboles con factores de ramificación más altos. Sin embargo, muchos mineros de datos
Las herramientas son capaces de producir árboles con más de dos ramas. Por ejemplo,
algunos algoritmos de árbol de decisión se dividen en variables categóricas creando una rama
para cada clase, dando lugar a árboles con diferentes números de ramas en diferentes
nodos La Figura 7­12 muestra un árbol que incluye una división de cinco vías en la tenencia y ambas
divisiones de dos y tres vías en la clase de crédito . Este árbol fue construido sobre el mismo
datos y la misma tabla que se utilizó anteriormente en la Figura 7­1. El árbol con doble sentido.
las divisiones funcionaron mejor que el árbol con divisiones de cinco vías cuando se aplicaron a una prueba
conjunto de datos Esto probablemente se deba a que después de la división de cinco posiciones en la tenencia,
no más
Se encontraron divisiones para la mayoría de los rangos de tenencia.
ADVERTENCIA No existe una relación entre el número de sucursales permitidas
en un nodo y el número de clases en la variable de destino. Un árbol binario (que
es decir, uno con divisiones bidireccionales) se puede usar para clasificar registros en cualquier número de
categorías, y un árbol con divisiones de múltiples vías se puede utilizar para clasificar un tar binario
obtener variable.

Página 309
Capítulo 7 ■ Árboles de decisión 271
Figura 7­12: este árbol con divisiones de múltiples vías no funciona tan bien como el binario
árbol en la Figura 7­1.
UNA
segundo
DISCOS COMPACTOS
DISCOS COMPACTOS
(265.5, 369.5)
(369.5, 474.5)
(98.5, 265.5)
CLASE DE CRÉDITO
ACCTTYPE
PAG
S
TENENCIA
> = 474.5
<98.5
CLASE DE CRÉDITO
B, A

División en más de un campo a la vez
La mayoría de los algoritmos de árbol de decisión prueban una sola variable para realizar cada división. Esta
el enfoque puede ser problemático por varias razones, entre las cuales se encuentra que puede
conducen a árboles con más nodos de los necesarios. Los nodos adicionales son motivo de preocupación
porque solo los registros de entrenamiento que llegan a un nodo determinado están disponibles para
induciendo el subárbol debajo de él. Cuantos menos ejemplos de entrenamiento por nodo, menos
estable el modelo resultante.
Suponga que está interesado en una afección para la que tanto la edad como el género
son indicadores importantes Si la división del nodo raíz está en edad, entonces cada nodo hijo
contiene solo alrededor de la mitad de las mujeres. Si la división inicial es por género, entonces cada
El nodo hijo contiene solo aproximadamente la mitad de los viejos.
Se han desarrollado varios algoritmos para permitir el uso de múltiples atributos
en combinación para formar el divisor. Una técnica forma conjunciones booleanas
de características para reducir la complejidad del árbol. Después de encontrar la característica que
forma la mejor división, el algoritmo busca la característica que, cuando se combina
con la función elegida primero, hace el mejor trabajo para mejorar la división. Caracteristicas
continuará siendo agregado siempre que causen una mejora estadísticamente significativa
ment en la división resultante.
Crear cajas no rectangulares
Los problemas de clasificación a veces se presentan en términos geométricos. De esta manera
de pensamiento es especialmente natural para los conjuntos de datos que tienen variables continuas para todos

Page 310
272 Capítulo 7 ■ Árboles de decisión
campos. En esta interpretación, cada registro es un punto en un espacio multidimensional.
Cada campo representa la posición del registro a lo largo de un eje del espacio. Decisión
los árboles son una forma de tallar el espacio en regiones, cada una de las cuales se puede etiquetar con
una clase. Cualquier registro nuevo que se encuentre en una de las regiones se clasifica en consecuencia.
Árboles de decisión tradicionales, que prueban el valor de un solo campo en cada nodo,
solo puede formar regiones rectangulares. En un espacio bidimensional, una prueba de la
forma Y menos que algunas formas constantes una región delimitada por una línea perpendicular
al eje Y y paralelo al eje X. Diferentes valores para la causa constante.
la línea para moverse hacia arriba y hacia abajo, pero la línea permanece horizontal. Del mismo modo, en
un espacio de mayor dimensionalidad, una prueba en un solo campo define un hiperplano
que es perpendicular al eje representado por el campo utilizado en la prueba y
paralelo a todos los otros ejes. En un espacio bidimensional, solo horizontal
y líneas verticales para trabajar, las regiones resultantes son rectangulares. En tres­
espacio dimensional, las formas correspondientes son sólidos rectangulares, y en cualquier
espacio multidimensional, son hiper­rectángulos.
El problema es que algunas cosas no encajan perfectamente en cajas rectangulares. Figura
7­13 ilustra el problema: las dos regiones están realmente divididas por una línea diagonal;
Se necesita un árbol profundo para generar suficientes rectángulos para aproximarlo adecuadamente.
Figura 7­13: Los cuadrantes superior izquierdo e inferior derecho se clasifican fácilmente, mientras que el
otros dos cuadrantes deben ser tallados en muchas cajas pequeñas para aproximar el límite
entre regiones
Página 311
Capítulo 7 ■ Árboles de decisión 273
En este caso, la verdadera solución se puede encontrar fácilmente al permitir combinaciones lineales.
de los atributos a considerar. Algunos paquetes de software intentan inclinarse
los hiperplanos basando sus divisiones en una suma ponderada de los valores de
campos. Existe una variedad de enfoques de escalada para optimizar los pesos.
Este proceso de búsqueda de un hiperplano que separa dos clases se comparte
con otra técnica de minería de datos que ha generado mucha emoción en
círculos académicos, máquinas de vectores de soporte . Aunque las máquinas de vectores de soporte tienen
han existido desde 1995, han tardado en ponerse al día con los practicantes en
El mundo de los negocios. La barra lateral proporciona una breve introducción.
VECTOR DE APOYO DE MAQUINAS
Las máquinas de vectores de soporte son un método geométrico para separar dos clases.
(respondedores y no respondedores, por ejemplo) al encontrar el mejor hiperplano
eso pone una clase encima y la otra debajo. En el caso muy improbable de que
Las dos clases son completamente separables por una línea, esto es fácil. los
La siguiente figura muestra este caso en tres dimensiones. Un hiperplano que
separa las clases se llama superficie de decisión . La figura muestra un dos
superficie de decisión dimensional separando puntos en tres dimensiones.
Un plano bidimensional que separa puntos en un espacio tridimensional.
0 0
y
1
1
2
2
3
3
4 4
4 4
X
0 0
1
1
2
2
3
3
4 4
4 4
10
0 0
z
10
20
20
La superficie de decisión tiene una dimensión menos que los datos que separa.
La división en un nodo del árbol de decisión es un ejemplo del caso más simple. Porque
los árboles de decisión se dividen en un solo campo a la vez, la decisión "superficie" es un pecado­
punto de gle. Cada valor en un lado del punto va en una dirección, y cada valor
por otro lado va por el otro lado.
La siguiente figura muestra dos clases (representadas por ceros y cruces)
de tic­tac­toe) en un plano bidimensional. La línea que los separa es la opción
superficie de mala decisión. Es óptimo porque maximiza la distancia desde
superficie de decisión a los límites de las dos clases. Las líneas de límite son
llamados hiperplanos de apoyo y los puntos de datos en estos límites
Continuado
Página 312
274 Capítulo 7 ■ Árboles de decisión
son los vectores de soporte que dan nombre a la técnica. La distancia de uno
Apoyar el hiperplano al otro se llama margen . El vector de soporte
El algoritmo de la máquina encuentra la superficie de decisión que maximiza el margen.
Una línea unidimensional que separa puntos en un plano bidimensional.
Margen
Vectores de soporte
Superficie de decisión óptima
Los puntos de datos que se muestran en la figura anterior se eligieron cuidadosamente para
La idea parece fácil. Es poco probable que los datos de la vida real sean tan amables. La siguiente figura
La situación muestra una situación más habitual y difícil en dos dimensiones. Aquí incluso
aunque visualmente existe un límite claro entre las clases, obviamente hay
sin línea recta que pueda separar los puntos en este plano bidimensional.
En el plano, el límite entre las dos clases no es una línea recta.
−4
−3
−2
−1
0 0
1
2
2
3
3
4 4
4 4
−4
−4
−3
−3
−2
−2
−1
−1
0 0
0 0
1
1
2
3
4 4
−4
−3
−2
−1
0 0
y
y
1
2
3
4 4
X
X

MÁQUINAS DE VECTOR DE APOYO ( continuación )

Página 313
Capítulo 7 ■ Árboles de decisión 275
La idea central de las máquinas de vectores de soporte es pensar en lo observado
datos bidimensionales como una proyección en el plano bidimensional de
puntos que realmente existen en tres dimensiones. Supongamos que puedes venir
con una transformación en las variables de entrada de dos dimensiones a tres
eso hizo que todas las cruces flotaran sobre los ceros. Encontrar una decisión
la superficie para separar las clases a lo largo del nuevo eje z sería fácil.
Dicha función se llama función del núcleo . En la siguiente figura, un núcleo
Se ha aplicado la función que asigna cada punto (x, y) a (x 2 , y 2 , xy). Después de este
transformación, encontrar una superficie de decisión es fácil. La parte difícil es elegir
la función del núcleo y proponiendo los parámetros correctos para ello. Esto es
una tarea de optimización muy parecida a encontrar los pesos correctos para un
red neuronal
Después de la aplicación de la función del núcleo, las dos clases se separan fácilmente.
x al cuadrado
x al cuadrado
y al cuadrado
y al cuadrado
0 0
10
7.5
5 5
2.5
0 0
5.0
−5.0
−10.0
−10.0
10,0
0.0
−5.0
5.0
0 0
2.5
5 5
7.5
7.5
7.5
10
5 5
5 5
2.5
2.5
0 0
0 0
0.0
xy
xy

Evaluar la calidad de un árbol de decisión
La efectividad de un árbol de decisión, en su conjunto, se determina mediante la aplicación:
dándolo al conjunto de prueba, una colección de registros que no se utilizan para construir el árbol, y
observar el porcentaje clasificado correctamente por un árbol de clasificación o una medida
como el error cuadrado promedio para un árbol de regresión. Esto proporciona un error
medir para el árbol en su conjunto, pero también es importante prestar atención a la
calidad de las ramas individuales del árbol.

Página 314
276 Capítulo 7 ■ Árboles de decisión
En cada nodo, puede medir:
■ El número de registros que ingresan al nodo

■ La proporción de registros en cada clase o el valor promedio de

variable objetivo
■ Cómo se calificarían esos registros si este fuera un nodo hoja

■ El porcentaje de registros clasificados correctamente o el error al cuadrado promedio

■ La diferencia en la distribución entre el conjunto de entrenamiento y el conjunto de prueba.

Cada ruta a través del árbol representa una regla, y algunas reglas son mejores que
otros.
En la discusión hasta ahora, el error ha sido la única medida para evaluar el
adecuación de reglas y subárboles. Sin embargo, en muchas aplicaciones, los costos de
La clasificación varía de una clase a otra. Ciertamente, en un diagnóstico médico, un falso
negativo puede ser más dañino que un falso positivo; un resultado de Papanicolaou aterrador
que, en una investigación posterior, demuestra haber sido un falso positivo, es mucho
preferible a un cáncer no detectado. Una función de costo multiplica la probabilidad
de clasificación errónea por un peso que indica el costo de esa clasificación errónea.
Varias herramientas permiten el uso de dicha función de costo en lugar de una medida de pureza
para construir árboles de decisión.

¿Cuándo son apropiados los árboles de decisión?
A menudo hay una compensación entre la precisión del modelo y la transparencia del modelo.
En algunas aplicaciones, la precisión de una clasificación o predicción es la única
lo que importa si una empresa de correo directo obtiene un modelo que puede
predecir qué miembros de un grupo de prospectos tienen más probabilidades de responder a un
cierta solicitud, la empresa puede no importarle cómo o por qué funciona el modelo.
En otras situaciones, la capacidad de explicar el motivo de una decisión es crucial
cial. En la suscripción de seguros, por ejemplo, existen prohibiciones legales.
contra la discriminación basada en ciertas variables. Una compañia de seguros
podría encontrarse en la posición de tener que demostrarle a un regulador o
tribunal de justicia que no ha utilizado prácticas discriminatorias ilegales en subvenciones
ing o negando la cobertura. Del mismo modo, escuchar que una solicitud de crédito
ha sido denegado sobre la base de una regla generada por computadora (como ingresos
debajo de cierto umbral y el número de cuentas rotativas existentes mayor
que algún otro umbral) es más aceptable tanto para el oficial de préstamos como para el
el solicitante de crédito que escucha que la solicitud ha sido rechazada por
razones inexplicables
Los árboles de decisión se han utilizado de maneras muy imaginativas. El final
El estudio de caso en este capítulo describe cómo se utilizaron los árboles de decisión para simular
La operación de una planta industrial de tostado de café. El estudio de caso se basa en

Página 315
Capítulo 7 ■ Árboles de decisión 277
discusiones con Marc Goodman y sobre su tesis doctoral de 1995. los
la simulación se puede ejecutar para proyectar los valores de todas las variables en el futuro, para ser
Asegúrese de que el proceso de tostado se mantenga dentro de los límites aceptables para garantizar
ity. Una de las cosas más interesantes sobre el estudio de caso es que un simulador
requiere construir un modelo separado para el siguiente valor de cada entrada, por lo que las variables
son entradas y objetivos, aunque para diferentes modelos.

Estudio de caso: Control de procesos en un
Planta de tostado de café
Nestlé, una de las compañías de alimentos y bebidas más grandes del mundo, utiliza un número
de tostadores de café de alimentación continua para producir una variedad de productos de café. Cada uno de
estos productos tienen una "receta" que especifica los valores objetivo para una gran cantidad de tostadores
variables como la temperatura del aire en varios puntos de escape, la velocidad de
varios ventiladores, la velocidad con la que se quema el gas, la cantidad de agua introducida para apagar
los frijoles y las posiciones de varias aletas y válvulas. Hay muchas maneras
para que las cosas salgan mal al tostar café, que van desde un tostado que sale también
de color claro a un fuego tostador costoso y dañino. Un mal lote de café tostado
desperdicia los frijoles e incurre en un costo; El daño al equipo es aún más costoso.
Para ayudar a los operadores a mantener el tostador funcionando correctamente, se recopilan datos de
Cerca de 60 sensores. Cada 30 segundos, estos datos, junto con la información de control,
se escribe en un registro y se pone a disposición de los operadores en forma de gráficos. los
El proyecto descrito aquí tuvo lugar en un laboratorio de investigación de Nestlé en York, Inglaterra.
Nestlé construyó una simulación de tostador de café basada en los registros del sensor.
Metas para el simulador
Nestlé vio varias maneras en que un simulador de tostador de café podría mejorar sus procesos:
■ Al usar el simulador para probar nuevas recetas, una gran cantidad de nuevas

Las recetas se pueden evaluar sin interrumpir la producción. Además,
Las recetas que podrían provocar incendios de tostadores u otros daños podrían eliminarse.
Nated de antemano.
■ El simulador podría usarse para capacitar a nuevos operadores y exponerlos a

problemas de rutina y sus soluciones. Usando el simulador, los operadores podrían
Pruebe diferentes enfoques para resolver un problema.
■ El simulador podría rastrear el funcionamiento del tostador real y proyectarlo.

Varios minutos en el futuro. Cuando la simulación se encontró con un problema, un
La alerta podría generarse mientras los operadores aún tenían tiempo para evitar problemas.
Afortunadamente, Nestlé ya estaba recopilando datos a intervalos de medio minuto, que
podría usarse para construir el simulador.

Página 316
278 Capítulo 7 ■ Árboles de decisión
Construyendo una simulación de tostador
Se creó un conjunto de modelos de 34,000 casos a partir de los datos del registro histórico. Cada caso
consistió en un conjunto de mediciones en el tostador junto con la misma medida
aseguramientos 30 segundos después. Tenga en cuenta que los mismos datos pueden usarse como objetivos
para un caso, y luego, para el siguiente caso, podrían ser las entradas (donde los objetivos
ven 30 segundos después).
Este conjunto de entrenamiento es más complicado que los conjuntos de entrenamiento que hemos estado
trabajando con, porque existen múltiples objetivos: todas las mediciones de 30 segundos
luego. La solución es construir un modelo separado para cada medición. Cada
modelo toma la entrada de la parte anterior del caso, y el objetivo de la
período posterior, como se muestra en la Figura 7­14:
Figura 7­14: Un árbol de decisión usa valores de una instantánea para crear la siguiente instantánea
a tiempo.
campo
campo
campo
campo
campo
campo
campo
campo
campo
campo
campo
campo
campo
campo
No
No
No
No
No
No
No






Se entrenó a todo el conjunto de modelos, lo que resultó en un conjunto de modelos que lleva
las mediciones de entrada para el tostador y produce estimaciones de lo que sucedió
bolígrafos 30 segundos después.
Evaluación de la simulación de tostador
La simulación se evaluó luego usando un conjunto de prueba de alrededor de 40,000 adicionales
casos que no habían sido parte del conjunto de entrenamiento. Para cada caso en el conjunto de prueba,
el simulador generó instantáneas proyectadas 60 pasos hacia el futuro (es decir,
30 minutos en el futuro). En cada paso, los valores proyectados de todas las variables

Página 317
Capítulo 7 ■ Árboles de decisión 279
fueron comparados con los valores reales. Como se esperaba, el tamaño del error
aumenta con el tiempo Por ejemplo, la tasa de error para la temperatura del producto cambió
fuera de 2/3 ° C por minuto de proyección, pero incluso 30 minutos en el futuro
el simulador fue considerablemente mejor que adivinar al azar.
El simulador de tostador resultó ser más preciso que todos menos los más esperados.
operadores con experiencia en proyectar tendencias, e incluso los operadores más experimentados
pudimos hacer un mejor trabajo con la ayuda del simulador. Los operadores disfrutaron usando
el simulador e informó que les dio una nueva visión de las acciones correctivas.

Lecciones aprendidas
Los métodos de árbol de decisión tienen una amplia aplicabilidad para la exploración de datos, clasificando
ción y selección de variables importantes. También se pueden usar para estimar
valores continuos, aunque rara vez son la primera opción porque los árboles de decisión
generar estimaciones "desiguales": se asignan todos los registros que alcanzan la misma hoja
El mismo valor estimado. Son una buena opción cuando la tarea de minería de datos es
clasificación de registros o predicción de resultados discretos. Usar árboles de decisión
cuando su objetivo es asignar cada registro a una de las pocas categorías generales.
Los árboles de decisión también son una opción natural cuando el objetivo es generar comprensión.
reglas capaces y explicables. La capacidad de los árboles de decisión para generar reglas que puedan
ser traducido a lenguaje natural comprensible o SQL es uno de los mejores
fortalezas de la técnica. Incluso en árboles de decisión complejos, siguiendo cualquier camino
atravesar el árbol hasta una hoja en particular es generalmente bastante fácil, por lo que la explicación de
cualquier clasificación o predicción particular es relativamente sencilla.
Los árboles de decisión se cultivan utilizando un algoritmo recursivo que evalúa todos los valores de
todas las entradas para encontrar la división que causa el mayor aumento de la pureza en los niños.
Lo mismo sucede nuevamente dentro de cada niño. El proceso continúa hasta que no
se pueden encontrar más divisiones o se alcanza algún otro límite. Luego se poda el árbol
para eliminar ramas inestables. Se utilizan varias pruebas como criterios de división, que incluyen
ing la prueba de chi­cuadrado para objetivos categóricos y la prueba F para objetivos numéricos.
Los árboles de decisión requieren menos preparación de datos que muchas otras técnicas porque
son igualmente expertos en el manejo de variables continuas y categóricas. Categórico
variables, que plantean problemas para redes neuronales y técnicas estadísticas,
se dividen formando grupos de clases. Las variables continuas se dividen dividiendo
su rango de valores. Porque los árboles de decisión no hacen uso de los valores reales
de las variables numéricas, no son sensibles a valores atípicos y distribuciones sesgadas.
Los valores perdidos, que no pueden ser manejados por muchas técnicas de minería de datos, causan
no hay problemas para los árboles de decisión e incluso puede aparecer en reglas de división.
Esta robustez tiene el costo de desechar parte de la información.
que está disponible en los datos de entrenamiento, por lo que una red neuronal o regresión bien ajustada
El modelo de sesión a menudo hace un mejor uso de los mismos campos que un árbol de decisión. por
Por esa razón, los árboles de decisión a menudo se utilizan para elegir un buen conjunto de variables para ser
utilizado como entradas para otra técnica de modelado. Los datos orientados al tiempo requieren

Página 318
280 Capítulo 7 ■ Árboles de decisión
mucha preparación de datos. Los datos de series temporales deben mejorarse para que las tendencias y
Los patrones secuenciales se hacen visibles.
Los árboles de decisión revelan mucho sobre los datos a los que se aplican que
los autores a menudo los utilizan en las primeras fases de un proyecto de minería de datos
incluso cuando los modelos finales se crean con alguna otra técnica.

Página 319
281

CAPÍTULO

También podría gustarte