A15 15
A15 15
A15 15
Abstract – The applicability of combined heuristic techniques with which generically data mining
has been denominated, is an investigation subject that can provide a great utility in the search of
patterns non-trivial from the data available in the planning, operation and management of the
networks of water supply. It is important to consider that in great percentage the success in the
applicability of these techniques is in the information bases which it is had, is to say the data
(inputs) of entrance. The subject, in spite of the great potential which it has, has not been still very
developed for applications of potable water supply, although in fields of finances, communications,
businesses, pages Web it has been applied for some years.
1
Universidad Politécnica de Valencia – Departamento de Ingeniería Hidráulica y Medio Ambiente – Grupo Mecánica
de Fluidos – Camino de Vera S/N – CP 46022 – Valencia (España) – Tel: 34 96 3877611 – Fax: 34 96 3877619 E-mail:
jodiaar@doctor.upv.es ; rperez@gmf.upv.es
INTRODUCCIÓN
La velocidad con la que se almacenan los datos es muy superior a la velocidad con la que estos son analizados. En las
últimas décadas se ha presentado una gran explosión de cantidad de datos digitales, mientras que el número de
científicos, ingenieros y analistas disponibles para analizar estos datos ha permanecido estático. Para obviar este
problema se necesitan soluciones de investigación tendientes a minar grandes y masivas bases de datos, desarrollar
algoritmos y sistemas para minar nuevos tipos de datos y mejorar la utilización de los sistemas de minería de datos.
El estudio y aplicación de técnicas avanzadas para el análisis de información almacenada en bases de datos es un tema
de investigación en el que ya se han involucrado mucha especialidades, pero que sus aplicaciones en ingeniería civil y
más específicamente en los sistemas de abastecimiento de agua potable aún no han sido lo suficientemente explotados,
y es una herramienta que nos puede servir o ser de gran ayuda para resolver problemas de planificación, gestión y
operación de sistemas de abastecimiento de agua potable. Existen muchas formas de almacenar datos, pero no se
archivan convenientemente o su entendimiento es nulo.
Con este texto, se pretende mostrar la importancia de realizar investigaciones tendientes a desarrollar algoritmos y
aplicaciones para la extracción automática de información de los datos almacenados durante las etapas de construcción
y operación de un sistema de conducción de agua potable. Se debe tener en cuenta que es un tema que ha sido muy poco
desarrollado para aplicaciones específicas de abastecimientos de agua potable, pero en el cual se nota un gran potencial
y una herramienta para la extracción o búsqueda de patrones no triviales a través de los datos disponibles.
Es muy importante tener claro que la base de estas investigaciones son los datos, lo cual es un tema que está bastante
descuidado en la gestión de los sistemas, aunque últimamente con la aparición de los sistemas de información
geográfica, se ha mejorado bastante en mantener una buena calidad y cantidad de datos almacenados, o por lo menos se
han iniciado tareas que conducen a la recopilación y almacenamiento de información para ser utilizada por los SIG.
Este artículo presenta el concepto de minería de datos e intenta dar una comprensión del proceso y las herramientas
utilizadas en general: como resulta el proceso, que se puede realizar con el, cuáles son las principales técnicas detrás de
el, cuáles son los aspectos operacionales. Se hace una introducción al estado del arte de la minería de datos en la
ingeniería civil y más específicamente a su aplicación en gestión y operación de sistemas de abastecimiento de agua.
Además se presenta en la bibliografía algunos artículos que ayudan en la profundización del tema.
DEFINICIONES
ANTECEDENTES Y GENERALIDADES
El concepto de minería de datos apareció hace más de 10 años. El interés en este campo y su explotación en diferentes
especialidades (negocios, finanzas, ingeniería, banca, salud, sistemas de energía, meteorología....), se ha incrementado
recientemente debido a la combinación de diferentes factores, los cuales incluyen:
El surgimiento de gran cantidad de datos (terabytes – 1012 bytes – de datos) debido a la medición y/o
recopilación de datos automática, registros digitales, archivos centralizados de datos y simulaciones de software y
hardware.
El abaratamiento de los costos de los medios de almacenamiento.
El surgimiento y rápido crecimiento del manejo de sistemas de bases de datos.
Los avances en la tecnología computacional tal como los computadores rápidos y las arquitecturas paralelas.
Los desarrollos continuos en técnicas de aprendizaje automático.
La posible presencia de incertidumbre en los datos (ruido, outliers, información perdida).
El propósito general de la minería de datos es procesar la información de la gran cantidad de datos almacenados o que
se puedan generar, y desarrollar procedimientos para manejar los datos y tomar futuras decisiones.
Generalmente, una de las primeras tareas en el proceso de la minería de datos consiste en resumir la información
almacenada en la base de datos, con el fin de comprender bien su contenido. Esto se realiza por medio de análisis
estadísticos o técnicas de búsqueda y reporte. Las operaciones más complejas consisten en la identificación de modelos
para predecir información acerca de objetos futuros. El término aprendizaje supervisado “supervised learning”
(conocido como “aprendizaje con profesor”) está implicado en el minado de datos, en el cual para cada entrada (input)
de los objetos de aprendizaje, el objetivo de la salida (output) deseada es conocida e implicada en el aprendizaje. En los
métodos de aprendizaje sin supervisión “unsupervised learning” (“aprendiendo por observación”) el resultado no es
suministrado o considerado del todo, y el método aprende por si solo de los valores de los atributos de entrada.
Selección
Datos
Seleccionados
Pre - procesamiento
Datos
Preprocesados
Trasformación
Datos
Trasformados
Minería de
datos
Modelos
Interpretación /
Evaluación
Conocimiento
Figura 1 – Pasos de la minería de datos.
En general las técnicas de minería de datos se pueden dividir en aquellas que hacen uso de
ecuaciones tales cómo la estadística o las redes neuronales o las que se basan en la lógica cómo los
árboles de decisión y las reglas, aunque algunas pueden hacer uso tanto de ecuaciones o de la
lógica, o pueden ser una combinación de técnicas .
En cuanto a las aplicaciones de la minería de datos en ingeniería civil y más específicamente a los sistemas de
abastecimientos de agua urbana, es muy escasa la información disponible al respecto, a pesar de la cantidad de datos
que se pueden almacenar durante las etapas de construcción, operación y gestión de una red de abastecimiento con las
consecuentes posibles aplicaciones como por ejemplo ampliación de redes, análisis del reemplazo de tuberías, detección
de fugas, cambio de diámetros (capacidades), fraudes, detección de contadores dañados, reposición del parque de
contadores, tipos de materiales en tuberías, análisis de calidad del agua etc.
En un sistema de abastecimiento que requiera de bombeos ya sea para alimentar embalses o directamente la red de
distribución, es muy importante optimizar el costo energético de la utilización de las bombas. Muchos operadores de las
estaciones de bombeo, pueden utilizar heurística o reglas para minimizare el costo de la energía utilizada por las
bombas, o realizar predicciones de demandas o ayudar a mantener el nivel de los embalses en rangos aceptables.
Una regla de tipo heurístico podría ser: si el clima en los últimos 7 días fue caluroso y seco, y en los próximos 7 días se
espera que sea caluroso y seco, y el periodo de tiempo antes de una demanda alta es menor o igual a 8 horas, entonces
utilice una bomba de gran capacidad durante un periodo corto de tiempo. Este tipo de reglas es necesario documentarlas
en sistemas expertos para reducir los costos de operación y distribución de los sistemas de abastecimiento de agua, ya
que el conocimiento adquirido manualmente es inadecuado para manejar todas las situaciones que pueden presentarse
en un problema complejo de ingeniería.
Un método alternativo de adquisición de conocimiento es el aprendizaje automatizado de los datos observados, que es
diseñar un algoritmo que pueda adquirir y afinar reglas de decisión de un conjunto de muestras o datos observados. Este
método es conocido como aprendizaje inductivo o adquirir conocimiento por ejemplos.
Una aplicación de aprendizaje inductivo, es el descubrir reglas de datos para realizar predicciones de demandas (An et
al.), cuya metodología está basada en la teoría de los conjuntos aproximados, cuya característica es hacer uso de la
información estadística inherente a los datos para manejar la información incompleta y ambigua. El objetivo es el
descubrimiento automatizado de reglas a partir de una muestra de datos para realizar predicciones de la demanda diaria
de agua. La base de datos contiene 306 muestras recogidas durante 10 meses que cubren la información de 14 factores
ambientales y sociológicos y su correspondiente distribución de volumen de flujo.
Los factores utilizados como posibles afectaciones del consumo diario de agua son: el día de la semana, y factores
climáticos agrupados en temperatura, humedad, precipitación, viento, y horas de brillo del sol. Los consumos diarios se
tomaron sumando las distribuciones diarias en cada estación de bombeo.
Utilizando una extensión de la teoría de los conjuntos borrosos (Pawlak, Z), se obtuvieron reglas a partir de los datos
seleccionados, del tipo “si-entonces” que describen importantes relaciones entre los factores condicionantes y el
consumo de agua, las cuales son fácilmente comprensibles.
Tanto la información básica como los resultados fueron agrupadas en rangos discretos tanto para su procesamiento
como para su interpretación. En total se generaron 149 reglas para los diferentes conceptos o rangos de predicción de
demanda de agua.
Algunos ejemplos del tipo de reglas generadas son los siguientes:
Para el rango D = [53 – 60],
(a0 = (D or L or MA) ∧ (a5 > 64) ∧ (a10<=10.84) ∧ (a3 <= -3.36) →1 (53 < D <=60),
Esta regla cubre el 66.7% de los objetos de entrada que incluyen el rango y establece que si el día de la semana es
domingo, lunes o martes y la humedad mínima es mayor que 64 y el promedio de velocidad del viento es menor o igual
a 10.84 y la temperatura media es menor o igual que –3.36, entonces la demanda de agua está entre 53 y 60 con una
probabilidad 1, es decir que la totalidad de los objetos seleccionados para el rango cumplen la regla.
Para el rango D = (89 – 90],
(a1 <= 23.18) ∧ (a12 <= 36.88) ∧ (a3 > 10.78) ∧ (50 <= a5 <= 64) →1 (80 < D <=90),
Esta regla cubre el 10.5% de los objetos de entrada que incluyen el rango. Establece que si la máxima temperatura es
menor o igual que 23.18 y la máxima velocidad del viento es menor o igual que 36.88 y la temperatura mínima es
mayor de 10.78 y la humedad mínima está entre 50 y 64 inclusive, entonces la demanda de agua está entre 60 y 90 con
una probabilidad de 1.
Para el rango D = (100 – 110],
(a2 > 10.78) ∧ (a12 > 27.03) ∧ (a5 <=31) ∧ (a13 >9.60) → 1 (100 < D <= 110),
Esta regla cubre el 33.3% de las muestras que incluyen el rango, y establece que si la temperatura mínima es mayor de
10.78 y la máxima velocidad del viento es mayor de 27.03 y la mínima humedad es menor o igual a 31 y el número de
horas de brillo del sol es mayor de 9.60, entonces la demanda de agua está entre 100 y 110 con una probabilidad de 1.
Otra aplicación desarrollada es la aproximación por minería de datos a la modelación de activos en sistemas de
suministro de agua (Babovic et al), la red de tubería de una ciudad y todos los componentes asociados con esta red
(válvulas, bombas, reservorios, etc) constituyen los activos de un suministro de agua, y como cualquier otro activo, es
importante invertir en su mantenimiento para que cumplan con su tarea.
La motivación de este trabajo se produjo debido a la política implementada en la ciudad de Copenhague (Dinamarca),
en los años 80 de reemplazar un 1% de longitud de la tubería de la red de abastecimiento de agua por año debido a
razones económicas, pérdidas de agua, capacidad, calidad del agua, reclamaciones y compensaciones, cooperación en
trabajos de construcción y visión a largo plazo.
El trabajo presenta dos técnicas de minería de datos para el análisis del riesgo de rotura de tubos en una red de
suministro. Las técnicas utilizadas son los modelos de punteo y las redes bayesianas.
El modelo de punteo une casos que presentan un comportamiento similar. Esto se lleva a cabo asignando un puntaje (un
valor entre 0 y 100) a cada caso y agrupando casos en clases de puntajes similares, los operadores utilizados son
binarios no lineales y la búsqueda del mejor modelo se realiza utilizando algoritmos genéticos.
Las redes bayesianas amplían el concepto de los modelos determinísticos tomando en cuenta las incertidumbres. Las
salidas y las entradas no son declaradas como variables fijas sino como distribuciones de probabilidad.
Una red bayesiana es una red con arcos directos y no ciclos. Los nodos (puntos de arco) representan variables random y
decisiones. Los puntos de arco en variables random indican dependencia probabilística, mientras que los puntos de arco
en decisiones especifican la información disponible en el periodo de decisión.
La red bayesiana es alimentada con parámetros acerca del tubo, del suelo y de la presión dentro del tubo como “inputs”.
Como “output”, el modelo produce un estimativo de la historia del tubo y el valor de las funciones de los tres estados
limite; esfuerzo circunferencial, esfuerzo de corte y el estado límite de fatiga.
La técnica empleada para finalizar el modelo del proceso de rotura son los árboles de clasificación.
La estrategia utilizada en el modelo de puntaje es primero construir un modelo que separe casos que tengan baja
probabilidad de rotura de aquellos que presentan incertidumbre de rotura y luego construir un modelo con el resultado
del modelo de incertidumbre.
Los resultados obtenidos con el modelo de puntaje presentan que aun cuando la edad esta entre las variables utilizadas
por le modelo, su poder de predicción es relativamente bajo. El mejor estimador de predicción para la primera partición
(casos con baja probabilidad de rotura), es la longitud del tubo, a mayor longitud mayor número de roturas. Otro
elemento de predicción utilizado fue el inicio o comienzo, es decir el número de la casa donde el tubo inicia, la cual no
parece ser una relación obvia pero el modelo es más sensible a esta variable que a la edad del tubo.
El análisis de sensibilidad del modelo refinado (modelo de incertidumbres), toma como elemento de predicción
principal el número de roturas en el modelo anterior, parece más probable que un tubo que se ha roto anteriormente se
vuelva a romper. El segundo elemento de predicción es el momento en que se toma la “instantánea”, el cual tiene que
ver con el instante en el tiempo (año, mes, día, hora), este elemento de predicción es un indicador de que en algunos
periodos existe más probabilidad de rotura que en otros.
Los modelos de puntaje proveen un método para ordenar los tubos de acuerdo a su riesgo de rotura, lo cual es necesario
para presentar un esquema de rehabilitación de la red. La calidad del modelo depende de la calidad de los datos
utilizados. La fuerza de los modelos de puntaje radica en encontrar relaciones entre variables que no son obvias para la
mente humana.
CONCLUSIONES
Se ha presentado una visión general acerca del estado del arte de la minería de datos y su aplicación a problemas
concernientes a los sistemas de abastecimiento de agua potable. Se pretende resaltar en este documento la importancia y
el gran potencial que tienen estas técnicas de descubrimiento de patrones no triviales o no obvios a simple vista, para la
aplicación en la planificación, operación y gestión de las redes de distribución de agua. El centro del proceso es la
minería de datos, el análisis automático de grandes o complejas bases de datos para descubrir patrones o enlaces
significantes que de otra forma no se conocerían.
El éxito en la aplicación de una técnica de minería de datos radica principalmente en contar con una información básica
o datos de entrada (inputs) suficiente y de buena calidad. Dentro de este documento se presentan las bases y técnicas de
la minería de datos así como un par de ejemplos acerca de su aplicabilidad en los sistemas de abastecimiento de agua
potable.
El estudio e investigación de estas técnicas aún no ha sido lo suficientemente desarrollado para su aplicabilidad en la
planificación, operación y gestión de redes de abastecimiento de agua potable, sin embargo es una tarea que aunque
difícil por la escasez o pobre calidad de la información con la que cuentan nuestros sistemas de abastecimiento, parece
tener bastante futuro para la resolución de problemas de nuestras redes.
Se han mostrados un par de ejemplos que muestran la efectividad que puede tener el proceso de la minería de datos
aplicado a problemas de abastecimientos de agua, pero se debe tener en cuenta que aún falta investigar lo suficiente
para desarrollar y aplicar técnicas adecuadas para cada tipo de problema que se nos puede presentar, o quizá buscar
información que no nos ha sido obvia o no está presente de antemano cuando nos planteamos que solución le podríamos
dar a problemas cotidianos dentro de la operación de un sistema de distribución de agua, como por ejemplo:
la detección de fugas,
el funcionamiento de los contadores,
el material utilizado para las tuberías,
problemas de ampliación de redes,
o cualquier interrogante que nos pueda surgir y pueda ser resuelto con una gran cantidad de información de la que se
dispone pero no está siendo utilizada.
REFERENCIAS BIBLIOGRÁFICAS
AN, A.; SHAN, N.; CHAN, C.; CERCONE, N.; ZIARKO, W. 1997, “Applying knowledge
discovery to predict water-supply consumption”, IEEE Intelligent Systems & Their
Applications, Volume 12, Number 4, pages 72-78.
BABOVIC, V.; DRÉCOURT, J.; KEIJZER, M.; HANSEN, P. 2001, “Modelling of Water Supply
Assets: A Data Mining Approach”, D2K Technical Report 1000-1, 2000, February 6, 2001.
BUCHHEIT, R.B.; GARRETT, J.H. JR; LEE, S.R.; BRAHME, R. 2000, “A Knowledge Discovery
Framework for City Civil Infrastructure: A Case Study of the Intelligent Workplace”,
Engineering with Computers, Number 16, Pages 264-274, 2000.
CARBONE, P.; 1997, “Data Mining or "Knowledge Discovery in Databases" An Overview”, Mitre
Corporation, 1997.
FERGUSON, M.; “Evaluating and selecting data mining tools”, InfoDB, Volume 11, Number 2.
GROSSMAN, R.; KASIF, S.; MOORE, R.; ROCKE, D.; ULLMAN, J.; 1998, “Data mining
research: opportunities and challenges”, A report of three NSF workshops on mining large,
massive, and distributed data, September 18, 1998.
OLARU, C.; WEHENKEL, L. 1999. “Data Mining”. IEEE Computer Applications in Power,
Volume 12, Number 3, July 1999, pages 19-25.
OHRN, A. 1999. “Discernibility and Rough Sets in Medicine: Tools and Applications”, Department
of Computer and Information Science, Norwegian University of Science and Technology, N-
7941 Trondheim, Norway.
PAWLAK, Z. 2001, “Rough sets and their applications”, Institute of theoretical and applied
sciences, February 28, 2002.
REICH, Y.; BARAI, S.V. 1999 “Evaluating Machine Learning Models for Engineering Problems”,
Artificial Intelligence in Engineering, Volume 13, Number 3, Pages 257 – 272, 1999.
SAVIC, D.A.; DAVIDSON, J.W.; DAVIS, R.B. 1999, “Data Mining and Knowledge discovery for
the water industry”, Water Industry Systems, modelling and optimisation applications”,
Volume 2, Edited by Dragan A. Savic and Godfrey A. Walters, Research Studies Press Ltd,
August, 1999.
SKIPWORTH, P.J.; SAUL, A.J.; MACHELL, J.; 1999, “Predicting water quality in distribution
systems using artificial neural networks”. Proceedings of the Institution of Civil Engineers-
Water Maritime & Energy, Volume 136, Number 1, Pages 1-8, July 1, 1999.