Topología Algebraica para el Análisis de Datos
Karla Saraí Jiménez-Martínez , Daniel Trejo-Medina
DIVULGACIÓN CIENTÍFICA DSA SOLUCIONES®
Ciudad de México
________________________________________________________________________________
Resumen - Abstract
En esta investigación se aborda una novedosa herramienta para el análisis de datos, conocida
como Análisis Topológico de Datos (TDA por sus siglas en inglés). Subyace de un área de las
Matemáticas conocida como Álgebra Combinatoria o más recientemente Topología Algebraica,
la cual a través de hacer un fuerte uso de Computación, Estadística, Probabilidad y Topología,
entre otros conceptos, extrae características matemáticas de un conjunto de datos que nos
permiten asociar, crear e inferir información general y de calidad sobre estos.
Palabras clave: Topología Algebraica, Topología Combinatoria, TDA, Análisis topológico de
datos.
1. Introducción
Con el advenimiento y uso de nuevas tecnologías de información, entre ellos dispositivos
móviles, documentos o datos creados en redes sociales y su comentarios adicionales, han
generado una cantidad enorme de datos.
Estos datos sin un propio uso, carecen de valor, sin embargo, imagine que es un banco y desea
disminuir el riesgo de atraer un nuevo cliente, ya sea por evitar un posible lavado de dinero, o una
aseguradora que busca mitigar el riesgo utilizando un análisis de riesgo no estructurado y de
fuentes informales.
DSA Soluciones®
Investigación y Desarrollo
2016
Página 1 de 22
De inicio usted puede considerar que este conjunto de datos no es factible de analizar y generar o
inferir información general y sobre todo con calidad para poder tomar una decisión.
Tradicionalmente los métodos bayesianos son los mas comunes y conocidos en la jerga de la
computación por la popularización de diversas herramientas que lo tienen como base; con el
manejo de contenido (por ejemplo videos de YouTube, imágenes de Instagram, noticias de
periódicos, reportes de buholegal.com), datos no estructurados y las tradicionales bases de datos
(no SQL y SQL) hemos utilizado otras aproximaciones para el análisis de datos, donde
herramientas como Raytheon, TIBCO Spotfire, Attivio, GreenplumDB, R y otras permiten su
aplicación y uso real.
Si es usted un banco que necesita medir riesgos operativos, o prevenir fraude interno, es un
vendedor al detalle (retailer) que busca como optimizar el valor agregado a sus clientes y mitigar
las mermas sociales y de baja de marca, o un órgano de seguridad publica que busca analizar
múltiples factores en tiempo corto, una telefónica esperando ajustar el nivel de tasa de abandono
en tiempo real desde múltiples dimensiones, este artículo le puede interesar.
En un ámbito mas directo en recaudación de impuestos es el cruce de causantes menores,
mayores, facturas y transferencias bancarias, es decir la recaudación de impuestos donde se puede
aplicar de forma mas directa.
El tener múltiples fuentes de datos, permite mediante el uso de espacios topológicos euclidianos,
el generar una nube de ellos que forman un conocimiento generalizado sobre ellos, lo cual da
como resultado una vinculación y escenario de posibles pronósticos de datos que pueden ayudar a
resolver diversas preguntas de negocio.
DSA Soluciones®
Investigación y Desarrollo
2016
Página 2 de 22
La visualización de datos de demasiadas dimensiones (para fines prácticos mas de 25) genera
una dificultad de visualización directa, sin embargo, en la aplicación real, no exceden de 10
dimensiones las que se analizan.
En las últimas décadas, la cantidad de datos que se crea y comparte en Internet ha tenido un
crecimiento asombroso, tan sólo las transacciones financieras, GPS y redes sociales, generan 2.5
quintillones de exabytes cada día alrededor del mundo y se espera que la cantidad siga
aumentando. Para analizar todos estos datos que los individuos, empresas públicas y privadas o
cualquier ente genera en grandes cantidades, han surgido disciplinas que buscan lograr un
eficiente manejo, tal es el caso del Análisis Topológico de Datos, área de aproximadamente 15
años de antigüedad, proveniente de la Topología Algebráica, subdisciplina de las Matemáticas.
A continuación presentamos una explicación que consideramos sencilla de los métodos que
ocupa el DSAengine® para uno de sus modelos analíticos aplicados.
La manera en que opera este tipo de análisis, es partiendo de una base o conjunto de datos, del
cual se desea extraer características que nos permitan generar conocimiento generalizado sobre
ellos. Los datos se imaginan como una nube, formada por puntos, en los que cada uno representa
un dato. A esta nube se le asocia un espacio topológico euclidiano, conocido con el nombre de
Complejo Simplicial, este se vuelve en el interés de estudio para extraer sus características
topológicas, tales como sus componentes conexos, agujeros, su estructura como gráfica, ente
otras. Asociar una estructura topológica a los datos permitirá pensar en si esta se parece a algún
objeto matemático del que ya se conocen sus propiedades topológicas y así poder trasladarlas a
estos para su estudio.
DSA Soluciones®
Investigación y Desarrollo
2016
Página 3 de 22
Cada punto que representa un dato en el espacio, se toma como centro para trazar un círculo de
diámetro d fijo, aquí resulta claro que como los datos están dispersos de manera aleatoria, hay
puntos muy cercanos y lejanos unos de otros, encontrando círculos que se intersectan y otros no.
Así podrán intersectarse, ninguno, dos, tres, cuatro…n círculos. Figura 1.
Figura 1. Comportamiento de los círculos trazados a partir de cada punto que representanta un
dato.
Cuando se intersectan dos círculos, se traza un vértice que une a los dos centros de estos, si se
intersectan tres, se trazará un triángulo, para cuatro un tetraedro, y así sucesivamente. Al realizar
este procedimiento con cada uno de los datos, el resultado final será una gráfica formada con
todos los vértices, la cual incluirá hoyos o agujeros entre los círculos como en la figura 2. La
gráfica se vuelve en el espacio topológico de estudio, del cual se desea conocer y analizar sus
propiedades, principalmente los agujeros presentes en ella, ya que la presencia de estos en el
tiempo, permiten conocer información sobre la base de datos.
DSA Soluciones®
Investigación y Desarrollo
2016
Página 4 de 22
Figura 2. Gráfica formada por los vértices de los círculos que se intersectan.
Al estudiar los agujeros presentes en la gráfica, es necesario establecer un diámetro 𝑑 fijo
adecuado con el que se trazarán los círculos, ya que de este dependerá si los agujeros son grandes
o chicos. Por ejemplo, si se supone un diámetro muy pequeño, los círculos alrededor de cada
punto no se intersectarán y por el contrario, si se elige uno muy grande, todos los círculos estarán
encimados o demasiado pegados ya que se intersectarán una gran cantidad, lo cual en una base
de datos podría ser equivalente a pensar que se tienen datos atípicos, que se desvían mucho de los
demás o la presencia de ruido. Figura 3.
DSA Soluciones®
Investigación y Desarrollo
2016
Página 5 de 22
Figura 3. Comparación de elegir un diámetro d muy pequeño, en el que ningún círculo se
intersecta (izq) y elegir un diámetro d muy grande, en el que todos los círculos se intersectan
(der)
Ahora, suponga que se forma un agujero entre 4 círculos de diámetro 𝑑! provenientes de 4
puntos, y se busca desaparecer ese hoyo, necesariamente para lograrlo se tiene que modificar el
diámetro aumentándolo, es decir se tendría un nuevo 𝑑! . Los vértices que unen los puntos
permanecerían, pero el hoyo quedaría oculto, como en la figura 4.
Figura 4. Presencia y desaparición del agujero, conforme se modifica el diámetro 𝑑 .Los
vértices permanecen.
DSA Soluciones®
Investigación y Desarrollo
2016
Página 6 de 22
Se vuelve entonces de especial interés qué tan persistente es o no un hoyo en el tiempo y su
impacto en la nube de datos conforme se va modificando el diámetro de los círculos, para ello es
que ser recurre al uso de la homología persistente. La persistencia de un hoyo en la gráfica se
puede asociar a un segmento formado por la pareja (𝑑! , 𝑑! ) partiendo del diámetro inicial 𝑑! para
los círculos en la que el hoyo está presente, y posteriormente despareciendo de la gráfica, cuando
𝑑! se modifica y se convierte en un nuevo diámetro 𝑑! . Cada agujero presente tendrá asociado
su propio segmento (𝑑! , 𝑑! ), formando entre todos estos un conjunto que se conoce con el
nombre de código de barras, es decir que una nube de datos diámetros, tendrá asociado una
identificación, un único código de barras.
Los hoyos que persisten mayoritariamente a través de la modificación del diámetro, y por tanto
tienen un segmento o barra larga, son los de especial interés ya que aportan información y
significado de la estructura de la base de datos. Por último, todo el conjunto de barras se
transforma en puntos, para formar un diagrama de persistencia, el cual es una herramienta
gráfica que nos permite resumir toda la información de los datos de estudio.
En la siguiente sección se describen los conceptos en los cuáles se apoya la Topología
Algebraica para el análisis de datos, además de dar estos en el orden en el que van operando
sobre la nube de datos para extraer las características que se desean. Se omiten demostraciones ya
que no es el objetivo de un artículo de divulgación, sin embargo en la parte última, se sugiere la
bibliografía al respecto.
2. Conceptos
En 1894, Henri Poncairé, a través de publicar varios artículos, comienza a sentar las bases de la
Topología Algebraica. Creó lo que hoy se conoce como homología simplicial; describiendo los
DSA Soluciones®
Investigación y Desarrollo
2016
Página 7 de 22
conceptos de triangulaciones, complejo dual, números de Betti, entre otros. Cada vez se han
descubierto dentro y fuera de las matemáticas diversas aplicaciones de estos conceptos y
actualmente, se han producido métodos para calcular información homológica a partir de una
nube de datos X. Para lo cual es necesario el conocimiento de diferentes conceptos puramente
matemáticos. En este apartado se darán definiciones básicas de topología algebraica, la cual
estudia los invariantes respecto a funciones continuas.
Topología
Def.2.1. Sea X un conjunto no vacío y τ una familia de subconjuntos de X. Diremos que τ es una
topología en X si satisface las siguientes condiciones:
•
∅, 𝑋 ∈ 𝜏
•
Si 𝐴! , 𝐴! , … 𝐴! ∈ 𝜏 →
•
!
!!! 𝐴𝑖
∈𝜏
𝐴! }!∈!
A la pareja (X, τ) se le conoce como un espacio topológico. Se le llama puntos a los elementos
de X y a los elementos de τ , conjuntos abiertos. Si (X, τ ) es un espacio topológico, diremos que
A⊆ X es un conjunto cerrado si X/A es un conjunto abierto. Las dos topologías más elementales
son la topología discreta, la cual consta de todos los subconjuntos de un conjunto X y la topología
indiscreta, que consta del vacío y del mismo conjunto X (i.e, τ = {∅, X}).Esto quiere decir que
cualquier conjunto X admite al menos dos topologías.
DSA Soluciones®
Investigación y Desarrollo
2016
Página 8 de 22
Def.2.2 Sean (X, τ) y (Y, τ´) dos espacios topológicos y F una aplicación entre ellos, diremos que
F es continua si para cada conjunto abierto 𝐴 ∈ 𝜏´, 𝐹 !! 𝐴 es un conjunto abierto en τ, donde
𝐹 !! 𝐴 = 𝑥 ∈ 𝑋 𝐹 𝑥 ∈ 𝐴
Para hablar de dos formas equivalentes en topología, la noción de equivalencia es la de
homeomorfismo.
Def. 2.3. Se dice que dos espacios topológicos (X, T) y (X´, T´) son homeomorfos (o
equivalentes) si existe una función biyectiva continua y con inversa continua. A una función que
cumple estas condiciones se le conoce como homeomorfismo.
Si el interés es mostrar que dos espacios topológicos son homeomorfos, se deben encontrar
propiedades en ellos que se preserven bajo homeomorfismos, así si uno de los espacios posee una
de estas propiedades y el otro no, se concluye que no son homeomorfos.
Def.2.4. Se dice que una aplicación φ : A → B es un morfismo si para cada par de elementos x, y
∈ 𝐴 se tiene que φ(x ∗ y) = φ(x) ∗ ´φ(y), donde ∗ y ∗ ´ son las operaciones algebraicas en A y B
respectivamente.
Def.2.5. Una categoría es una clase de objetos.
Por ejemplo, en la clase de los grupos abelianos, los objetos son los grupos abelianos. Dos
categorías se relacionan mediante aplicaciones llamadas morfismos, en el ejemplo de los grupos,
dichos morfismos son los homomorfismos de grupos. Si construimos ahora un universo de
categorías este también será una categoría, y se pueden relacionar sus objetos (que son las
categorías) mediante funtores los cuales se ven como una generalización del concepto de función
DSA Soluciones®
Investigación y Desarrollo
2016
Página 9 de 22
para categorías. Los funtores asocian a cada objeto de una categoría, un objeto de la otra, y a cada
aplicación de la primera una aplicación de la segunda. Para el Análisis Topológico de Datos, se
usa el funtor de homología de complejos simpliciales, que a continuación se describe.
Complejo simplicial
Los complejos simpliciales son estructuras combinatorias que permiten la intervención del
Álgebra en la Topología gracias a homología simplicial y los invariantes asociados a ella. La
noción de complejo simplicial se desarrolló gradualmente a partir de los estudios de polígonos y
poliedros tridimensionales que se remontan a los orígenes de las Matemáticas. (Elementos de la
Homología Clásica Notas Teóricas, 2012)
Def.2.6. El complejo simplicial abstracto y finito, es una familia K no vacía de subconjuntos de
un conjunto de vértices V = {vi }m tal que se cumplen:
•
Si α ∈ K y β ⊆ α, entonces β ∈ K;
•
V ⊆ K (Para simplificar la notación, se identifica a cada v∈ 𝑉 𝑐𝑜𝑛 𝑣 ∈ 𝐾)
A los elementos de K se les denomina caras, y su dimensión se define como uno menos
que su cardinalidad. Las caras de dimensión cero se les denomina vértices y a las de
dimensión uno aristas. Un mapeo simplicial entre complejos simpliciales es una función
que respeta sus contenidos estructurales al mapear caras de una estructura a caras de la
otra, es decir que estos conceptos presentan estructuras combinatorias que capturan las
propiedades topológicas de una gran variedad de estructuras geométricas.
DSA Soluciones®
Investigación y Desarrollo
2016
Página 10 de 22
Dado un complejo simplicial abstracto K, se produce un espacio topológico simplicial,
pues se considera la realización geométrica o poliedro asociada, que se denota como [K],
la cual es construida cuando se consideran las caras de K como generalizaciones de
triángulos y tetraedros en espacios euclidianos de alta dimensión.
Para analizar un complejo simplicial K, se construyen estructuras algebraicas y se calculan
sus invariantes topológicos, que son propiedades de K y que no cambian bajo
homeomorfismos, como se definió en el apartado anterior. Es decir que se calculan los
invariantes topológicos de K al “traducir” su estructura combinatoria al álgebra,
considerando el siguiente procedimiento.
1) Se construye un módulo de k cadenas 𝐶! , que será resultado de todas las
combinaciones lineales de caras k-dimensionales de K, con coeficientes dentro de
un anillo conmutativo.
2) Se consideran los operadores frontera (o simplemente fronteras) 𝜕! : 𝐶! → 𝐶!!! que
son los morfismos que mandan una cara del conjunto 𝜎 = [𝑝!, 𝑝!,…. 𝑝! ] ∈ 𝐶! en
!
𝜕! 𝜎 𝜎 =
−1
!
𝑝!, … 𝑝!!!, 𝑝!!!, … 𝑝!
!!!
3) Se construye el grupo de homología de nivel k, definido por los módulos de cociente
𝐻! 𝐾 ≔ ker (𝜕! )/𝑖𝑚(𝜕! !! ). Así entonces, se define el número de huecos kdimensionales o k-ésimo número de Betti de K como 𝛽! = rango 𝐻! . Es decir que si
tomamos de ejemplo la esfera, se tienen cero huecos 1-dimensionales y un solo hueco 2dimensionales.
DSA Soluciones®
Investigación y Desarrollo
2016
Página 11 de 22
Def.2.7. Los operadores de frontera 𝜕! denotan un complejo de cadenas denotado por
𝐶∗ = 𝐶∗ 𝐾 representado por
!"!!
!"
∙∙∙→ 𝐶!!! !!!→
𝐶! !!!→
𝐶!!!
!!!→
∙∙∙
Def. 2.8. [4] Dado un complejo de cadenas 𝐶∗ de módulos sobre un anillo conmutativo y
unitario R, se definen los módulos de k-ciclos y k-fronteras como 𝑍! = ker 𝜕! y 𝐵! = 𝑖𝑚𝜕!!! ,
respectivamente. Como se tienen sub módulos anidados 𝐵! ⊆ 𝑍! ⊆ 𝐶! el R-módulo de khomología 𝐻! = 𝐶∗ = 𝑍! /𝐵! está bien definido.
Durante todo el análisis Topológico de Datos, uno de los principales intereses es cuantificar los
agujeros de K, cabe la posibilidad de encontrarse con dos ciclos que representen el mismo
agujero, lo cual indicaría que no hay ningún espacio entre estos dos cíclos, ya que de existir dicho
espacio saldría de entre ellos.
Filtraciones
Def. 2.10. Sea K un complejo simplicial de dimensión finita n, una filtración de K es una
colección 𝐾!, 𝐾!… 𝐾! de complejos, tales que:
•
𝐾! ⊂ 𝐾! ⊂ ⋯ ⊂ 𝐾! = 𝐾
•
𝐾! es un subcomplejo de 𝐾!!! para i= 0,1…,m-1
El objetivo más importante es que conforme va formándose el complejo, se encuentren
filtraciones con características que puedan aportar información importante para el análisis de la
DSA Soluciones®
Investigación y Desarrollo
2016
Página 12 de 22
nube de datos Figura, con esto es natural pensar que no existirá una única filtración para un
complejo K.
.Figura 5. Filtración ordenada de un complejo simplicial formado por un triángulo y sus caras
Homología persistente
Ahora, situándose en el conjunto de datos denotado por 𝑋 = {𝑋! }!
!!! ⊂
!
del que se desea
obtener información, como se ha mencionado, los invariantes topológicos son características
importantes de objetos geométricos y sus propiedades interesan ya que son los indicadores para
entender al conjunto de datos. Al calcular estos invariantes, un problema a tratar es la
inestabilidad que presenta la información homológica, ya que pequeñas variaciones al construir
estructuras topológicas sobre X, podrán producir grandes cambios homológicos, para ello se usa
la homología persistente, que permite calcular a través de herramientas computacionales, los
invariantes topológicos en estructuras finitas. La homología es un modo de contar agujeros de
cualquier dimensión en un espacio topológico, y en ese sentido, es una medida de la complejidad
de dicho espacio. Su objetivo principal es entender cómo se relacionan distintos grupos de
homologías por medio de inclusiones. (González, J. y Guillemard, M)
DSA Soluciones®
Investigación y Desarrollo
2016
Página 13 de 22
Intentar construir un complejo simplicial K, a partir de una nube de datos X puede ser un
problema difícil, pues dependerá del número de datos con los que se cuenten en dicha base de
datos. Se puede considerar la homología 𝑋! =
!
!!! 𝐵(𝑥! , 𝜀)
donde cada B representa una bola
de radio 𝜖, que se traza tomando como punto central cada dato 𝑥! , en este caso se buscaría un
valor óptimo para el trazo de las bolas en el que la homología de 𝑋!! corresponde a la homología
de una subvariedad M de
!
con lo que obtendríamos valores homológicos distintos por cada
pequeña variación que se haga para 𝜀! y con ello gran inestabilidad. Para resolver este problema,
la homología persistente no considera información topológica para exclusivamente un valor fijo
de 𝜀 sino para todo 𝜀 > 0.
Gracias al concepto de filtración es que se puede asegurar que habrá un número finito de
complejos simpliciales no homeomorfos 𝐾! ⊂ 𝐾! ⊂ ⋯ ⊂ 𝐾! construidos a partir de {𝑋! , 𝜀 > 0}
de los que se desea estudiar su información homológica, para lo cual existen varias estructuras
simpliciales, en particular la construcción computacional descrito a continuación.
Def. 2.11. Complejo de Vietoris-Rips 𝑅! (𝑋),
•
X se ve como un conjunto de vértices
•
El conjunto de vértices 𝜎 = {𝑥! , … . 𝑥! } determina un k-simplejo de 𝑅! (𝑋) si 𝑑(𝑥! , 𝑥! ) ≤
𝜀 para todo 𝑥! , 𝑥! ∈ 𝜎
•
Dado un valor 𝜀! , el complejo de Vietoris-Rips 𝑅! (𝑋),determina un elemento de la
filtración 𝐾! ⊂ 𝐾! ⊂ ⋯ ⊂ 𝐾! con 𝐾! = 𝑅!" (𝑋)
DSA Soluciones®
Investigación y Desarrollo
2016
Página 14 de 22
Es decir que un número finito de valores {𝜀! }!
!!! describirán las características homológicas de X,
formando con cada valor un complejo de Vietoris-Rips 𝐾! que resultará en una colección que
representa las propiedades topológicas de la familia {𝑋! , 𝜀 > 0}. Por lo tanto, el análisis
topológico de una nube de puntos X y el crecimiento de su K complejo asociado se reduce al
análisis de una filtración 𝐾! ⊂ 𝐾! ⊂ ⋯ ⊂ 𝐾! y las clases de homología, principal objeto de
estudio de la homología persistente.
Persistencia
Al querer estudiar la persistencia del complejo K asociado a un conjunto de datos X a través del
tiempo, se busca poder tener información de generación y persistencia de las clases, respondiendo
a las preguntas ¿Cuánto viven? ¿En qué momento es que nacen y mueren? Y, posteriormente
resumir esta información en un gráfico llamado diagrama de persistencia, siendo necesarias las
siguientes definiciones.
Def. 2.12. Complejo persistente. Familia de complejos de cadenas {𝐶∗! }!!! y sus morfismos:
!!
!!
!!
𝐶∗! !!!→𝐶∗! !!!→ 𝐶∗! !!!→
! !!!
!!
! !!!
∙∙∙ !!!→𝐶∗! !!!→ 𝐶∗!!! !!!→⋯
Dada la filtración de K, se pueden considerar las funciones 𝑓! o inclusiones entre cada complejo
simplicial de la sucesión 𝐾! ⊂ 𝐾! ⊂ ⋯ ⊂ 𝐾! = 𝐾
DSA Soluciones®
Investigación y Desarrollo
2016
Página 15 de 22
Def.2.13. Modulo persistente. Familia de R-módulos 𝑀! y homomorfismos 𝜑 ! : 𝑀! −→ 𝑀!!! , el
cual será de tipo finito si cada 𝑀! es finitamente generado y los mapeos 𝜑 ! son isomorfismos
para 𝑖 suficientemente grande.
Def 2.14. Sean 𝑍!! los módulos de k-ciclos y 𝐵!! los módulos de k fronteras en la cadena 𝐶! , los
módulos p- persistentes de homología están definidos como:
𝐻!!,! =
𝑍!!
!!!
(𝐵!
𝑍! ! )
Donde el rango de 𝐻!!,! es el k-ésimo número p-persistente de Betti de 𝐶 ! denotado por
𝛽!!,! .Otra manera de entender a los módulos p-persistentes es en términos de inclusiones
𝐾 ! ⊂ 𝐾 !!! con los homomorfismos inducidos 𝑓!!,! : 𝐻!! → 𝐻!!!! y las relaciones 𝑖𝑚(𝑓!!,! ) = 𝐻!!,!
o como los términos de una secesión espectral. (Zomorodian A. and Carlsson G., 2005)
Para conocer la información de generación y persistencia de las clases homológicas es necesario
contestar las preguntas de cuándo es que estas nacen, mueren y cuánto tiempo es que viven, para
ello se consideran los grupos de homología persistente que contienen clases homológicas
estables en el intervalo (𝑖, 𝑗 + 1), es decir que nos interesan aquellas que nacen en un tiempo no
posterior a 𝑖 y siguen vivas en 𝑗 + 1, ya que si permanecen para grandes valores, detectan
características topológicas estables en la nube de datos X. En contraparte, para clases que
permanecen únicamente para valores pequeños, estas son inestables y sus componentes
topológicas no aportarán información de calidad de X, sino ruido.
DSA Soluciones®
Investigación y Desarrollo
2016
Página 16 de 22
Def.2.15. Sea K un complejo y F una filtración, la clase 𝛼 ∈ 𝐻! 𝐾! :
•
Nace en el tiempo 𝑖 si 𝛼 ∉ 𝐻!!!,!;! (𝐾, F), para las clases cero, el cero nace en −∞
•
Será un ancestro de la clase 𝛽 ∈ 𝐻! (𝐾! ) con 𝑖 ≤ 𝑗 si 𝑙!,! 𝛼 = 𝛽, un primer ancestro es,
un ancestro de 𝛼 cuyo tiempo de nacimiento es mínimo, denotado
•
Nace en un tiempo 𝑖 si 𝑛 𝛼 = 𝑖
•
Muere en tiempo 𝑗 + 1 si 𝑙!,!!! (𝛼) ∈ 𝐻!!!,!
Def. 2.16. La clase 𝛽 ∈ 𝐻! (𝐾! )es descendiente de la clase 𝛼 ∈ 𝐻! (𝐾! )con 𝑖 ≤ 𝑗 si
𝑙!,! 𝛼 = 𝛽, así el primer descendiente de una clase 𝛼 ∈ 𝐻! 𝐾! , si existe se le lama último
descendiente de 𝛼 y y a su tiempo d emuerte 𝑚(𝛼), si no existe 𝑚 𝛼 = ∞, así el último
descendiente de 𝛼 es 𝑙!,! (𝛼).
Def. 2.17. Una colección de clases 𝐹 = {𝛼! , 𝛼!!! , … 𝛼! } es una familia si se cumplen las
siguientes condiciones:
•
𝑙!,! 𝛼! = 𝛼! para 𝑠 = 𝑖 + 1, … 𝑗,
•
𝛼! es primer ancestro de 𝛼! ,
•
𝛼! es último ancestro descendiente de 𝛼!
Def. 2.18. Sea 𝛼 ∈ 𝐻! 𝐾! una clase no cero, su persistencia se define como 𝑝𝑒𝑟𝑠 𝛼 =
𝑚 𝛼 − 𝑛(𝛼), si 𝑚 𝛼 = ∞, entonces 𝑝𝑒𝑟𝑠 𝛼 = ∞.
Def. 2.19. Si 𝐹 = {𝛼! , 𝛼!!! , … 𝛼! } es una familia, su persistencia se define como 𝑝𝑒𝑟𝑠 𝐹 =
DSA Soluciones®
Investigación y Desarrollo
2016
Página 17 de 22
𝑝𝑒𝑟𝑠(𝛼! ) si 𝑚 𝛼! = ∞, entonces 𝑝𝑒𝑟𝑠 𝐹 = ∞, es claro que por ser una familia
𝑝𝑒𝑟𝑠 𝐹 = 𝑝𝑒𝑟𝑠(𝛼) para cualquier 𝛼 ∈ 𝐹.
Def. 2.20. Una familia 𝐹 = {𝛼! , 𝛼!!! , … 𝛼! } es de generación (𝑖, 𝑗) y una clase 𝛼 es de
generación (𝑖, 𝑗) si pertenece a una familia de generación (𝑖, 𝑗), así una clase puede
pertencer a distintas familias pero todas estas tienen la misma generación, es decir que está
bien definida.
La persistencia nos dice qué tan antigua es una clase, persistencias pequeñas no serán de gran
interés para su estudio pues no representan cualidades importante en el crecimiento del
complejo K, sino como se ha mencionado pueden indicar la presencia de ruido, por otro lado las
persistencias grandes o que permanecen mucho tiempo y no mueren, aportarán información de
gran importancia sobre K.
Diagrama de persistencia
Como se mencionó anteriormente, para visualizar la evolución topológica de la homología
persistente en el tiempo con respecto a el parámetro 𝜀 > 0, se utiliza una representación gráfica
conocida como diagrama de persistencia, el cual expresa la cantidad y estabilidad de los
diferentes huecos k-dimensionales presentes en X, para cada nivel o generación de la homología
k, que por el teorema fundamental de persistencia que más adelante se enunciará, es equivalente a
la información que proporcionan los números de Betti persistentes.
Para obtener un diagrama de persistencia, es necesario seguir un algoritmo a continuación
DSA Soluciones®
Investigación y Desarrollo
2016
Página 18 de 22
descrito, basado en los conocimientos previos. (Espinosa, M.E., 2015)
•
Se selecciona 0 ≤ 𝑝 < 𝑛 para construir el diagrama de codificación asociado a la
homología p-dimensional
•
Se elije 1 ≤ 𝑖 < 𝑗 ≤ ∞ y se marca el plano
×(
∪ ∞ ), el punto 𝑖, 𝑗 + 1 donde
𝑛 + 1 se marca en ∞ si 𝜇!,! > 0
•
Se le asigna multiplicidad 𝜇!,! al punto (𝑖, 𝑗 + 1), si este punto fue marcado y esta se
marca en el diagrama escribiendo a 𝜇!,! al lado del punto (𝑖, 𝑗 + 1)
•
Se dibuja la diagonal 𝑥 = 𝑦 además de considerar que cada punto tiene multiplicidad
infinita.
La Figura 6 ilustra la manera en que se ve un diagrama de persistencia.
Figura 6. Diagramas para representar la persistencia homológica de la filtración de la figura…
En (a) se representan los diagramas códigos de barra, uno para cada dimensión. En (b) se
representa el llamado diagrama de persistencia. (Alonso R., Garcia E. y Lamar J., 2015, p.22)
DSA Soluciones®
Investigación y Desarrollo
2016
Página 19 de 22
Conclusiones
Cada día se vuelve una tarea de mayor interés el análisis e interpretación de datos para
distintas empresas, tradicionalmente el uso de minería de datos, modelos estadísticos,
aproximaciones bayesianas son las más comunes, la topología algebraica aplicada a datos,
es una alternativa novedosa, y que para manejo de grandes volúmenes de datos de forma
visual lo hace sencillo con un rigor y confiabilidad necesaria para saber que es y será una
herramienta proba, este tipo de análisis es de análisis interesante para temas de prevención
de lavado de dinero, prevención de fraudes fiscales, alertas tempranas en datos masivos,
vinculación de internet de las cosas con desempeño operativo.
Referencias
Alonso R., Garcia E. y Lamar J. (2015) De la homología simplicial a la persistencia homológica.
Un estado del arte. La Habana, Cuba: CENATAV
Elementos de la Homología Clásica Notas Teóricas (2012). Barcelona: Universidad de Sevilla
Espinosa, M.E. (2015) Homología persistente. Guanajuato México: CIMAT
González, J. y Guillemard, M. Algunas aplicaciones de la Topología Algebráica. México:
Departamento de Matemáticas, CINVESTAV-IPN
DSA Soluciones®
Investigación y Desarrollo
2016
Página 20 de 22
Zomorodian A. and Carlsson G.(2005) Computing persistent homology. Discrete Comput.
Geom., p.249-274.
Bibliografía
Hartley B. and Hawkes T.O. (1980). Rings, modules and linear algebra. London: Chapman &
Hall.
Edelsbrunner H. and Harer J.(2010) Computational Topology, an Introduction. Providence,
Rhode Island : American Mathematical Society.
Lee J. (2011). Introduction to Topological Manifolds. New York: Springer.
Martínez B. (2015) Homología Persistente en el Análisis Topológico de Datos. (Tesis inédita de
Licenciatura). Facultad de Ciencias, UNAM.
Niyogi P., Smale S. and Weinberger S.(2008) Finding the homology of submanifolds with high
confidence from random samples. doi=10.1.1.115.1370
Zomorodian A., (2005) Topology for Computing. England: Cambridge, Monographs on Applied
and Computational Mathematics.
DSA Soluciones®
Investigación y Desarrollo
2016
Página 21 de 22
DSA Soluciones®
Investigación y Desarrollo
2016
Página 22 de 22