Pando Poggi
Pando Poggi
Pando Poggi
Diego Pando
Eduardo Poggi
Abstract
El veloz e intenso desarrollo de las tecnologías de información de los últimos años ha provocado que los
datos hayan pasado de ser escasos a ser masivos y heterogéneos. Este fenómeno, conocido
genéricamente como Big Data, es de tal magnitud que el procesamiento de datos cada vez se delega más
en algoritmos caracterizados muchas veces por la ausencia de marcos ético-normativos, desarrollos poco
transparentes, sesgos y decisiones cada vez más difíciles de interpretar por medios humanos. En este
contexto emergen las áreas de Analítica de Datos a partir de las cuales las instituciones públicas pueden
obtener, producir, procesar y apropiar los datos como insumos para mejorar la eficacia y la eficiencia de
la toma de decisiones.
Introducción
El veloz e intenso desarrollo de las tecnologías de información de los últimos años ha provocado que los
datos hayan pasado de ser escasos a ser masivos y heterogéneos a partir del volumen de producción, la
velocidad en que son transmitidos, la variedad de fuentes (los propios sistemas de los organismos
públicos, otras fuentes públicas y fuentes no tradicionales como redes sociales, satélites, cámaras,
sensores, etc.) y la diversidad de tipos (números, textos, imágenes, audios, videos).
En este sentido, el objetivo del presente trabajo consiste en plantear la importancia que tiene para los
organismos públicos la generación, extracción y uso de datos para mejorar el proceso de toma de
decisiones y, al mismo tiempo, explicitar los principales desafíos que esto conlleva.
En 1853, una fuerte epidemia de cólera atacó a Londres, una de las ciudades de ese entonces más
pobladas y con mayor índice de urbanización del mundo. Sólo en el barrio de Soho, de medio kilómetro
de diámetro, se produjeron cerca de 700 muertes en menos de una semana. Las autoridades creían que
la propagación de la enfermedad se daba a través del aire contaminado con olores hediondos producto
de los desechos industriales y de la población. Sin embargo, John Snow, un médico anestesiólogo local,
logró descubrir que los contagios se producían de una manera diferente a partir de la utilización de un
mapa sobre el cual empezó a georreferenciar el lugar de residencia de las personas que habían muerto.
Producto de este trabajo de campo, Snow pudo confirmar que las víctimas habían ingerido agua de una
misma bomba pública. Dado éste descubrimiento, el médico pudo convencer a las autoridades que
1
debían clausurar esa fuente de contagio para evitar la propagación de la epidemia. Ese método
geográfico conocido como “mapa del cólera” marcó el comienzo de la epidemiología moderna. De no
haber contado con este descubrimiento, consecuencia de un “nuevo” método / tecnología de
geolocalización, las autoridades de entonces hubiesen tomado un camino equivocado en la gestión de la
crisis.
Pasaron casi 170 años de esta historia que tiene, al menos, tres importantes aristas a los fines de este
artículo: la importancia del uso de datos como evidencia para la toma de decisiones públicas, la ruptura
de la inferencia abductiva por una inductiva y el uso de la visualización como herramienta de análisis.
La novedad más importante de los últimos tiempos consiste en la generación, extracción y uso de un tipo
particular de materia prima: los datos. El fenómeno del volumen, la velocidad y la variedad de datos,
conocido genéricamente como Big Data, constituye un insumo central e inédito a partir del cual el
aparato estatal puede de manera decisiva mejorar su eficacia y eficiencia y, de esta manera, estar en
sintonía con las profundas transformaciones políticas, económicas y sociales características de nuestras
sociedades.
En particular, hoy el mundo genera tantos datos que su procesamiento está fuera del alcance humano,
por lo cual muchas veces no queda más remedio que delegar su gestión en algoritmos. Es más, el control
de lo que hacen o dejan de hacer dichos algoritmos también suele escapar a las capacidades humanas,
con lo cual se “delegan” en meta-algoritmos que evalúan los demás algoritmos. Como si esto fuera poco,
la forma en que estos algoritmos son desarrollados tiene características disruptivas con las prácticas
establecidas de trabajo, implicando enormes desafíos (Harari, 2018).
En los últimos años, y fundamentalmente a partir del gran caudal de datos, tomó fuerza el paradigma
data-driven o guiado por datos en el cual se utilizan algoritmos genéricos que toman grandes cantidades
de datos y los exploran para descubrir regularidades, patrones, reglas predictivas y similitudes que
permitan de alguna manera encontrar y/o explicitar “conocimiento” oculto en los datos.
En el paradigma data-driven, la materia prima para la elaboración de algoritmos (en este caso
denominados “modelos”) son los datos. El fenómeno del Big Data, sumado a los avances de la
informática y a nuevas investigaciones, está en la base de los actuales modelos que, por ejemplo,
traducen textos de un idioma a otro, predicen enfermedades, mejoran la infraestructura urbana en base
al análisis de la movilidad de los ciclistas, atienden contribuyentes a través de asistentes
conversacionales virtuales, predicen deserciones escolares, entre una infinidad de aplicaciones de uso
cotidiano.
La aproximación data-driven es la base del Aprendizaje Automático, área de la Inteligencia Artificial (una
especie de hija predilecta) que se hizo famosa cuando saltó del ámbito académico al mundo de la gestión
con la denominación Minería de Datos de la mano de otras disciplinas como la estadística, la
2
econometría, la matemática aplicada, la gestión de datos, la visualización, la teoría de juegos y la
genética. Con los años y las modas todo esto fue sintetizado bajo el nombre de Analítica de Datos,
concepto que utilizaremos en este trabajo.
Sin embargo, como dijimos, el mundo de los datos cambió radicalmente. Ahora a los datos generados
por los sistemas de información organizacionales se deben sumar los datos registrados por millones de
personas, sensores, cámaras, teléfonos inteligentes, cajeros automáticos y cualquier otro dispositivo
interconectado a través de los cuales se dejan huellas digitales que quedan a disposición de las
organizaciones con la posibilidad de ser transformadas en información.
A diferencia de una encuesta sistemática, los datos masivos son anárquicos y espontáneos (Sosa
Escudero, 2019). Es decir, los datos no fueron generados por el propósito de crearlos, como en las
respuestas a una encuesta tradicional, sino como resultado de otra acción (compartir un mensaje en
redes sociales, pagar con una tarjeta de crédito, entrar a un sitio web, etc.). Tradicionalmente los datos
digitales se conciben como una planilla electrónica con columnas homogéneas que en las filas contienen
caracteres, fechas, cantidades, importes, códigos, etc. Hoy los datos digitales toman a la vista formas
diferentes: las cámaras dejan imágenes o videos; los diferentes sensores dejan innumerables formas de
representar lo que miden; las personas dejamos textos, hipertextos con abreviaturas, emoticones,
palabras mal escritas e infinidad de formas de expresión visual que no aparecen en los diccionarios.
Internamente todos estos formatos digitales terminan siendo números que una computadora
interpretará como pueda o como la semántica que le demos la guíe.
Así, hoy los datos tienen un valor potencial aunque la forma en que van a ser utilizados no esté clara. En
Analítica de Datos, los resultados más interesantes se dan por la combinación de datos de orígenes
diversos que ningún grupo de desarrolladores definió jamás. Las combinaciones más extrañas de datos
han dado resultados sorprendentes. La mezcla de las más diversas fuentes es la que permite a los
modelos descubrir conocimiento escondido en los mares (o ríos caudalosos) de datos, con un
tratamiento masivo basado en los grandes números.
3
3- Principales características de las prácticas de Analítica de Datos
Existen desafíos ya trabajados por la literatura para la gestión de datos masivos orientada a responder
preguntas y/o formular hipótesis a partir de técnicas de modelamiento y análisis. Uno de ellos es la
privacidad, dada la importancia de conciliar la precisión de los algoritmos con un adecuado uso de datos,
en especial cuando se trata de datos sensibles de las personas. Otro desafío es la disponibilidad de
profesionales especialistas en utilización de múltiples fuentes de datos de diferentes orígenes para
explorar, generar preguntas, realizar análisis de escenarios y cuestionar supuestos y procesos existentes
(los denominados científicos de datos). En este apartado haremos referencia a otros cuatro desafíos que
consideramos que las prácticas y productos de la Analítica de Datos (AD) deben tener en cuenta.
El primer desafío podríamos denominarlo caja negra. En los inicios de la AD los algoritmos descubrían
reglas interpretables por las personas. Utilizaban miles de datos como materia prima y relacionaban
decenas de atributos que permitían predecir con buena precisión si, por ejemplo, de acuerdo a los
antecedentes financieros de una persona correspondía el otorgamiento de un crédito. En general los
modelos generados eran entendibles por humanos y tenían la capacidad de explicar porqué habían
tomado una decisión y no otra. Actualmente los algoritmos de la AD pueden llegar a producir modelos
incomprensibles. Los datos que dan forma a estos algoritmos se cuentan en miles de millones y los
atributos de a miles. Los modelos que se descubren a partir de estos datos son tan complejos que
muchas veces escapan a toda capacidad humana de interpretación y los algoritmos tampoco son capaces
de explicar la racionalidad de la decisión. Esto se debe en particular a que la capacidad de explicación de
las decisiones no es una premisa de diseño, lo que produce modelos cada vez más opacos y complejos.
Los originales árboles de decisión hoy se han convertido en enormes “bosques aleatorios” o complejos
cálculos bayesianos o redes de redes (neuronales) conocidas como Deep Learning. El riesgo es claro: si
delegamos decisiones importantes en algoritmos de esta naturaleza, perdemos capacidad para explicar
la racionalidad que las sustentan.
El cambio constante y la automatización de los procesos de AD genera una creciente distancia de las
decisiones algorítmicas (tercera característica). Hace unos pocos años, los mineros de datos aplicaban
metodologías de desarrollo en las que preparaban los datos, generaban modelos, los testeaban,
4
realizaban cambios y volvían a empezar hasta encontrar uno bueno. Este proceso iba dejando evidencia
digital que pudo usarse para alimentar modelos que observan la generación de modelos. La práctica de
la AD va cambiando rápidamente y se van automatizando los propios procesos de elaboración de
modelos. Buena parte de la producción de modelos de AD se va alejando cada vez más de la
manipulación humana y va dejando que otros modelos denominados meta-algoritmos vayan tomando el
mando. Por lo tanto, controles, intervenciones, ajustes, etc., quedan fuera del alcance de las capacidades
humanas y son delegados en otros modelos que toman las decisiones.
El cuarto desafío está dado por los sesgos. Los datos como materia prima, son representaciones de
hechos pasados generados de una forma determinada. Muchos de estos datos fueron representaciones
de acciones humanas con toda su impronta de creencias, costumbres, valores, conocimiento y estados
de ánimo. Decisiones tomadas en el pasado por humanos en un contexto definido fueron abstraídas en
pocos datos que representan el hecho. Luego esos datos son tomados por algoritmos que los usan para
definir su propio comportamiento, a imagen y semejanza de sus predecesores. Precisamente ésta es la
idea base: los algoritmos aprenden del pasado para hacer mejor las tareas que hoy realizan las personas,
con lo positivo y lo negativo que ello puede implicar. Por ejemplo, si en el análisis de candidatos para
ocupar una posición hay en la evidencia una predisposición a elegir hombres antes que mujeres, esto
quedará plasmado en el algoritmo.
Si al caudal de datos aportados por el Big Data, cuya veracidad debe ser puesta a prueba, le sumamos las
características explicitadas en este apartado, obtenemos una combinación de riesgo potencial alto y
disruptivo para las prácticas burocráticas típicas de los aparatos estatales. El ámbito privado tiene menos
restricciones y riesgos que el sector público, al mismo tiempo que ha ido generando con los años
prácticas, protocolos y estructuras organizacionales para mantener las características de la AD bajo
control. Es decir, una empresa puede utilizar los modelos basados en datos con las características
descritas para, por ejemplo, verificar que un producto cumple con la calidad adecuada o no, un cliente es
rentable o no, cuál empleado debe recibir un bono y cuál no, con restricciones y riesgos mucho más
acotados en comparación con un organismo público que tiene lógicas y requisitos mucho más exigentes
al momento de decidir, por ejemplo, si un beneficio es denegado a un ciudadano o si un trabajador es
ascendido. Como es de imaginar, los riesgos relacionados con los problemas de transparencia, la falta de
procesos explícitamente definidos y los sesgos negativos son altísimos en el ámbito público en
comparación con el privado.
En los últimos años, las organizaciones con mayor uso intensivo de Tecnologías de la Información (TI)
fueron reconfigurando roles a partir de la revolución en el mundo de los datos. En este contexto, el rol
del CIO (Chief Information Officer o responsable de tecnología) se ha orientado cada vez a la compleja
gestión de infraestructura y provisión de servicios de TI (sistemas de información incluidos). Por otro
lado, se creó el rol de CDO (Chief Data Officer o responsable de datos) a partir de la consideración de que
5
los datos son un activo tan importante en las organizaciones que su gobierno y su tratamiento requieren
de una estructura específica que, junto al CIO, reporta a la máxima autoridad de la institución. Asimismo,
se creó el rol de CISO (Chief Information Security Officer o jefe de seguridad) por considerar que la
protección de los datos deja de ser un problema de las áreas de TI para tener incumbencia institucional.
El CISO se suele articular también con el CIO y el CDO (Deloitte, 2016).
Finalmente apareció el rol de CDxO (Chief Digital Transformation Officer o jefe de transformación digital)
al considerarse que la apropiación de nuevas tecnologías es la que guía y transforma la gestión incluso
las funciones esenciales de cualquier organización. Este rol es el responsable de imaginar el futuro de la
organización a partir de la apropiación de tecnologías, las cuales pueden ser nuevos sistemas de
información (potestad del CIO), nuevos servicios basados en datos o la incorporación de “gadgets” que
provee la industria de TI (Alexa de Amazon, Watson de IBM, el sistema Quirúrgico Da Vinci, por nombrar
solo algunos ejemplos) y pueden alimentarse con la evidencia institucional para determinar su
comportamiento (potestad del CDO).
En particular el CDO pasa a comandar las prácticas propias de la AD, cuya misión es llevar y mantener a la
institución en un paradigma data-driven. Grandes y medianas empresas privadas e incluso organismos
públicos han apropiado las prácticas de AD y las utilizan para sustentar sus decisiones basadas en
evidencia, aprovechando la masiva cantidad de datos digitales que poseen en sus reservorios
organizacionales. Una tarea relevante del CDO es la denominada gobernanza de datos. Las enormes
cantidades de datos deben ser organizadas, limpiadas, ordenadas, clasificadas y validadas. Como toda
materia prima, los datos deben pasar por un riguroso control de calidad dado que el uso de los datos
directos de la fuente suele tener resultados malos.
La AD, responsabilidad de CDO, tiene una fuerte relación con las áreas de los CIO y los CISO. La
infraestructura, la capacidad de almacenamiento y procesamiento y los datos organizacionales utilizados
por AD son potestad del CIO. Todo el contexto de los datos, sobre todo cuando se trata de datos
sensibles o bajo la protección de leyes específicas, debe estar bajo la mirada del CISO. Y, como hemos
visto, muchas de las innovaciones que puede proponer un CDxO también estarán moldeadas por los
datos institucionales administrados por el CDO.
6
5- Reflexiones finales
A pesar de que normalmente cuentan con grandes volúmenes de datos, las organizaciones públicas no
acompañaron la evolución de las técnicas relacionadas a la AD de los últimos años. Si bien es cierto que
la gestión pública no debe ir detrás de modas y debe darse tiempo para pensar las respuestas adecuadas
a los cambios que se generan en la sociedad, estos tiempos son cada vez más cortos y los riesgos que se
presentan por la escasa acción son cada vez más altos.
En este sentido, y yendo más allá de las conocidas formas de recolectar, publicar y utilizar datos por
parte de los gobiernos, las cuales sirvieron para generar aplicaciones para enfrentar la pandemia del
COVID-19, las experiencias documentadas sobre AD en el sector público latinoamericano son pocas,
aisladas y producto más bien de iniciativas individuales de determinados organismos.
Fortalecer el Estado nos exige una gestión pública crecientemente basada en datos y evidencias. El
sector público todavía tiene un largo camino por recorrer para afrontar su gestión con prácticas
organizacionales adecuadas. Pero vale la pena el recorrido dadas las potencialidades y los desafíos
existentes.
Bibliografía
Deloitte (2016): “The evolving role of the chief data officer in financial services: From marshal and
steward to business strategist”. Disponible en https://www2.deloitte.com/ba/en/pages/financial-
services/articles/the-evolving-role-chief-data-officer-financial-services.html
Harari, Yuval Noah (2018): 21 lecciones para el siglo XXI, Editorial Debate, Buenos Aires.
Poggi, Eduardo (2020): “En ciencia de datos hay una conversación constante con la información”,
entrevista realizada para Neurona BA, Buenos Aires, marzo. Disponible en http://neurona-ba.com/en-
ciencia-de-datos-hay-una-conversacion-constante-con-la-informacion/
Sosa Escudero, Walter (2019): Big Data, Siglo XXI Editores, Buenos Aires.