Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Pando Poggi

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 7

Analítica de Datos: el corazón de la transformación digital del Estado

Diego Pando
Eduardo Poggi

Abstract
El veloz e intenso desarrollo de las tecnologías de información de los últimos años ha provocado que los
datos hayan pasado de ser escasos a ser masivos y heterogéneos. Este fenómeno, conocido
genéricamente como Big Data, es de tal magnitud que el procesamiento de datos cada vez se delega más
en algoritmos caracterizados muchas veces por la ausencia de marcos ético-normativos, desarrollos poco
transparentes, sesgos y decisiones cada vez más difíciles de interpretar por medios humanos. En este
contexto emergen las áreas de Analítica de Datos a partir de las cuales las instituciones públicas pueden
obtener, producir, procesar y apropiar los datos como insumos para mejorar la eficacia y la eficiencia de
la toma de decisiones.

Introducción
El veloz e intenso desarrollo de las tecnologías de información de los últimos años ha provocado que los
datos hayan pasado de ser escasos a ser masivos y heterogéneos a partir del volumen de producción, la
velocidad en que son transmitidos, la variedad de fuentes (los propios sistemas de los organismos
públicos, otras fuentes públicas y fuentes no tradicionales como redes sociales, satélites, cámaras,
sensores, etc.) y la diversidad de tipos (números, textos, imágenes, audios, videos).

En este sentido, el objetivo del presente trabajo consiste en plantear la importancia que tiene para los
organismos públicos la generación, extracción y uso de datos para mejorar el proceso de toma de
decisiones y, al mismo tiempo, explicitar los principales desafíos que esto conlleva.

1- Los datos como materia prima

En 1853, una fuerte epidemia de cólera atacó a Londres, una de las ciudades de ese entonces más
pobladas y con mayor índice de urbanización del mundo. Sólo en el barrio de Soho, de medio kilómetro
de diámetro, se produjeron cerca de 700 muertes en menos de una semana. Las autoridades creían que
la propagación de la enfermedad se daba a través del aire contaminado con olores hediondos producto
de los desechos industriales y de la población. Sin embargo, John Snow, un médico anestesiólogo local,
logró descubrir que los contagios se producían de una manera diferente a partir de la utilización de un
mapa sobre el cual empezó a georreferenciar el lugar de residencia de las personas que habían muerto.
Producto de este trabajo de campo, Snow pudo confirmar que las víctimas habían ingerido agua de una
misma bomba pública. Dado éste descubrimiento, el médico pudo convencer a las autoridades que

1
debían clausurar esa fuente de contagio para evitar la propagación de la epidemia. Ese método
geográfico conocido como “mapa del cólera” marcó el comienzo de la epidemiología moderna. De no
haber contado con este descubrimiento, consecuencia de un “nuevo” método / tecnología de
geolocalización, las autoridades de entonces hubiesen tomado un camino equivocado en la gestión de la
crisis.

Pasaron casi 170 años de esta historia que tiene, al menos, tres importantes aristas a los fines de este
artículo: la importancia del uso de datos como evidencia para la toma de decisiones públicas, la ruptura
de la inferencia abductiva por una inductiva y el uso de la visualización como herramienta de análisis.

La novedad más importante de los últimos tiempos consiste en la generación, extracción y uso de un tipo
particular de materia prima: los datos. El fenómeno del volumen, la velocidad y la variedad de datos,
conocido genéricamente como Big Data, constituye un insumo central e inédito a partir del cual el
aparato estatal puede de manera decisiva mejorar su eficacia y eficiencia y, de esta manera, estar en
sintonía con las profundas transformaciones políticas, económicas y sociales características de nuestras
sociedades.

En particular, hoy el mundo genera tantos datos que su procesamiento está fuera del alcance humano,
por lo cual muchas veces no queda más remedio que delegar su gestión en algoritmos. Es más, el control
de lo que hacen o dejan de hacer dichos algoritmos también suele escapar a las capacidades humanas,
con lo cual se “delegan” en meta-algoritmos que evalúan los demás algoritmos. Como si esto fuera poco,
la forma en que estos algoritmos son desarrollados tiene características disruptivas con las prácticas
establecidas de trabajo, implicando enormes desafíos (Harari, 2018).

2- Hacia el paradigma data-driven

En los últimos años, y fundamentalmente a partir del gran caudal de datos, tomó fuerza el paradigma
data-driven o guiado por datos en el cual se utilizan algoritmos genéricos que toman grandes cantidades
de datos y los exploran para descubrir regularidades, patrones, reglas predictivas y similitudes que
permitan de alguna manera encontrar y/o explicitar “conocimiento” oculto en los datos.

En el paradigma data-driven, la materia prima para la elaboración de algoritmos (en este caso
denominados “modelos”) son los datos. El fenómeno del Big Data, sumado a los avances de la
informática y a nuevas investigaciones, está en la base de los actuales modelos que, por ejemplo,
traducen textos de un idioma a otro, predicen enfermedades, mejoran la infraestructura urbana en base
al análisis de la movilidad de los ciclistas, atienden contribuyentes a través de asistentes
conversacionales virtuales, predicen deserciones escolares, entre una infinidad de aplicaciones de uso
cotidiano.

La aproximación data-driven es la base del Aprendizaje Automático, área de la Inteligencia Artificial (una
especie de hija predilecta) que se hizo famosa cuando saltó del ámbito académico al mundo de la gestión
con la denominación Minería de Datos de la mano de otras disciplinas como la estadística, la
2
econometría, la matemática aplicada, la gestión de datos, la visualización, la teoría de juegos y la
genética. Con los años y las modas todo esto fue sintetizado bajo el nombre de Analítica de Datos,
concepto que utilizaremos en este trabajo.

Los protocolos, metodologías y prácticas profesionales de la informática clásica y de la Analítica de Datos


son diferentes. Si bien tienen obviamente puntos en común (ambas usan datos y usan computadoras
para su trabajo, por ejemplo), la lógica es diferente: la primera desarrolla programas que manipulan
datos, mientras que la segunda manipula los datos para inferir modelos.

En la informática clásica el objetivo primario de los programas es almacenar representaciones digitales


de eventos: tal día, a tal hora, tal persona pagó $X en concepto de cancelación de tal factura de tal
servicio. Dichos datos son utilizados posteriormente por la organización dueña del sistema (o, por lo
menos, de los datos) para obtener información que minimice su incertidumbre a la hora de detectar
morosos, generar su balance contable, pagar impuestos, etc. En este uso tradicional, los datos de la
organización son utilizados para generar información para la toma de decisiones con un tratamiento de
tipo transaccional.

Sin embargo, como dijimos, el mundo de los datos cambió radicalmente. Ahora a los datos generados
por los sistemas de información organizacionales se deben sumar los datos registrados por millones de
personas, sensores, cámaras, teléfonos inteligentes, cajeros automáticos y cualquier otro dispositivo
interconectado a través de los cuales se dejan huellas digitales que quedan a disposición de las
organizaciones con la posibilidad de ser transformadas en información.

A diferencia de una encuesta sistemática, los datos masivos son anárquicos y espontáneos (Sosa
Escudero, 2019). Es decir, los datos no fueron generados por el propósito de crearlos, como en las
respuestas a una encuesta tradicional, sino como resultado de otra acción (compartir un mensaje en
redes sociales, pagar con una tarjeta de crédito, entrar a un sitio web, etc.). Tradicionalmente los datos
digitales se conciben como una planilla electrónica con columnas homogéneas que en las filas contienen
caracteres, fechas, cantidades, importes, códigos, etc. Hoy los datos digitales toman a la vista formas
diferentes: las cámaras dejan imágenes o videos; los diferentes sensores dejan innumerables formas de
representar lo que miden; las personas dejamos textos, hipertextos con abreviaturas, emoticones,
palabras mal escritas e infinidad de formas de expresión visual que no aparecen en los diccionarios.
Internamente todos estos formatos digitales terminan siendo números que una computadora
interpretará como pueda o como la semántica que le demos la guíe.

Así, hoy los datos tienen un valor potencial aunque la forma en que van a ser utilizados no esté clara. En
Analítica de Datos, los resultados más interesantes se dan por la combinación de datos de orígenes
diversos que ningún grupo de desarrolladores definió jamás. Las combinaciones más extrañas de datos
han dado resultados sorprendentes. La mezcla de las más diversas fuentes es la que permite a los
modelos descubrir conocimiento escondido en los mares (o ríos caudalosos) de datos, con un
tratamiento masivo basado en los grandes números.

3
3- Principales características de las prácticas de Analítica de Datos

Existen desafíos ya trabajados por la literatura para la gestión de datos masivos orientada a responder
preguntas y/o formular hipótesis a partir de técnicas de modelamiento y análisis. Uno de ellos es la
privacidad, dada la importancia de conciliar la precisión de los algoritmos con un adecuado uso de datos,
en especial cuando se trata de datos sensibles de las personas. Otro desafío es la disponibilidad de
profesionales especialistas en utilización de múltiples fuentes de datos de diferentes orígenes para
explorar, generar preguntas, realizar análisis de escenarios y cuestionar supuestos y procesos existentes
(los denominados científicos de datos). En este apartado haremos referencia a otros cuatro desafíos que
consideramos que las prácticas y productos de la Analítica de Datos (AD) deben tener en cuenta.

El primer desafío podríamos denominarlo caja negra. En los inicios de la AD los algoritmos descubrían
reglas interpretables por las personas. Utilizaban miles de datos como materia prima y relacionaban
decenas de atributos que permitían predecir con buena precisión si, por ejemplo, de acuerdo a los
antecedentes financieros de una persona correspondía el otorgamiento de un crédito. En general los
modelos generados eran entendibles por humanos y tenían la capacidad de explicar porqué habían
tomado una decisión y no otra. Actualmente los algoritmos de la AD pueden llegar a producir modelos
incomprensibles. Los datos que dan forma a estos algoritmos se cuentan en miles de millones y los
atributos de a miles. Los modelos que se descubren a partir de estos datos son tan complejos que
muchas veces escapan a toda capacidad humana de interpretación y los algoritmos tampoco son capaces
de explicar la racionalidad de la decisión. Esto se debe en particular a que la capacidad de explicación de
las decisiones no es una premisa de diseño, lo que produce modelos cada vez más opacos y complejos.
Los originales árboles de decisión hoy se han convertido en enormes “bosques aleatorios” o complejos
cálculos bayesianos o redes de redes (neuronales) conocidas como Deep Learning. El riesgo es claro: si
delegamos decisiones importantes en algoritmos de esta naturaleza, perdemos capacidad para explicar
la racionalidad que las sustentan.

El segundo desafío de la AD es el autoaprendizaje. La definición clásica del Aprendizaje Automático


(como dijimos, área de la Inteligencia Artificial y base de la AD) dice que el modelo aprende si, a fuerza
de repetir una tarea, la realiza cada vez mejor a partir de analizar la evidencia (su experiencia). Esta
definición requiere de un modelo, de una tarea, de la evidencia que va dejando su propio accionar y de
una medida de performance que le permita medir qué tan bien está haciendo su tarea. Los modelos
pueden estar sujetos a cambios continuos, leves o profundos, dependiendo de cómo cambien los datos,
o lo que éstos representan. Si la evidencia cambia, los sistemas detectarán que los modelos deben
adecuarse a las nuevas circunstancias. Por lo tanto, el comportamiento de los modelos generados
inductivamente no es permanente dado que por su propia naturaleza se adecúan a las nuevas
situaciones. La diferencia principal de los algoritmos de AD respecto a los algoritmos de la informática
clásica es que su comportamiento se modifica continuamente a partir de los datos que recibe.

El cambio constante y la automatización de los procesos de AD genera una creciente distancia de las
decisiones algorítmicas (tercera característica). Hace unos pocos años, los mineros de datos aplicaban
metodologías de desarrollo en las que preparaban los datos, generaban modelos, los testeaban,

4
realizaban cambios y volvían a empezar hasta encontrar uno bueno. Este proceso iba dejando evidencia
digital que pudo usarse para alimentar modelos que observan la generación de modelos. La práctica de
la AD va cambiando rápidamente y se van automatizando los propios procesos de elaboración de
modelos. Buena parte de la producción de modelos de AD se va alejando cada vez más de la
manipulación humana y va dejando que otros modelos denominados meta-algoritmos vayan tomando el
mando. Por lo tanto, controles, intervenciones, ajustes, etc., quedan fuera del alcance de las capacidades
humanas y son delegados en otros modelos que toman las decisiones.

El cuarto desafío está dado por los sesgos. Los datos como materia prima, son representaciones de
hechos pasados generados de una forma determinada. Muchos de estos datos fueron representaciones
de acciones humanas con toda su impronta de creencias, costumbres, valores, conocimiento y estados
de ánimo. Decisiones tomadas en el pasado por humanos en un contexto definido fueron abstraídas en
pocos datos que representan el hecho. Luego esos datos son tomados por algoritmos que los usan para
definir su propio comportamiento, a imagen y semejanza de sus predecesores. Precisamente ésta es la
idea base: los algoritmos aprenden del pasado para hacer mejor las tareas que hoy realizan las personas,
con lo positivo y lo negativo que ello puede implicar. Por ejemplo, si en el análisis de candidatos para
ocupar una posición hay en la evidencia una predisposición a elegir hombres antes que mujeres, esto
quedará plasmado en el algoritmo.

Si al caudal de datos aportados por el Big Data, cuya veracidad debe ser puesta a prueba, le sumamos las
características explicitadas en este apartado, obtenemos una combinación de riesgo potencial alto y
disruptivo para las prácticas burocráticas típicas de los aparatos estatales. El ámbito privado tiene menos
restricciones y riesgos que el sector público, al mismo tiempo que ha ido generando con los años
prácticas, protocolos y estructuras organizacionales para mantener las características de la AD bajo
control. Es decir, una empresa puede utilizar los modelos basados en datos con las características
descritas para, por ejemplo, verificar que un producto cumple con la calidad adecuada o no, un cliente es
rentable o no, cuál empleado debe recibir un bono y cuál no, con restricciones y riesgos mucho más
acotados en comparación con un organismo público que tiene lógicas y requisitos mucho más exigentes
al momento de decidir, por ejemplo, si un beneficio es denegado a un ciudadano o si un trabajador es
ascendido. Como es de imaginar, los riesgos relacionados con los problemas de transparencia, la falta de
procesos explícitamente definidos y los sesgos negativos son altísimos en el ámbito público en
comparación con el privado.

4- El impacto de los datos en las estructuras organizacionales

En los últimos años, las organizaciones con mayor uso intensivo de Tecnologías de la Información (TI)
fueron reconfigurando roles a partir de la revolución en el mundo de los datos. En este contexto, el rol
del CIO (Chief Information Officer o responsable de tecnología) se ha orientado cada vez a la compleja
gestión de infraestructura y provisión de servicios de TI (sistemas de información incluidos). Por otro
lado, se creó el rol de CDO (Chief Data Officer o responsable de datos) a partir de la consideración de que

5
los datos son un activo tan importante en las organizaciones que su gobierno y su tratamiento requieren
de una estructura específica que, junto al CIO, reporta a la máxima autoridad de la institución. Asimismo,
se creó el rol de CISO (Chief Information Security Officer o jefe de seguridad) por considerar que la
protección de los datos deja de ser un problema de las áreas de TI para tener incumbencia institucional.
El CISO se suele articular también con el CIO y el CDO (Deloitte, 2016).

Finalmente apareció el rol de CDxO (Chief Digital Transformation Officer o jefe de transformación digital)
al considerarse que la apropiación de nuevas tecnologías es la que guía y transforma la gestión incluso
las funciones esenciales de cualquier organización. Este rol es el responsable de imaginar el futuro de la
organización a partir de la apropiación de tecnologías, las cuales pueden ser nuevos sistemas de
información (potestad del CIO), nuevos servicios basados en datos o la incorporación de “gadgets” que
provee la industria de TI (Alexa de Amazon, Watson de IBM, el sistema Quirúrgico Da Vinci, por nombrar
solo algunos ejemplos) y pueden alimentarse con la evidencia institucional para determinar su
comportamiento (potestad del CDO).

En particular el CDO pasa a comandar las prácticas propias de la AD, cuya misión es llevar y mantener a la
institución en un paradigma data-driven. Grandes y medianas empresas privadas e incluso organismos
públicos han apropiado las prácticas de AD y las utilizan para sustentar sus decisiones basadas en
evidencia, aprovechando la masiva cantidad de datos digitales que poseen en sus reservorios
organizacionales. Una tarea relevante del CDO es la denominada gobernanza de datos. Las enormes
cantidades de datos deben ser organizadas, limpiadas, ordenadas, clasificadas y validadas. Como toda
materia prima, los datos deben pasar por un riguroso control de calidad dado que el uso de los datos
directos de la fuente suele tener resultados malos.

La AD, responsabilidad de CDO, tiene una fuerte relación con las áreas de los CIO y los CISO. La
infraestructura, la capacidad de almacenamiento y procesamiento y los datos organizacionales utilizados
por AD son potestad del CIO. Todo el contexto de los datos, sobre todo cuando se trata de datos
sensibles o bajo la protección de leyes específicas, debe estar bajo la mirada del CISO. Y, como hemos
visto, muchas de las innovaciones que puede proponer un CDxO también estarán moldeadas por los
datos institucionales administrados por el CDO.

En nuestro país, la Administración Federal de Ingresos Públicos es un caso interesante de transformación


organizacional para la apropiación de las prácticas de AD. Esta organización fue adoptando en los últimos
años estructuras y roles en sintonía con los nuevos desafíos. Así, el área responsable de la seguridad
informática se escindió del área gestionada por el CIO y pasó a depender de la máxima autoridad del
organismo. De forma análoga, el área responsable de inteligencia de negocios siguió el mismo camino
creándose la Dirección de AD. Durante 2019 hubo un intenso trabajo para conformar el área con
profesionales de diversas formaciones y cubrir roles orientados a la gobernanza de datos, generación de
modelos y producción de reportes inteligentes. Diversos proyectos de fiscalización inteligente basada en
la evidencia digital fueron desarrollados en esta Dirección de AD (Poggi, 2020).

6
5- Reflexiones finales

A pesar de que normalmente cuentan con grandes volúmenes de datos, las organizaciones públicas no
acompañaron la evolución de las técnicas relacionadas a la AD de los últimos años. Si bien es cierto que
la gestión pública no debe ir detrás de modas y debe darse tiempo para pensar las respuestas adecuadas
a los cambios que se generan en la sociedad, estos tiempos son cada vez más cortos y los riesgos que se
presentan por la escasa acción son cada vez más altos.

En este sentido, y yendo más allá de las conocidas formas de recolectar, publicar y utilizar datos por
parte de los gobiernos, las cuales sirvieron para generar aplicaciones para enfrentar la pandemia del
COVID-19, las experiencias documentadas sobre AD en el sector público latinoamericano son pocas,
aisladas y producto más bien de iniciativas individuales de determinados organismos.

Fortalecer el Estado nos exige una gestión pública crecientemente basada en datos y evidencias. El
sector público todavía tiene un largo camino por recorrer para afrontar su gestión con prácticas
organizacionales adecuadas. Pero vale la pena el recorrido dadas las potencialidades y los desafíos
existentes.

Bibliografía

Deloitte (2016): “The evolving role of the chief data officer in financial services: From marshal and
steward to business strategist”. Disponible en https://www2.deloitte.com/ba/en/pages/financial-
services/articles/the-evolving-role-chief-data-officer-financial-services.html

Harari, Yuval Noah (2018): 21 lecciones para el siglo XXI, Editorial Debate, Buenos Aires.

Poggi, Eduardo (2020): “En ciencia de datos hay una conversación constante con la información”,
entrevista realizada para Neurona BA, Buenos Aires, marzo. Disponible en http://neurona-ba.com/en-
ciencia-de-datos-hay-una-conversacion-constante-con-la-informacion/

Sosa Escudero, Walter (2019): Big Data, Siglo XXI Editores, Buenos Aires.

También podría gustarte