Zeifer B. 2020 Big Data para Comunicacion Politica. La Revolucion Cultural de Los Datos-W
Zeifer B. 2020 Big Data para Comunicacion Politica. La Revolucion Cultural de Los Datos-W
Zeifer B. 2020 Big Data para Comunicacion Politica. La Revolucion Cultural de Los Datos-W
KAS
Cit a en:González, F. 2019. Big dat a, algorit mos y polít ica: las ciencias sociales en la era de las redes dig…
José Oct avio Islas Carmona
Microblogging elect oral: usos y funciones en T wit t er de la polít ica emergent e española en las campa…
GUILLEM SUAU GOMILA
Big Data para Comunicación Política
La revolución cultural de los datos
Bárbara Zeifer
Septiembre 2020
1
cuestiones tales como qué presupuesto invertir en pauta publicitaria en cada medio de
comunicación y qué tipos de mensajes construir para cada segmento de la audiencia.
En el trabajo cotidiano en las organizaciones actualmente nos encontramos con que muy
frecuentemente en este tipo de decisiones tienen un alto peso variables exógenas, tales
como el grado de amistad del líder con el dueño de cierto conglomerado mediático, los
acuerdos preestablecidos y, por qué no, los egos de los diferentes actores involucrados,
variables que son a su vez cambiantes y dinámicas y pueden requerir cambios bruscos de
estrategia que llevan a la ineficiencia en la utilización de los recursos.
Es evidente que estas lógicas, sumadas a la inevitable resistencia al cambio que
ofrecerán los actores que se encuentran cómodos con los procesos tradicionales de toma
de decisiones, explican la complejidad de instalar una cultura data driven en muchas
organizaciones.
Por supuesto, esto nos lleva desde un punto de vista eficientista al despilfarro de
recursos. Así, en la práctica nos encontraremos con equipos de comunicación que no
logran acceder a la totalidad de los datos que se recolectan en el municipio o la compañía
debido a la falta de voluntad de cooperación entre las diferentes áreas o sectores, y con
presupuestos publicitarios millonarios que consiguen resultados pobres o al menos muy
lejanos a su potencial.
Entonces ¿qué puede hacer una nueva generación de líderes comunicacionales para
aprovechar el potencial del big data? En el presente artículo trabajaremos sobre la
premisa de que la promesa del potencial infinito de un “gobierno de datos” absoluto será
siempre incumplida. El big data constituye un recurso valioso que permite tomar mejores
decisiones, pero solo cuando éstos sean procesados e interpretados por recursos
humanos idóneos que logren transformarlos en insumos útiles para la formulación de
estrategias contextualizadas en las lógicas organizacionales subyacentes.
Liderar una organización hacia un cambio cultural exitoso requiere no solamente proponer
una nueva manera de hacer las cosas, sino también reconocer qué elementos, aunque
vetustos, son esenciales para el cumplimiento de las funciones básicas del conjunto,
hacen parte del núcleo de su identidad, y por lo tanto será necesario preservar. Una
desconexión entre ambas aristas también llevará a un resultado sub-óptimo.
Así, mucho se ha hablado y escrito acerca de cómo Barack Obama en 2008 y Donald
Trump en 2016 ganaron las elecciones presidenciales estadounidenses haciendo un uso
innovador de la comunicación digital y de la minería de datos. Sin embargo, como
veremos más adelante, no fue solo su utilización sino la exitosa articulación entre la lógica
de los datos, la lógica mediática y la lógica política la clave del triunfo. Esto explica por
qué posteriormente otros candidatos en la región que intentaron implementar campañas
enteramente data driven confiando en que los algoritmos serían suficientes para sortear
enteramente las manías de la lógica política eventualmente fracasaron. Veamos a
continuación entonces más en detalle cuáles son las oportunidades y los desafíos de la
implementación de una lógica data driven en comunicación política hoy.
5
La pirámide del conocimiento. Fuente: Hey
(2004)
A Palermo A 1 0 0 0
B Colegiales B 0 1 0 0
C Villa Luro C 0 0 1 0
D Mataderos D 0 0 0 1
9
Es por eso que se habla del rol preponderante que tiene el storytelling en la construcción
de un dashboard. A partir de los mismos datos, el producto final dependerá de las
habilidades que tenga el analista no solo para encontrar correlaciones sino también
mostrarlas de una manera clara, intuitiva, y que permita a partir de ello extraer
conclusiones para la toma de decisiones.
El siguiente es un ejemplo de un dashboard creado en Tableau que realiza un análisis
descriptivo de los tuits de un conjunto de presidentes seleccionados. El tablero incluye
tres tipos de visualizaciones: un gráfico de barras (Cantidad de seguidores), un
cartograma (Cantidad total de tuits) y un diagrama de árbol (Promedio de tuits por día).
10
Aquí vemos que quien diseñó las visualizaciones privilegió mostrar que, si bien Obama
era el presidente con mayor cantidad de seguidores en Twitter por amplia ventaja, Nicolás
Maduro era quien publicaba más tuits por día, entre otras conclusiones posibles.
Ahora bien, este primer ejemplo es un tablero básico en varios sentidos. En primer lugar,
porque es estático. A diferencia de un reporte o análisis tradicional, un tablero permite
interactividad y el usuario puede ir navegando, seleccionando variables y observando los
datos según su interés. Asimismo, tiene el beneficio de que el analista puede optar por
visibilizar o invisibilizar ciertas categorías del análisis de acuerdo al rango del usuario o el
interés de esa presentación particular. Podemos ver un ejemplo en este tablero sobre las
divisiones socioeconómicas en las elecciones presidenciales de Brasil 2014.1
En segundo lugar, el tablero también podría complejizarse incluyendo datos en tiempo
real. Como vimos, la etapa de extracción y carga puede configurarse para extraer datos
automáticamente cada determinado lapso de tiempo, generando así un reporte
automatizado. Las herramientas de Google y Facebook Analytics, tan comúnmente
utilizadas en el marketing digital, son claros ejemplos de tableros interactivos
automatizados que permiten visualizar los datos en tiempo real de modo de saber
exactamente cuántos usuarios están activos en un sitio en un momento determinado,
cómo llegaron, desde qué dispositivo ingresaron, qué están poniendo y sacando de su
carrito de compras, etc.
Todos estos tableros, a pesar de que puedan tener mayor o menor complejidad,
permanecen dentro de lo que llamamos análisis de datos descriptivo. Este es solo el
primer nivel de valor agregado que ofrece el big data para la toma de decisiones, y
consiste en organizar y presentar de manera tal los datos recolectados para proporcionar
una visión del pasado y el presente, respondiendo a las preguntas ¿qué pasó? o ¿qué
está pasando?
En el caso de la comunicación política, los análisis descriptivos nos ayudan visualizar
mejor los datos socio-demográficos, patrones de comportamiento, intereses, necesidades
1 En este link pueden explorar también tableros destacados publicados por los usuarios de Tableau sobre
las temáticas más variadas.
11
y preocupaciones del electorado en determinado distrito. Podemos responder a preguntas
tales como ¿qué popularidad tiene el candidato “x” en el público “y”?, y un
entrecruzamiento hábil de variables y un buen análisis estratégico de los resultados
pueden ayudarnos a encontrar insights valiosos a partir de los cuales diseñar estrategias
y construir campañas.
¿Cómo lograr
mis objetivos?
¿Qué pasará?
Complejidad
2Las herramientas ofrecen cursos online gratuitos para familiarizarse con la herramienta. Es
posible acceder a ellos en los siguientes links: Power Bi, Tableau, Data Studio.
3 En este link es posible (y recomendable) acceder a tutoriales gratuitos de Orange Data Mining.
13
A grandes rasgos podemos clasificar a los algoritmos en dos tipos, según el grado de
automatización del proceso de aprendizaje. Los algoritmos de aprendizaje supervisado
son aquellos que resuelven problemas para los cuales existe una variable a predecir o
modelar ya pre-fijada. En ellos el analista de datos cumple un rol más activo, ingresando
al programa las variables a aprender y “supervisando” el proceso.
Entre ellos podemos encontrar, por ejemplo, regresiones lineales simples y múltiples, que
permiten analizar variables cuantitativas para predecir alguna de ellas (target) a partir de
las otras. En comunicación política, por ejemplo, nos permiten predecir cuánto aumentará
el nivel de conocimiento de un candidato a partir de una inversión publicitaria en
determinados medios. Una demostración gráfica de regresiones lineales comparadas
tendría un aspecto como el siguiente:
Nivel de conocimiento
Nivel de conocimiento
Nivel de conocimiento
En este gráfico ilustrativo, cada punto rojo corresponde a una entrada en el data set, y la
línea azul es la respuesta del algoritmo al problema. ¿Hay alguna relación entre el
presupuesto invertido en pauta publicitaria en cada medio y el nivel de conocimiento del
candidato? ¿Cuáles de los medios analizados contribuyen más a aumentar el nivel de
conocimiento? ¿Es esta relación lineal? ¿Con cuánta precisión podemos predecir las
variaciones futuras? Este tipo de preguntas pueden ser respondidas mediante la
aplicación de regresiones a grandes masas de datos.
Los árboles de decisión son otro algoritmo de aprendizaje supervisado, en el que las
variables también están pre-definidas por el analista. Tienen la ventaja de ser visualmente
más intuitivas y fáciles de explicar en tanto que se asemejan al modo en el que las
personas reales toman decisiones.
14
Fuente: @quaesita en Twitter
Este algoritmo es comúnmente utilizado, por ejemplo, para programar los bots de
respuestas automáticas de servicio al consumidor, que al reconocer un término definen
qué respuesta automática enviar a partir de instrucciones pre-programadas. En
comunicación política también son útiles para definir por ejemplo a qué usuarios de
Facebook mostrar cada pieza de campaña, de acuerdo a las condiciones que se cumplan.
A mayor cantidad de datos aumenta el nivel de precisión de sus resultados, y es por eso
que, como usuarios, a medida que más utilizamos las redes sociales, más nos
sorprendemos por lo atinadas que son las publicidades que recibimos en relación con
nuestros intereses y necesidades del momento.
Las redes neuronales son otro modelo computacional que permite predecir resultados
según un diagrama que imita el funcionamiento del cerebro humano, mediante nodos
conectados entre sí en diferentes capas. Son utilizadas con frecuencia en los programas
de reconocimiento de imagen y voz, para seguridad cibernética, en aeropuertos y
ciudades inteligentes.
Finalmente, otra metodología de la inteligencia artificial que reviste gran utilidad para la
comunicación política son los modelos de Procesamiento de Lenguaje Natural (NLP por
sus siglas en inglés). Estos son los programas que permiten hacer análisis automáticos de
textos, discursos, posteos, tuits, y así hacer estudios de opinión pública para conocer por
ejemplo la reputación web de un líder o institución, o identificar las preocupaciones e
intereses de la población de cierto barrio o manzana según sus tuits.
La técnica de la nube de palabras, por ejemplo, permite visualizar de manera clara
aquello sobre lo que se está hablando en determinado momento en cierta ubicación geo
referenciada.
15
Fuente: Elaboración propia a partir de un data set de tuits de @alferdez
Para analizar cuál es la opinión pública sobre un sujeto o una temática, actualmente el
procedimiento más común es a partir de un diccionario pre-confeccionado que asigna a
cada palabra o singo una valoración positiva, negativa o neutral. Si bien existen algunos
diccionarios disponibles de acceso libre en inglés, en español aún es necesario
desarrollarlos y ponerlos a disponibilidad pública.
Los algoritmos de aprendizaje no supervisado, por su parte, son aquellos que se ocupan
de la resolución de problemas en los que no existe una variable a predecir, sino que
generalmente buscan detectar la estructura de los datos. El programa no recibe de
antemano información sobre el comportamiento de las variables o las categorías a
clasificar, sino que debe ser capaz de reconocer los patrones en los datos para poder
etiquetar las nuevas entradas.
El gran aporte de estos algoritmos, por lo tanto, es su capacidad de arrojar conclusiones
acerca de un data set con una menor interferencia de las intuiciones o preconceptos
presentes en el diseño del modelo. Así, nos permiten conocer la realidad empírica de una
forma menos mediada por la subjetividad, a través del lente de las operaciones
matemáticas.
El análisis de componentes principales, por ejemplo, es uno de los más difundidos y
consiste justamente en describir un conjunto de datos a través del descubrimiento de
nuevas variables (componentes) no correlacionadas. Se emplea generalmente en el
análisis exploratorio de datos, y para construir modelos predictivos.
El clustering, o análisis de grupos, es por su parte sin dudas la estrella de los algoritmos
de aprendizaje no supervisado, en especial por su potencial para realizar estudios de
mercado y audiencia, y por lo tanto para comunicación política. El objetivo de este
conjunto amplio de técnicas y algoritmos es encontrar en un data set grupos de registros
homogéneos en su interior y heterogéneos entre sí.
La diferencia con los métodos de clasificación de aprendizaje supervisado es que las
variables según las cuales se agrupan los registros no son provistas de antemano por el
analista, sino que el algoritmo prueba diferentes alternativas posibles, realizando tantas
16
iteraciones como le solicitemos, hasta encontrar el modo óptimo de subdividir el data set
en segmentos o clusters.
Un cluster es, así, una colección de objetos que son similares entre ellos, y disímiles a los
objetos pertenecientes a otros clusters. La noción de similitud y diferencia suele
operacionalizarse a partir de diversas métricas de distancia, siendo algunas de las
técnicas habituales K-means, DBSCAN y Hierarchical, clustering.
El algoritmo K-means, por ejemplo, procede de modo de construir clusters a partir de la
detección matemática de centroides, y la delimitación de conjuntos de registros en
relación con su cercanía o distancia a ellos, como podemos ver en los siguientes gráficos:
Si cada punto verde es una entrada en el data set, el algoritmo reconoce algunos de ellos
como centroides (c1, c2, c3) y luego divide el resto de los registros según su posición
respecto a los mismos, construyendo un cluster por centroide.
En comunicación política este modelo tiene diversas utilidades. Permite, por ejemplo,
construir muestreos para estudios de opinión pública que representen mejor la realidad
empírica, evitando sesgos y brindando a las encuestas mayor capacidad de predicción.
17
Pero sobre todo la clusterización tiene un gran potencial para descubrir clivajes y
segmentos del electorado novedosos, en torno a características que exceden a los
parámetros sociodemográficos tradicionales (edad, nivel educativo, poder adquisitivo,
etc). De esta manera una campaña puede, como venimos desarrollando, a partir de
grandes masas de datos extraídos de las redes sociales construir perfiles de votantes
para segmentar las audiencias y hacerles llegar mensajes personalizados.
El concepto de segmentación de audiencias proviene del campo del marketing y consiste
en identificar diferentes perfiles de grupos de consumidores, comprender sus hábitos de
consumo, intereses y necesidades, y diseñar productos o estrategias de marketing
pensando en ellos.
Retomando esta metodología, el aporte que brinda el big data para campañas políticas
es, por un lado, la capacidad de no solo reconocer diferentes segmentos en el electorado
sino saber exactamente qué electores pertenecen a él, y dónde encontrarlos para
enviarles los mensajes personalizados.
Aquí fue donde radicó el gran éxito de la campaña de Obama en 2008. Como resume
Esteban Magnani en su artículo “Big data y política. El poder de los algoritmos” (2017), el
equipo se propuso clasificar grandes volúmenes de usuarios de redes sociales no de
acuerdo a sus propias posiciones políticas sino a las que revelaban sus amigos. Al cruzar
esa información con los datos de empadronamiento ciudadano lograron localizar con
nombre y apellido a 3,5 millones de potenciales votantes no empadronados. Les hicieron
llegar entonces mensajes personalizados según sus intereses, y el resultado fue que al
menos un millón de ellos se registró para votar. Teniendo en cuenta que la elección se
ganó por 5 millones de votos, esta estrategia fue clave para el triunfo.
Así, el gran valor agregado de este método reside también en la capacidad de descubrir
nichos de electores que, por escapar a las clasificaciones del sentido común, no están
siendo el target de campañas electorales, y por lo tanto representan un gran potencial de
conquista.
La campaña de Trump de 2016, con la ayuda de Cambridge Analytica, demostró el
potencial de aplicar esta técnica a gran escala (Magnani, 2019). El equipo de científicos
de datos analizó los datos de todos los ciudadanos en edad de votar, y descubrió un
segmento del electorado que no estaba siendo tenido en cuenta. Se trataba de los ex
trabajadores fabriles desocupados de los Estados del “cinturón de óxido” (Rust belt), que
habían sido expulsados del sueño americano. La minería de datos les permitió
nuevamente identificar precisamente quiénes respondían a este perfil, y encontrar
mensajes que los interpelaran, tales como los relativos a la frustración con el sistema, el
rechazo a los inmigrantes, la decepción con la clase dirigente.
18
Software estadístico y de análisis de redes utilizado por Cambridge Analytica para desarrollar
sus campañas (Fuente: NBC)
Conclusiones generales
Tal como hemos desarrollado a lo largo del artículo, el big data, los modelos matemáticos
y estadísticos y las técnicas de programación tienen mucho que aportar al diseño de
campañas políticas, y tal como quedó demostrado en las campañas de Obama y Trump,
su aprovechamiento puede ser decisivo para ganar una elección.
Sin embargo, sacarle el jugo a esta herramienta depende también, y sobre todo, de una
correcta interpretación de sus resultados (la cuarta etapa del análisis de datos), de una
implementación creativa de la campaña y de un buen manejo de los recursos disponibles.
De modo tal que todos los equipos de campaña (los científicos de datos, los creativos
publicitarios, los administradores financieros, etc) deben estar alineados, coordinados y
teniendo todos en claro una misma meta final.
Concluiremos entonces que una de las claves para que todo este esfuerzo colectivo rinda
sus frutos y éstos se plasmen en resultados electorales es, como en cualquier equipo de
trabajo, la claridad en la definición de objetivos. Un protocolo como el OKR (Objectives
and Key Results) es una metodología útil para poner en palabras cuál es el objetivo de
una campaña y cuáles serán los resultados clave que indicarán que se está cumpliendo la
meta.4
Así, por ejemplo, tal como desarrollamos en la introducción, en las democracias actuales
el objetivo de toda campaña es conquistar al electorado indeciso, el “votante flotante”
(Manin, 2010) que basa su decisión según lo que está en juego en cada elección. Por lo
tanto la estrategia de minería de datos debe estar orientada no a conocer todos los
segmentos de la sociedad, sino a descubrir aquellos clusters de votantes con potencial de
ser convencidos.
4Para conocer más sobre este protocolo se sugiere la lectura de Doerr, J. (2018) Measure What
Matters, New York: Penguin.
19
De este modo, solo será necesario o conveniente invertir en descubrir segmentos del
electorado en la medida en que el equipo creativo y financiero sean capaces de producir
mensajes personalizados para ellos. Una campaña es un entramado complejo, que como
vimos está influido también por otras lógicas de poder que es necesario contemplar de
manera integral para realizar un trabajo eficiente y eficaz.
Finalmente, cabe señalar que, frente a la información obtenida por el análisis de datos, el
intérprete siempre realiza una apuesta. No consideramos aquí que los datos contengan
una verdad a develar, sino que ofrecen insumos valiosos para que los comunicadores
construyan una realidad con mayores fundamentos.
Es cierto, las redes sociales y el big data nos permiten acceder a los comportamientos
reales de la ciudadanía, fuera del ambiente de laboratorio que constituyen otras técnicas
de opinión pública como las encuestas y los focus groups, en los que se reconstruyen
entornos sociales artificialmente y se hace a los encuestados preguntas sobre temáticas
respecto a las cuales no necesariamente tienen una opinión formada.
Además su gran volumen da al análisis estadístico mayor precisión que un muestreo
aleatorio, y la posibilidad de medición instantánea del impacto otorga mayor flexibilidad
para experimentar y construir campañas a prueba y error.
Sin embargo, el gran reto radica en formular los objetivos correctos para hacerle a los
datos las preguntas necesarias, maximizando los recursos disponibles y logrando
construir un relato colectivo a partir de la suma de los datos individuales. El premio es
grande, al igual que el desafío.
Bibliografía
Annunziata, R. (2012). ¿Hacia un nuevo modelo de lazo representativo? La
representación de proximidad en las campañas electorales de 2009 y 2011 en Argentina”.
En Cheresky, I. y R. Annunziata (Comps.), Sin programa, sin promesa (pp. 45-88).
Liderazgos y procesos electorales en Argentina. Buenos Aires: Prometeo.
Castells, M. (1996) La era de la información. Economía, sociedad y cultura. Vol. 1.
México: Siglo XXI.
Digital House (2019) Glosario Data Analytics Immersion (no publicado).
Doerr, J. (2018) Measure What Matters, New York: Penguin.
Fernández, M (2014) “Sobre la mediatización. Revisión conceptual y propuesta analítica”,
La Trama de la Comunicación (18). Pp. 189-209.
Galup, L. (2019) Big data y política. Buenos Aires: Ediciones B.
Hey, J. (2004) “The Data, Information, Knowledge, Wisdom Chain: The Metaphorical link”
(no publicado). Recuperado de: https://web.archive.org/web/20071202033948/http://
ioc.unesco.org/Oceanteacher/OceanTeacher2/02_InfTchSciCmm/DIKWchain.pdf
Hopenhayn, D. (19 de enero de 2017) Martín Hilbert, experto en redes digitales: ‘Obama y
Trump usaron el Big Data para lavar cerebros’.The Clinic Online. Recuperado de: https://
www.theclinic.cl/2017/01/19/martin-hilbert-experto-redes-digitales-obama-trump-usaron-
big-data-lavar-cerebros/
Kirchheimer, O. (1966) "The Transformation of the Western European Party System", en
La Palombara, Joseph y Myron Weiner (eds.), Political Parties and Political Development,
Princeton, University Press (traducido como "El camino hacia el partido de todo el
20
mundo", en Kurt Lenk y Franz Neumann (eds.), 1980, Teoría y sociología. Críticas de los
partidos políticos, Barcelona: Anagrama.
Kotler, P. (2000) Marketing Management: The Millennium Edition. Person Prentice Hall:
Upper Saddle River.
McCausland, P. y Schecter, A. (17 de marzo de 2018) Cambridge Analytica harvested
data from millions of unsuspecting Facebook users. NBC News. Recuperado de: https://
www.nbcnews.com/news/us-news/cambridge-analytica-harvested-data-millions-
unsuspecting-facebook-users-n857591
Magnani, E. (2017) Big data y política. Nueva Sociedad nº 269. Disponible en: https://
nuso.org/articulo/big-data-y-politica/
Manin, B. (2010) Los principios del gobierno representativo. Madrid: Alianza Editorial
Rosanvallon, P. (2008) La contrademocracia, Buenos Aires: Manantial.
Sitios web
https://www.lexico.com/
21