TFMred
TFMred
TFMred
Julio, 2017
Además, soy conocedor de que el citado TFM forma parte de los trabajos de
investigación que llevan a cabo mis directores Francisco José García Peñalvo y Ro-
berto Therón Sánchez dentro del grupo de investigación GRIAL de la Universidad
de Salamanca y, en consecuencia, comparto con ellos la propiedad intelectual de los
resultados alcanzados.
CERTIFICAN:
Este trabajo no podría haberlo llevado a cabo de no ser por las siguientes per-
sonas, a las que quiero transmitir mis agradecimientos:
A mis tutores, por sus indicaciones que han guiado este trabajo.
A todos los miembros del proyecto WYRED que con su trabajo, lo han hecho
posible y a la Unión Europea por nanciarlo.
A mis amigos y mis compañeros de ACM, por todas esas charlas y discusiones
que me han proporcionado nuevas ideas y grandes momentos de relax.
El futuro mostrará los resultados y juzgará a cada uno de acuerdo a sus logros
Nikola Tesla
Resumen
En este trabajo se realiza una propuesta para estudiar los datos que se van a
generar en la red social privada y anónima del proyecto WYRED, con el n de
extraer conocimiento sobre cómo interaccionan sus usuarios, tanto entre ellos, como
con la propia plataforma. Para ello se parte de la creación de un sistema que generará
un conjunto de datos de prueba, lo más parecido posible al original, y de una revisión
sistemática de la literatura que ha permitido conocer las principales visualizaciones y
el contexto en el que se aplican. Con esta información y teniendo en cuenta el impacto
de la privacidad a la hora de tratar los datos del proyecto, se ha propuesto una
arquitectura exible y completa para el desarrollo de las visualizaciones interactivas
que van a permitir visualizar los datos anteriormente generados. Finalmente, se
presentan varios casos de uso donde se demuestra la idoneidad de la analítica visual
para realizar análisis de los datos del proyecto y extraer conocimiento, de manera
sencilla.
Abstract
In this document a proposal is made to study the data that will be generated
in the private and anonymous social network of the WYRED project, in order to
extract knowledge about how their users interact, both between them, and with the
platform. To do this, it is started with the creation of a system that will generate
a set of test data, as close as possible to the original, and a systematic literature
review that has allowed to know the main visualizations and the context in which
they are applied. With this information and considering the impact of privacy when
dealing with the data of the project, a exible and complete architecture has been
proposed for the development of interactive visualizations that will allow to visualize
the previously generated data. Finally, several use cases are presented where the
suitability of the visual analytic is demonstrated to perform analysis of the data of
the project and to extract knowledge, in a simple way.
Índice
Indice de tablas v
1. Introducción 1
1.1. Interés en el tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2. Metodología utilizada 5
2.1. Búsqueda de necesidades . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.3. Privacidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
6. Resultados 41
6.1. Realización de la arquitectura propuesta . . . . . . . . . . . . . . . . 41
i
6.2.1. ¾Cuáles son las principales comunidades sobre educación y
empleo y qué características tienen? . . . . . . . . . . . . . . . 44
B.1.3. Organización . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
B.2.2. PICOC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
B.2.7. La revisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
B.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
C.2. SVG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
Referencias 77
ii
Índice de guras
1. Dependencia entre los atributos de un usuario . . . . . . . . . . . . . 21
29. Selección del atributo por el que comparar para la pregunta de inves-
tigación 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
32. Selección del atributo por el que comparar para la pregunta de inves-
tigación 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
iii
33. Mapa de uso para la pregunta de investigación 4 . . . . . . . . . . . . 50
iv
Indice de tablas
2. Investigadores encuestados . . . . . . . . . . . . . . . . . . . . . . . . 6
v
Jorge Durán Escudero
1. Introducción
Hoy en día, las redes sociales son uno de los tipos de comunidades que mayor
crecimiento están teniendo, gracias a la amplia difusión de las tecnologías de la
información y la comunicación [3]. Sin embargo, las mismas siguen presentando
algunos problemas, como la gestión de la privacidad o el análisis de los datos, para
incrementar el conocimiento que se tiene de lo que está sucediendo dentro de ellas.
Además, los expertos se encuentran con que, debido al volumen de información que
generan, actualmente no es posible realizar análisis de manera manual de lo que
ocurre en las mismas. Esto lleva a centrar este trabajo en la problemática de la
gestión automática de estos datos y el planteamiento de un sistema que permita
comunicarlos de manera efectiva.
En el caso de esta propuesta, el proyecto busca sacar partido de los datos que van
a ser generados por la red social del proyecto WYRED [4]. El cual tiene algunas pe-
culiaridades que serán detalladas en la Sección 1.2. Para ello se plantea una revisión
del contexto del trabajo, de los datos del proyecto y de las preguntas de investi-
gación más importantes, y cómo se puede ayudar a un investigador a resolverlas,
realizando una propuesta de arquitectura para la construcción de una herramienta
de visualización interactiva de datos.
1 Tableau es una empresa que desarrolla software capaz de transformar los datos
en visualizaciones interactivas, para aprovechar y conocer mejor los datos de negocio.
https://www.tableau.com/es-es
1
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
que inuyen en este trabajo. Para conocer este proyecto en mayor profundidad se
puede consultar el Apéndice A.
Este proyecto nace con el objetivo de dar voz a los jóvenes, en un contexto
plurinacional europeo, para que puedan plantear cuáles son los problemas que más les
preocupan, sus opiniones sobre diversos asuntos, algunas posibles soluciones, ideas
innovadoras para afrontar algunos desafíos, etc. Para la gestión de la comunicación
entre ellos, se ha desarrollado una plataforma que actúa de manera similar a un foro
de discusión, donde los usuarios organizan los debates por medio de comunidades,
temas y comentarios en los mismos. Hasta aquí podría tratarse de un foro similar
a muchos que hay en la red, sin embargo, el proyecto también tiene una serie de
características propias que le distinguen del resto [6]. A saber:
1.3. Objetivos
El objetivo principal de este trabajo es plantear, en estas primeras etapas del
proyecto WYRED, una propuesta de arquitectura de un sistema que permita dar
soporte a la construcción de visualizaciones interactivas que ayuden a comprender
mejor los datos, para anticiparse a las necesidades futuras del proyecto.
Esta arquitectura tiene que ser lo sucientemente exible para poder adaptarse
a las diversas características del proyecto, permitiendo además, construir sobre ella
cualquier tipo de visualización que sea requerida, en esta etapa o en un futuro. Para
ello debe apoyar a los investigadores en dos tareas principales:
2
Jorge Durán Escudero
En línea con el objetivo nal del proyecto, lo que se busca en última instancia,
es ofrecer un soporte a la toma de decisiones de los representantes públicos, para
que tomen medidas que ayuden a mejorar la vida de los jóvenes y, en denitiva, que
aprovechen sus aportaciones.
Por otro lado, uno de los objetivos secundarios que se busca alcanzar con este
trabajo, es validar esta propuesta, para decidir si la misma debe formar parte de la
plataforma o no, en un futuro próximo. Otro de los mismos es estudiar los distintos
mecanismos para representar la gran cantidad de información que generan este tipo
de plataformas.
3
Jorge Durán Escudero
2. Metodología utilizada
En este apartado se recogen los pasos y técnicas utilizados para la realización
de este trabajo, haciendo hincapié en describir con mayor profundidad aquellos que
han supuesto una mayor aportación para la realización del mismo.
1. ¾De las siguientes preguntas y tareas, cuáles crees que son más relevantes?
Siendo el valor 5, relevancia máxima y 1, relevancia mínima.
2. Si has identicado otras preguntas o tareas que pueden ser relevantes en este
contexto. Por favor inclúyelas a continuación, junto con el valor de relevancia
correspondiente.
Como se puede apreciar, la primera pregunta recoge algunas de las tareas y pre-
guntas de investigación que se han considerado que podrían ser relevantes para los
investigadores. Con respecto al tipo de pregunta, se ha decidido que en lugar de
aceptar una respuesta binaria a las mismas, el usuario pueda emitir una valoración
indicando cómo de relevante considera cada una de ellas, para extraer así más in-
formación. La segunda pregunta está realizada con el n de permitir a cada uno de
los expertos incluir sus propias aportaciones, siendo opcional la contestación a esta
cuestión.
5
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
Para seleccionar a los expertos que han realizado la encuesta, se ha optado por
sólo incluir a aquellos que tengan experiencia en la gestión o el análisis de comunida-
des en línea. Los mismos pertenecen principalmente a la Universidad de Salamanca
y a la Universidad de Tel Aviv, siendo todos ellos investigadores en el proyecto
WYRED. La lista completa de los mismos y su liación se puede consultar en la
Tabla 2.
Investigador Universidad
Francisco José García Peñalvo Universidad de Salamanca
Roberto Therón Sánchez Universidad de Salamanca
Juan Cruz Benito Universidad de Salamanca
Aharon Hauptman Universidad de Tel Aviv
Analizando las respuestas aportadas por los mismos, se desprende que todas
las preguntas de investigación se consideran relevantes, menos la de conocer los
lenguajes más usados, por su bajo respaldo, siendo las más valoradas el conocer cómo
se relacionan los usuarios dentro de una comunidad, la exploración de los temas más
frecuentes y la capacidad de realizar comparativas, como se puede comprobar en la
Tabla 3.
Pregunta Valoración
media
Conocer cómo se relacionan los usuarios dentro de una comunidad 4.50
Conocer cuáles son los temas más frecuentes 4.25
Poder realizar comparativas por género 4.25
Poder ltrar los datos por fechas 4.00
Conocer la evolución de un tema a lo largo del tiempo 3.75
Conocer cuáles son los países más activos 3.25
Conocer cuáles son los lenguajes más usados 2.75
6
Jorge Durán Escudero
Explicitud: lo que denota que la revisión documenta todos los pasos dados y
los métodos aplicados en cada uno de ellos.
7
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
Los principales autores del sector, tanto por número de artículos, como por
relevancia.
Los medios que recogen con mayor asiduidad los trabajos en un campo de
investigación.
8
Jorge Durán Escudero
Los principales métodos para analizar redes sociales no son muy recientes, sin
embargo, suponen el punto de partida para el estudio de una red social en línea. El
mecanismo más estudiado y aplicado en este ámbito, son los grafos [15]. Mediante
los mismos, se pueden representar a los usuarios y sus interacciones por medio de un
método matemático ampliamente estudiado. Esto permite la utilización de un voca-
bulario común y la aplicación de los conceptos ya conocidos de la teoría de grafos:
teoremas, derivaciones, deducibilidad de un concepto, etc. Además, la estructura de
los grafos es muy exible, permitiendo representar tanto las interacciones o comuni-
caciones unidireccionales, como las bidireccionales. Este mecanismo también posee
la ventaja de que es fácilmente transformable en forma matricial, lo cual facilita
mucho el tratamiento de los datos y la operación con los mismos.
La representación más común usa el enfoque de nodos y arcos, siendo los primeros
la representación de los usuarios y los segundos, la de las relaciones entre ellos. Una
vez realizado este paso, se pueden calcular multitud de métricas.
9
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
(V − {v}).
En relación a la métrica anterior, otros autores como Freeman [16] proponen
calcular la cercanía (CCLO (i)) para conocer mejor cuáles son los nodos centrales del
grafo. Esta métrica se basa en calcular la suma de las distancias más cortas de un
vértice a todos los demás:
Pn
CCLO (i) = j=1 Si,j
Siendo S la matriz que contiene el valor de la distancia mínima para cualquiera
de dos vértices dados.
Siguiendo con la idea de transformar una red social online en un grafo, otros
autores [17] centran su estudio en describir cómo evolucionan este tipo de comuni-
dades. Para ello analizan distintas métricas que calculan la densidad de una red, es
decir, el número de interconexiones por persona. Esto les permite armar que hay
un patrón subyacente en la evolución de este tipo de redes, el cual está formado por
tres fases: la primera de ellas presenta un crecimiento muy rápido de la comunidad,
seguido de una contracción para, nalmente, mantener un crecimiento lento.
Además, los investigadores anteriores descubrieron que los usuarios de las redes
sociales se pueden clasicar en 3 grupos:
Giant component : forman parte de este grupo los usuarios que están conectados
a otros por varios caminos. Este conjunto contiene a los más activos de la red,
cuya característica principal es que suelen estar en contacto con un amplio
número de usuarios de la red.
Otros autores al analizar redes sociales ya creadas [18], han abordado ambos
aspectos en sus estudios: la relación entre usuarios y el análisis de los grupos que
forman estos. Con estos estudios, han llegado a la conclusión de que las redes socia-
les están formadas por usuarios muy activos y con muchos enlaces, que actúan de
supernodos. Estos usuarios tienen la capacidad de lograr difundir sus publicaciones
a lo largo de toda la red social. Esto es posible debido a que, cuanto mayor es el
grado de socialización de un usuario, más aumenta la probabilidad de que otros que
participan en la red confíen en él.
Esta investigación detecta uno de los mayores problemas que surgen al analizar
las redes sociales, el acceso a la información. Para solucionarlo, proponen usar una
10
Jorge Durán Escudero
2
serie de crawlers , teniendo en cuenta las limitaciones de cada plataforma.
En cuanto a las características, los foros cuentan con algunas que los distinguen
de otra comunidades y de las actuales redes sociales:
11
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
No todos los usuarios tienen los mismos roles, siendo frecuente encontrar una
jerarquía de tipos de usuarios.
La mayoría cuentan con una moderación, más o menos estricta, que ltra el
contenido.
La mayor parte de ellos son temáticos, al contrario que las redes sociales donde,
normalmente, cualquier tema tiene cabida.
El acceso a algunas partes y/o herramientas suele estar limitado a los usuarios
de mayor jerarquía.
Una de las conclusiones más importantes del estudio anterior es que cuanto ma-
yor es la participación de los instructores, más se reduce la de los alumnos. Por lo
tanto, la estrategia de iniciar muchos debates, por parte de los instructores, para
incrementar la participación, no es fructífera. Sin embargo, los investigadores llega-
ron a la conclusión de que, para aumentar la valoración de los instructores, estos
deberían encargarse de iniciar algunas preguntas genéricas y de responder aquellas
que han quedado sin respuesta, después de un tiempo.
12
Jorge Durán Escudero
3.3. Privacidad
La gestión de la privacidad siempre es un tema complejo cuando se tienen que
manejar grandes volúmenes de datos, de los cuales se puede extraer gran cantidad
de información personal. Además, a esto se une que los usuarios cada vez están más
concienciados con mantener su privacidad online [26]. Fruto de ello, es la negativa
que presentan muchos de ellos ha participar en comunidades o lugares que van a ser
controlados con el objetivo de recolectar datos para realizar investigaciones. Lo cual
se convierte en uno de los mayores impedimentos para llevar a cabo, por ejemplo,
estudios sociológicos o de comportamiento.
Anonimizar los datos de los usuarios tampoco es una tarea sencilla, ya que según
diversos autores [27], se puede identicar a un usuario debido al uso en diversos
sitios de sus mismas fotos de perl. Este proceso también puede ser aplicado si se
tienen los sucientes datos sociológicos y la muestra es pequeña.
La mayoría de los usuarios ha subido alguna imagen (90.8 %), pudiendo ser
identicados completamente por su imagen de perl en el 61 % de los casos.
Solo el 1.2 % de los usuarios tienen activada la opción para ocultarlos de los
resultados de las búsquedas.
13
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
Análisis con mayor profundidad sobre afecta la privacidad a los jóvenes, se en-
cuentran en algunos estudios [28][29], donde se detallan aspectos como el uso cada
vez mayor de este tipo de redes por estos usuarios, siendo utilizadas principalmente
para mantener el contacto con sus amigos. Sin embargo, en una proporción nada
desdeñable (21 %), estos han sido contactados por algún extraño por medio de las
mismas, lo cual les ha resultado incómodo.
Las chicas suelen compartir un mayor número de imágenes, tanto suyas como
de sus amigos.
Los chicos utilizan con mayor asiduidad información falsa en sus perles.
Debido a todo lo anterior, se puede concluir que las personas no cuidan lo sucien-
temente su privacidad y por ello, si se quiere analizar los datos de una comunidad,
es necesario encargarse de proteger la privacidad de los mismos, más si cabe, en el
caso de los jóvenes.
El manejar este amplio conjunto de datos es muy costoso, tanto en tiempo como
en dinero. Por esta razón surge la necesidad de plantear nuevos mecanismos que
permitan tratar estos datos, ya que en ellos se encuentra información muy valio-
sa. Estas metodologías necesitan resolver algunas cuestiones como el cálculo de la
relevancia de un dato o la identicación de patrones de comportamiento.
Aunque no existe una única manera para abordar esta problemática, una de las
más utilizadas es la Analítica Visual. Esta ciencia provee un conjunto de tecnologías
para sacar partido de las fortalezas de los humanos y del procesamiento computacio-
nal de la información, permitiendo que ambos colaboren para procesar y analizar los
datos de una manera más transparente [31]. Este punto de encuentro donde ambos
colaboran son las visualizaciones.
14
Jorge Durán Escudero
Sin embargo, la analítica visual alcanza su verdadera potencia, al pasar de ser una
herramienta para conrmar hipótesis sobre los datos, a un sistema para explorarlos.
Una vez descritos los medios necesarios para aplicar esta ciencia, se considera
importante analizar las principales tareas que se abordan mediante la analítica visual
[31]:
Para llevar a cabo estas tareas es necesario seguir un proceso claro y justicado,
que parta de los datos en bruto iniciales hasta conseguir distintas propuestsa de
visualización, que sirvan a los usuarios para analizar los datos y extraer conclusiones.
Algunos de los pasos más importantes en el proceso son los siguientes:
Una vez se tienen los datos ya listos para ser estudiados, hay dos maneras,
principalmente, de proceder:
15
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
La gestión de las incidencias, que hace uso de la analítica visual para detectar
rápidamente valores y/o patrones de comportamiento inusuales [39][40].
16
Jorge Durán Escudero
Las propuestas más utilizadas para explorar estos datos son: los grafos, cuando se
quieren analizar las estadísticas de uso con el n de mostrar o agrupar los usuarios en
comunidades [66][67], y los grácos de área, para mostrar la evolución temporal de los
temas más frecuentes en el contenido [68][69]. Además de estas dos representaciones,
también son utilizadas de forma recurrente las coordenadas paralelas [70], a n de
representar las múltiples características de un individuo o tema [71].
17
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
Uno de los procesos más utilizados en este campo, consiste en extraer los datos
de alguna comunidad próxima a la que es objeto de estudio. En este caso, se puede
armar que el comportamiento en ambas, por parte de los usuarios, será similar y,
por tanto, no es necesario realizar una generación articial de un conjunto de datos.
Las principales fuentes para la obtención de conjuntos de datos son las mayores
redes sociales (Twitter, Facebook, Flickr, etc.), las cuales han sido analizadas en
profundidad por multitud de autores que, en la mayoría de los casos, han puesto
a disposición de otros investigadores sus datos [77] [78]. El principal problema de
estos conjuntos es que suelen presentar los datos ya anonimizados y esto limita la
investigación y las conclusiones que pueden extraerse con los mismos. Además, algu-
nos de ellos son conjuntos demasiado genéricos, lo que no permite realizar estudios
centrados en campos concretos.
Otros autores [79] han propuesto utilizar algunos datos que son de más fácil
obtención, como las entradas en los cheros de registro, para generar el conjunto de
datos. De tal manera que aquellas características que estén presentes en los registros
y en el conjunto de datos objetivo, se mantengan y las que no aparezcan, sean
generadas a partir de la combinación de otras que sí formen parte de los mismos. Un
ejemplo de esto último, podría ser asociar al género el valor masculino, cuando las
visitas de los usuarios se produzcan en minutos con valor par y femenino en el caso
contrario. Este enfoque posee la ventaja de que parte de los datos se corresponde con
información real y, por tanto, es posible estudiarla para encontrar patrones y vericar
hipótesis, mientras que el resto de los datos pueden servir para añadir contexto a
los mismos, formando un conjunto de datos más completo que pueda servir para
presentar una herramienta o un caso de uso de una metodología.
18
Jorge Durán Escudero
En este caso, de las tres opciones para generarlos analizadas en la Sección 3.5,
sólo la opción de obtenerlos de manera articial es viable, ya que no hay sucientes
datos de comunidades similares y tampoco se tiene acceso a cheros de registro de
sistemas utilizados por el tipo de público objetivo.
Otra de las ventajas de este software es que es capaz de generar los mensajes
(y el propio contenido de los mismos), que podrían publicar los usuarios de prueba.
La generación automática de textos es un problema que se viene abordando desde
hace tiempo con diversas implementaciones, basadas en la selección de palabras y su
disposición adecuada mediante algoritmos que buscan el cumplimiento de las reglas
gramaticales [84] [85] y, más recientemente, mediante el uso de redes neuronales
profundas [86]. Sin embargo, por los resultados obtenidos, este software genera el
contenido de los mensajes mediante la combinación de varios extractos de textos,
como se puede apreciar en la Tabla 5. Este tipo de mensajes, cuyo contenido es
incongruente, no es válido para la aplicación de técnicas de análisis automático del
lenguaje.
19
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
Id Content
1 236 950 581 248 About Augustine of Hippo, ustinian religious order; his
memoriAbout Nicolas Sarkozy, y was also president of
the General About Robert
2 061 584 302 084 About Augustine of Hippo, ears he was heavily iA-
bout Nicolas Sarkozy, nuary 1955) is a FrenAbout Mary,
Queen of Scots, land
1 786 706 395 168 About Augustine of Hippo, 30), also known as Augus-
tAbout Plato, o not mean the systematicAbout E
412 316 860 456 About Rory Gallagher, her recorded solo albums throug-
hout the 197About Call the Man
962 072 674 360 About Jawaharlal Nehru, dhi and the mateAbout Gil
Kane, ated Iron Fist wAbout Dancing on My
El primer paso consistió en denir qué atributos van a tener los usuarios, para ello
se uso como base el documento donde se describen las especicaciones principales
del proyecto [87]:
Id: un identicador único de cada usuario que sólo permita que sea identicado
por el administrador del proyecto.
El género.
El nivel educativo.
20
Jorge Durán Escudero
Usuario
Asignar valores a cada uno de los atributos no es una tarea sencilla, ya que es
complejo recoger todos los patrones que se encuentran implícitos. El caso más sencillo
es el del Id, el cual es simplemente un número consecutivo. Para el género, se decidió
extrapolar los datos del estudio Teens, Social Media & Technology Overview 2015
[88], donde se arma que el 72 % de los chicos y 70 % de las chicas usan la principal
red social (Facebook), asignando de manera equitativa ambos valores.
x x x
P (x) = n = = (1)
(x1 + xn ) ∗ 2
43 ∗ 8 344
Una vez que se ha calculado la edad del individuo, la asignación del grupo de
edad es sencilla: si es mayor de edad, Adult, y en caso contrario, Teenager.
Respecto al nivel educativo, este también se ve inuido por la edad, al ser ne-
cesaria, normalmente, una cierta edad para avanzar a un nivel educativo superior.
Pero, en este caso, fue complicado encontrar datos del nivel educativo por edades,
ya que tanto los estudios de la OCDE [91], como los del Ministerio de Educación
[92] se limitan a la población entre 25 y 64 años. Sin embargo los estudios del INE
[93] si recogen esta información, la cual se puede consultar en la Tabla 6.
21
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
Respecto al país del usuario, se decidió asignar los valores en función de la po-
blación que tienen los principales países involucrados en el proyecto, como se puede
ver en la Tabla 7.
Una vez conocido el país, se procedió a obtener una provincia de ese país para
asignársela a cada usuario, quedando de esta manera completada la información de
cada usuario.
De igual manera se generaron los mensajes, para ello se denieron los atributos
y las dependencias entre ellos, según la Fig. 2.
Mensaje
Fecha Autor
Tema Destinatario
Para los temas, se cuenta con los 7 identicados por los expertos: educación, tole-
rancia, inmigración, imagen personal, empleo, acoso y privacidad [94]. Sin embargo,
22
Jorge Durán Escudero
elegir qué características de los usuarios inuyen en los temas de los que hablan,
es algo que queda fuera del alcance de este proyecto. Para simular la dependencia,
según cada país, se asignaron de manera aleatoria las siguientes probabilidades a los
anteriores temas: 0.05, 0.05, 0.10, 0.10, 0.20, 0.20 y 0.30. Este implica que cada país
tiene unos temas principales y otros que generan un menor número de mensajes.
p = 1, apais = bpais
1
p = 60 , apais 6= bpais
F (a, b) = 30m + (15 − |aedad − bedad |) ∗ 60p m = 0, arol = brol 6= M oderador
m = 1, (arol ∨ brol ) = M oderador
m = 2, (arol ∧ brol ) = M oderador
(2)
23
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
Para nalizar, sólo queda establecer el número de usuarios que van a ser gene-
rados. El valor de este dato se jó teniendo en cuenta las previsiones del proyecto
(300 usuarios).
24
Jorge Durán Escudero
5. Propuesta de arquitectura
Una propuesta de arquitectura software consiste en denir cada uno de los ele-
mentos de un sistema y cuál va a ser el modo en el que interaccionan los mismos.
Este tipo de trabajo se vuelve necesario cuando se plantea la realización de un pro-
yecto de cierto tamaño, ya que en él están presentes multitud de requisitos que se
deben cumplir, para alcanzar un alto grado de satisfacción de los usuarios. En caso
de no establecerla, se corre el riesgo de que el proyecto no permita alcanzar todos
los objetivos propuestos y/o la calidad del resultado sea muy baja.
La calidad toma un rol muy importante en este trabajo, ya que el objetivo nal
del mismo sería desarrollar la arquitectura que aquí se propone. Lo cual implicaría
que pasaría a ser usada por un amplio conjunto de usuarios, en un entorno en
explotación, formando parte del proyecto WYRED.
La gran ventaja de aplicar esta arquitectura en este caso es que el núcleo solo se va
a encargar de obtener los datos y anonimizarlos, siendo cada uno de los componentes,
los encargados de procesar esos datos y realizar la visualización correspondiente. Esto
además permite conseguir una arquitectura muy exible, donde se pueda añadir
fácilmente nuevas visualizaciones o eliminar alguna de las existentes, en el caso de
que sus resultados no fueran satisfactorios [101].
25
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
Visualización Visualización
Preprocesamiento Preprocesamiento
26
Jorge Durán Escudero
Esta capa del micronúcleo, por tanto, tendrá que encargarse de fusionar los datos
desde los distintos medios, además de la recuperación de la información.
La manera de trabajar con parte de estos datos es sencilla, ya que datos como
el nombre, los apellidos o su correo electrónico, pueden ser eliminados sin perder
información representativa. Sin embargo, esto no es suciente para asegurar que los
datos ya estén anonimizados, ya que mediante la combinación de los datos restantes
puede ser posible identicar al usuario inicial.
27
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
28
Jorge Durán Escudero
3. Se elegirían las palabras, siguiendo este procedimiento para cada una de ellas:
Uno de los problemas que tiene este método, es que no está pensado para trabajar
en sistemas multilingües, cuestión muy importante al ser una de las características
del contexto de uso, sin embargo, algunos autores [111][112] han propuesto diversos
métodos para poder soportarlo. Otro de los hándicaps de este mecanismo es que
es capaz de agrupar las palabras que forman parte de la misma temática, pero no
de asociar un nombre representativo a cada tema. Este proceso se podría hacer de
manera manual, o de forma automática utilizando un sistema que para cada palabra
tenga presente sus temas principales.
29
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
Ser capaz de conocer cómo inuyen los atributos de los usuarios en la evolución
de los temas.
El siguiente paso fue la elección del tipo de gráco a representar. Una decisión
no trivial al existir multitud de maneras de representar los datos, como atestiguan
algunos trabajos [2]. Por la importancia de la característica temporal, la primera
decisión fue utilizar una representación que dispusiera de un eje horizontal donde
poder mostrar cada uno de los instantes temporales. Pero todavía era necesario
indicar cómo se iba a codicar la frecuencia de un tema, para lo cual había varias
posibilidades como los grácos de líneas, de áreas, o los histogramas. Se descartó
esta última opción ya que las barras rompían con la idea de representar la evolución
temporal, al mostrar los valores para instantes concretos. Por esta misma razón, se
optó por un gráco de áreas.
30
Jorge Durán Escudero
Para comparar cómo afectan las características de los usuarios a los propios
temas, se decidió seguir utilizando el mismo color para cada tema, usando una
escala de degradados para representar los valores de estos atributos, como se puede
apreciar en la Fig. 9.
31
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
Soporte para reordenar los temas, ya que es más sencillo comparar aquellos
que están más próximos entre sí.
32
Jorge Durán Escudero
Clustering jerárquico para agrupar a los usuarios más comunes y detectar los
grupos más compactos.
33
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
Sin embargo, esta propuesta no reeja elmente lo cercano que está un nodo
de otro, ya que favorece a los usuarios que más usan la plataforma, al utilizar el
número de enlaces absolutos entre dos nodos. Esto queda demostrado en la Fig. 10,
ya que los nodos A y B están más relacionados que los nodos C y D, al compartir
una mayor proporción de enlaces.
A B C D
g(A) + g(B)
dr (A, B) = k ∗ (4)
E(A, B)
Siendo g(A) el grado de A, es decir, el número de enlaces que tienen como origen
o destino A.
Para la elección de los colores, se ha optado por utilizar un color azul intenso
para los nodos, lo cual, como se ha comentado en el apartado anterior, es necesario
cuando el área es pequeña, combinándolo con un marrón que colorea los enlaces.
Esta combinación, la cual se puede apreciar en la Fig. 11, ha sido obtenida gracias
34
Jorge Durán Escudero
35
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
Al ser una comunidad abierta a un público amplio, las características del mismo
pueden no estar claramente denidas.
Por estas razones, se hace necesario el uso de una visualización que permita ges-
tionar un amplio número de usuarios y características de los mismos, y que permita
que escale bajo demanda. Además, al ser destinada a un público que no es experto
en analítica visual, la propuesta que se presente debe ser compacta y sencilla de ser
interpretada.
36
Jorge Durán Escudero
3
Figura 12: Ejemplo de uso de las coordenadas paralelas
Posibilidad de reordenar los atributos que van a ser visualizados, para así poder
detectar si hay correlación entre ellos o no.
Capacidad de poder ltrar por cada uno de los atributos, soportando el ltrado
múltiple.
3 Este ejemplo visualiza las características de los coches de las décadas 70 y 80, estando accesible
en https://bl.ocks.org/jasondavies/1341281
37
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
Es la forma usual de representar este tipo de datos, así que el usuario está
acostumbrado a utilizarlos.
Por las razones anteriores, queda demostrado que el uso de un mapa es una buena
opción, sin embargo, hay multitud de tipos de mapas. La mayoría de ellos utilizan
las fronteras entre los distintos países y otras demarcaciones de ámbito estatal, pero
en algunos trabajos [122] [123] se preere obviar lo anterior y dividir el territorio en
otro tipo de zonas.
38
Jorge Durán Escudero
En este caso, se propone utilizar un mapa que tenga como forma de división
principal los países, ya que esto va a permitir comprender mejor los datos. La in-
formación que se va a mostrar en el mismo, es el número de mensajes que han sido
generados por los usuarios de cada uno de los territorios. Para transmitir esta in-
formación, se va a utilizar el color, con el cual va a estar pintado cada uno de los
países. La paleta de color elegida, es la propuesta en el módulo de visualización
de comunidades, siendo utilizado el marrón para los países cuyos usuarios no han
escrito mensajes, y una gradación del azul (más oscuro cuantos más mensajes hay),
para los países donde sí ha habido actividad.
39
Jorge Durán Escudero
6. Resultados
En esta sección del trabajo se va a analizar cómo se ha llevado a cabo la arqui-
tectura propuesta anteriormente y cómo la misma, junto con los módulos descritos,
podrían ser usados para responder algunas preguntas de investigación concretas.
4
Figura 14: Módulo para el análisis de los temas más frecuentes
41
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
5
Figura 15: Módulo para la detección de comunidades
6
Figura 16: Módulo para la exploración de los usuarios
4 Accesible en https://jorge-duran.com/research/tfm/themes/
5 Accesible en https://jorge-duran.com/research/tfm/graph/
6 Accesible en https://jorge-duran.com/research/tfm/parallel/
42
Jorge Durán Escudero
7
Figura 17: Módulo para la exploración geográca del proyecto
8
Figura 18: Panel de monitorización del proyecto
7 Accesible en https://jorge-duran.com/research/tfm/map/
8 Accesible en https://jorge-duran.com/research/tfm/dashboard/
43
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
1. ¾Cuáles son las principales comunidades sobre educación y empleo y qué ca-
racterísticas tienen?
2. ¾Quiénes son los usuarios más activos de Turquía hablando sobre privacidad?
4. ¾Cuál es la evolución temporal de las discusiones sobre acoso, según los países
participantes?
Para analizar una de las comunidades en profundidad, sólo hay que seleccionar los
usuarios que pertenecen a la misma, haciendo clic y extendiendo el área de selección
hasta cubrirlos a todos. Según cambian los seleccionados, el resto de visualizaciones
se actualizan para mostrar la información de estos usuarios, como se puede ver
en la Fig. 21, donde guran en azul los nodos seleccionados en el explorador de
comunidades y sus respectivos valores en el resto de visualizaciones enlazadas. Esta
primera comunidad está formada principalmente por turcos que se decantan por
hablar más de educación que de empleo. Esto se aprecia en la Fig. 21 al ser el color
de Turquía más oscuro y alcanzar un mayor número de mensajes sobre educación,
en el explorador de temas.
44
Jorge Durán Escudero
Figura 21: Visualización de los datos de los usuarios de la primera comunidad para
la pregunta de investigación 1
45
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
Figura 22: Visualización de los datos de los usuarios de la segunda comunidad para
la pregunta de investigación 1
Figura 23: Visualización de los datos de los usuarios de la tercera comunidad para
la pregunta de investigación 1
46
Jorge Durán Escudero
6.2.2. ¾Quiénes son los usuarios más activos de Turquía hablando sobre
privacidad?
Para dar respuesta a esta pregunta, lo primero que hay que hacer es centrar el
estudio sobre este tema (la privacidad) y descartar los demás, como se aprecia en la
zona izquierda de la Fig 24.
El siguiente paso es descartar los datos de los usuarios que no son de Turquía,
para ello se hace clic dentro de este país, Fig. 25.
A continuación, se restringen los usuarios a los más activos en este campo, por
ejemplo, indicando que tengan 10 mensajes o más sobre privacidad, para ello, y tal
y como se aprecia en la Fig. 26, es necesario seleccionar en el eje de mensajes del
explorador de usuarios los valores iguales o superiores a 10. Sobre sus características
podemos decir que principalmente son mujeres, mayores de edad y que ninguno de
ellos actúa como moderador. Para extraer estas conclusiones hay que jarse en las
líneas azules que representan a los usuarios seleccionados.
47
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
Figura 26: Selección de los usuarios más activos para la pregunta de investigación 2
48
Jorge Durán Escudero
El siguiente paso es seleccionar el atributo género, como campo por el que se van
a dividir los datos, para su comparación. Esta opción se encuentra en el extremo
derecho de la Fig. 29.
Figura 29: Selección del atributo por el que comparar para la pregunta de investi-
gación 3
Figura 30: Uso de los temas según el género para la pregunta de investigación 3
49
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
Figura 32: Selección del atributo por el que comparar para la pregunta de investi-
gación 4
En primer lugar, en el mapa podemos ver que los países cuyos usuarios incluyen
este tema más frecuentemente en sus comentarios son Italia y Turquía, Fig. 33. Esto
es apreciable a simple vista, al estar coloreados ambos países con un tono más oscuro
de azul que el resto.
50
Jorge Durán Escudero
pueden extraer dos conclusiones principales: la irregularidad del uso de este tema,
por el comportamiento escarpado que presenta el gráco, y la baja aportación de
los usuarios de Israel, Irlanda y Austria, debido a que en muchos instantes su color
no está presente, indicando una aportación nula.
Finalmente, haciendo clic en uno de los países se puede analizar en mayor pro-
fundidad el comportamiento que presentan sus usuarios. Para ello primero hay que
utilizar la vista geográca y seleccionar el país, para después pasar a analizar el
uso de ese tema en ese país concreto. En el caso de Turquía, sus usuarios presentan
también un comportamiento irregular en el uso del tema (Fig. 35).
Figura 35: Uso del tema acoso, en Turquía, para la pregunta de investigación 4
51
Jorge Durán Escudero
Proponer un sistema que permita explorar los datos del proyecto de manera
visual.
Prever los posibles problemas que podrían aparecer al tratar los datos del
proyecto, de manera anticipada.
Dar lugar a un modelo exible que permita que se pueda adaptar con la evo-
lución del proyecto.
Respecto a las futuras líneas de investigación, se considera que hay algunos as-
pectos en los que se podría seguir trabajando para potenciar y ampliar este trabajo:
53
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
Abordar la integración del sistema propuesto con otros sistemas, para favorecer
la labor investigadora [128].
54
Jorge Durán Escudero
55
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
formación sobre cómo afectan y qué impresiones tiene la juventud sobre distintos
temas de actualidad. Esta comunidad en línea en formato de foro, será analizada
para poder extraer conclusiones bajo distintos acercamientos:
Se medirá el grado de comunicación de los usuarios con los expertos que guíen
los diálogos, así como su contacto con otros usuarios del proyecto.
Además de estas cuestiones, esta plataforma contará con un área destinada a ser
el punto de reunión de distintos expertos, principalmente del campo de la sociología,
para analizar los datos del proyecto. Estos serán apoyados por distintas herramientas
tecnológicas como sistemas de colaboración en línea, de compartición de documentos
o de análisis de los datos, como es la propuesta que se presenta en este trabajo. Estos
expertos podrán ser apoyados por otros que no formen parte del proyecto, ya que
los datos generados se podrán consultar de manera pública y abierta por cualquier
persona interesada en el tema.
9
Otro aspecto relevante es la página web del proyecto en la cual se puede conocer
el proyecto en profundidad, así como las últimas noticias e investigaciones fruto
del trabajo de los miembros de este consorcio. Además, este sitio forma parte de
la estrategia de difusión al permitir tanto a investigadores como a miembros de
colectivos juveniles unirse al proyecto.
56
Jorge Durán Escudero
57
Jorge Durán Escudero
B. Apéndice B - SLR
B.1. Introducción
59
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
Figura 37: Taxonomía de las propuestas de visualización de textos [2] 2015 IEEE
B.1.3. Organización
Este documento está organizado de la siguiente manera: la Sección B.2 presenta
cómo se ha realizado el proceso de revisión, la Sección B.3 se centra en el mapping
de la literatura, la Sección B.4 aborda la revisión de los artículos seleccionados y la
Sección B.5 resume las principales conclusiones de este trabajo.
60
Jorge Durán Escudero
3. Denir los criterios de inclusión y exclusión que deben cumplir los distintos
trabajos para ser tomados en cuenta.
5. Concretar las consultas que se van a realizar en las distintas fuentes bibliográ-
cas.
7. Realizar un análisis detallado de los trabajos que hayan superado todas las
fases anteriores.
MQ3: ¾En qué medios están publicados los documentos más relevantes de este cam-
po?
B.2.2. PICOC
El método PICOC [136] (Population, Intervention, Comparation, Outcome y
Context ), permite describir los 5 elementos de una pregunta de investigación, que el
caso de este trabajo son:
10 Bajo las siglas MQ se agrupan las preguntas relativas al mapping y bajo RQ, las preguntas de
investigación
61
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
IC4: Que trabajen con estadísticas de uso OR datos del contenido AND
EC4: Artículos que no tratan con datos del uso OR no utilizan datos del propio
contenido AND
62
Jorge Durán Escudero
Una vez denidas las preguntas que se quieren resolver y las fuentes bibliográ-
cas a consultar, el siguiente paso dado es denir de manera precisa la consulta de
búsqueda que se va a utilizar. Para la construcción de la misma, se han utilizado las
palabras claves extraídas de la pregunta de investigación, combinadas con los ope-
radores AND y OR. Además, se ha tenido presente la utilización de los términos:
visualización interactiva y análisis interactivo como sinónimos. Debido a lo anterior,
la consulta efectuada en Scopus es la siguiente:
QQ1: ¾Los artículos utilizan datos del uso (estadísticas) de una plataforma o comu-
nidad?
QQ2: ¾Los artículos utilizan datos extraídos del contenido de una plataforma o co-
munidad?
63
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
B.2.7. La revisión
11
Una vez ejecutada la consulta, se ha procedido a agregar a EndNote los 189
resultados obtenidos. Después, se ha diseñado un proceso de revisión formado por
los siguientes pasos:
2. Se ha leído el título y el resumen de cada artículo para, junto con los criterios
de inclusión y exclusión, realizar el primer ltrado. En este paso, sólo se han
eliminado aquellos documentos donde se tenía la certeza de que deberían ser
ltrados.
Siguiendo estos pasos, se han obtenido los resultados recogidos en la Fig. 38. En
el paso 1, no se ha detectado ningún documento duplicado así que se mantuvieron
los 189 documentos. En el paso 2, en el que se aplica el ltrado por título y re-
sumen, sólo conservo 39 documentos (20.63 %). En el paso 3, al aplicar el ltrado
por contenido, únicamente se conservaron 13 documentos (6.88 %). En el paso 4,
se incrementa en 2 el número de documentos, teniendo un total de 15 (7.85 %), al
revisar la bibliografía de los documentos anteriormente aceptados. Finalmente, en
el paso 5 después de ltrarlos, según los criterios de calidad, quedaron nalmente 9
documentos (4.71 %). Como se puede apreciar, el número nal de documentos acep-
tados es muy bajo respecto del total, esto es debido a multitud de razones: artículos
genéricos, documentos no relacionados con el tema, que no explican con calidad los
métodos utilizados, etc.
64
Jorge Durán Escudero
189 39
15 13
Criteros de calidad
65
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
Los grafos son usados para visualizar la relación entre los distintos usuarios, lo
que da lugar a conocer las comunidades qué forman y el modo de interacción.
2
Ar�culos
0
2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016
Años
66
Jorge Durán Escudero
3
Número
0
Conference Proceedings Journal Ar�cle Serial
Tipo de publicación
3
Número
0
Área Coordenadas Dispersion Grafo Mapa de flujo
paralelas
Tipo de visualización
67
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
etc. [128].
La gran mayoría de los autores, utiliza estos datos para representar los usuarios
y las comunidades que estos forman. Para ello suelen utilizar los grafos [139] [66].
Sin embargo, otros autores preeren usar los grácos de líneas [138] o los grácos
68
Jorge Durán Escudero
Otro problema afrontado con estos datos, es la interacción espacial de los usua-
rios. Aquí los autores proponen el uso de un mapa de ujo [123], ya que la presencia
del mapa, ayuda a reducir la carga cognitiva.
En contraposición al modelo anterior, hay autores [67] que preeren utilizar los
corpus documentales para buscar grupos entre sí. Por ello, para la representación de
los mismos utilizan como modelo de visualización, los grafos.
69
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
El tipo de visualización elegida por la mayoría de los documentos son los grafos.
Partiendo de este modelo, algunos autores añaden la posibilidad de mover cada uno
de los nodos, descubrir nueva información al hacer clic en ellos o la posibilidad de
poder modicar la manera en que se agrupan los mismos [139].
B.5. Conclusiones
En este anexo se presenta una revisión sistemática de la literatura y un mapeo
de la misma, para identicar, clasicar y analizar las visualizaciones interactivas
propuestas para representar las estadísticas de uso y el contenido de una comunidad.
Por ello, se ha pasado por una serie de fases, donde los documentos se han ido
ltrando para escoger nalmente aquellos de mayor calidad y más relevantes de
acuerdo con la pregunta de investigación. Esto ha dado lugar, a que sólo fueran
seleccionados 9 artículos de los 189 recuperados en un primer momento.
Los resultados obtenidos permiten armar que este campo es bastante moderno,
ya que los artículos analizados son posteriores al año 2000 y que además, sigue en
desarrollo, al tener varios artículos muy recientes. Respecto a la manera de presentar
las investigaciones, los autores se decantan de manera proporcional por artículos de
revistas y congresos.
Sobre el origen de los datos, la mayoría de los artículos se centran en trabajar con
estadísticas de uso o con el contenido generado (corpora documentales), sin embargo,
algún autor si propone un conjunto integral de visualizaciones donde trabaja con
ambos al mismo tiempo.
Las visualizaciones interactivas más utilizadas son los grafos, cuando se quiere
analizar las estadísticas de uso con el n de mostrar o agrupar los usuarios en
comunidades, y los grácos de área, para mostrar la evolución temporal de los temas
más frecuentes en el contenido. Además de estas dos representaciones, también son
utilizadas de forma recurrente, las coordenadas paralelas, a n de representar las
múltiples características de un individuo o tema.
70
Jorge Durán Escudero
71
Jorge Durán Escudero
C.1. D3.js
D3.js [33] es una biblioteca de código abierto escrita en JavaScript, que permite
crear visualizaciones interactivas utilizando únicamente las tecnologías Web (HTML,
CSS, JavaScript ). Mike Bostock, su creador, utilizó las tecnologías anteriores con
el n de evitar los sistemas propietarios para la representación visual de los datos,
como Flash. Además, llamó a su biblioteca D3 (Data Driven Documents ), porque
la creó con el n de que sirviera de base para el desarrollo de documentos dirigidos
por los datos [141]. La diferencia entre estos últimos, y los documentos textuales, es
que en los primeros, la importancia está en los propios datos y sus características.
El ujo de trabajo que debe seguir todo desarrollo realizado utilizando esta
herramienta es el siguiente:
73
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
C.2. SVG
El formato SVG, acrónimo de Scalable Vector Graphics, es un estándar creado
13
por el W3C en el cual se dene una especicación para, mediante XML, describir
vectores bidimensionales y la integración de contenido vectorial y rasterizado [145].
Dentro de las ventajas que tiene este formato, podemos destacar 2, la facilidad
de ser tratados, y por ende la posibilidad de aplicarle estilos, como un componente
HTML y la capacidad de no perder calidad al ser redimensionado, como se puede
apreciar en la Fig. 42.
13 W3C (World Wide Web Consortium ) es una institución encargada de jar los principales
estándares de la web https://www.w3.org/
74
10
Jorge Durán Escudero
0
(a) Fichero SVG (b) Fichero PNG
75
Jorge Durán Escudero
Referencias
[1] A. Parker and H. Beach. Theme river. [Onli-
ne]. Available: http://www.cs.middlebury.edu/~candrews/showcase/infovis_
techniques_s16/themeriver/themeriver.html [Citado en págs. iii y 31.]
[10] O. Olsen and P. C. Gøtzsche, Cochrane review on screening for breast cancer
with mammography, The Lancet, vol. 358, no. 9290, pp. 13401342, 2001.
[Citado en pág. 7.]
77
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
[15] S. Wasserman and K. Faust, Social network analysis: Methods and applica-
tions. Cambridge university press, 1994, vol. 8. [Citado en págs. 9 y 33.]
[17] R. Kumar, J. Novak, and A. Tomkins, Structure and Evolution of Online Social
Networks. New York, NY: Springer New York, 2010, pp. 337357.
[Citado en pág. 10.]
[21] S. Fortunato, Community detection in graphs, Physics reports, vol. 486, no. 3,
pp. 75174, 2010. [Citado en pág. 11.]
[24] N. Li and D. D. Wu, Using text mining and sentiment analysis for online
forums hotspot detection and forecast, Decision Support Systems, vol. 48,
no. 2, pp. 354368, 2010. [Citado en pág. 12.]
[25] M. Mazzolini and S. Maddison, When to jump in: The role of the instructor
in online discussion forums, Computers & Education, vol. 49, no. 2, pp. 193
213, 2007. [Citado en pág. 12.]
78
Jorge Durán Escudero
[27] R. Gross and A. Acquisti, Information revelation and privacy in online social
networks, in Proceedings of the 2005 ACM workshop on Privacy in the elec-
tronic society. ACM, 2005, Conference Proceedings, pp. 7180.
[Citado en pág. 13.]
[28] A. Lenhart and M. Madden, Teens, privacy and online social networks, Pew
Research Center, Report, 2007. [Citado en pág. 14.]
[35] J. Thomas and K. Cook, Illuminating the Path: The Research and Develop-
ment Agenda for Visual Analytics. National Visualization and Analytics
Center, 2005. [Citado en pág. 15.]
79
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
[40] J. R. Goodall and M. Sowul, Viassist: Visual analytics for cyber defense,
in Technologies for Homeland Security, 2009. HST'09. IEEE Conference on.
IEEE, 2009, pp. 143150. [Citado en pág. 16.]
[41] D. A. Ellis and H. L. Merdian, Thinking outside the box: Developing dynamic
data visualizations for psychology with shiny, Frontiers in Psychology, vol. 6,
no. DEC, 2015. [Citado en pág. 16.]
80
Jorge Durán Escudero
[54] M. Lungu, M. Lanza, T. Gîrba, and R. Robbes, The small project observatory:
Visualizing software ecosystems, Science of Computer Programming, vol. 75,
no. 4, pp. 264275, 2010. [Citado en pág. 16.]
[55] M. Lungu and M. Lanza, The small project observatory - a tool for reverse en-
gineering software ecosystems, in 32nd ACM/IEEE International Conference
on Software Engineering, ICSE 2010, vol. 2, 2010, Conference Proceedings,
pp. 289292. [Citado en pág. 16.]
[59] P. Lamb and H. Croft, Visualizing rugby game styles using self-organizing
maps, IEEE Computer Graphics and Applications, vol. 36, no. 6, pp. 1115,
Nov 2016. [Citado en pág. 16.]
81
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
[68] W. Ribarsky, D. Xiaoyu Wang, and W. Dou, Social media analytics for com-
petitive advantage, Computers and Graphics (Pergamon), vol. 38, no. 1, pp.
328331, 2014. [Citado en págs. 17 y 59.]
82
Jorge Durán Escudero
[72] J. Heer and B. Shneiderman, Interactive dynamics for visual analysis, Queue,
vol. 10, no. 2, pp. 30:3030:55, Feb. 2012. [Citado en pág. 17.]
[74] Z. Liu and J. Heer, The eects of interactive latency on exploratory visual
analysis, IEEE transactions on visualization and computer graphics, vol. 20,
no. 12, pp. 21222131, 2014. [Citado en pág. 17.]
[76] E. Hoque, S. Joty, L. Màrquez, and G. Carenini, CQAVis: Visual text analy-
tics for community question answering, in 22nd International Conference on
Intelligent User Interfaces, IUI 2017, vol. Part F126745. Association for
Computing Machinery, 2017, Conference Proceedings, pp. 161172.
[Citado en pág. 17.]
[77] R. Zafarani and H. Liu. Social computing data repository at ASU. [Online].
Available: http://socialcomputing.asu.edu [Citado en pág. 18.]
[78] J. Leskovec and A. Krevl, SNAP Datasets: Stanford large network dataset
collection, http://snap.stanford.edu/data, Jun. 2014. [Citado en pág. 18.]
[80] H. Pérez-Rosés and F. Sebé, Synthetic generation of social network data with
endorsements, Journal of Simulation, vol. 9, no. 4, pp. 279286, 2015.
[Citado en pág. 18.]
83
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
[84] E. Reiter and R. Dale, Building applied natural language generation systems,
Natural Language Engineering, vol. 3, no. 01, pp. 5787, 1997.
[Citado en pág. 19.]
[85] E. Reiter, R. Dale, and Z. Feng, Building natural language generation systems.
MIT Press, 2000, vol. 33. [Citado en pág. 19.]
[86] O. Vinyals, A. Toshev, S. Bengio, and D. Erhan, Show and tell: A neural
image caption generator, in The IEEE Conference on Computer Vision and
Pattern Recognition (CVPR), June 2015. [Citado en pág. 19.]
[93] INE. Población de 16 y más años por nivel de formación alcanzado, sexo y
grupo de edad. [Online]. Available: http://www.ine.es/jaxiT3/Datos.htm?t=
6347 [Citado en pág. 21.]
84
Jorge Durán Escudero
85
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
[106] R. Cattell, Scalable sql and nosql data stores, SIGMOD Rec., vol. 39, no. 4,
pp. 1227, May 2011. [Citado en pág. 27.]
[108] OpenAire. What is the open research data pilot? [Online]. Available:
https://www.openaire.eu/opendatapilot [Citado en pág. 28.]
[111] J. Boyd-Graber and D. M. Blei, Multilingual topic models for unaligned text,
in Proceedings of the Twenty-Fifth Conference on Uncertainty in Articial
Intelligence. AUAI Press, 2009, pp. 7582. [Citado en pág. 29.]
[112] J. Jagarlamudi and H. Daumé III, Extracting multilingual topics from unalig-
ned comparable corpora, in European Conference on Information Retrieval.
Springer, 2010, pp. 444456. [Citado en pág. 29.]
[113] S. Liu, M. X. Zhou, S. Pan, W. Qian, W. Cai, and X. Lian, Interactive, topic-
based visual text summarization and analysis, in Proceedings of the 18th ACM
Conference on Information and Knowledge Management, ser. CIKM '09. New
York, NY, USA: ACM, 2009, pp. 543552. [Citado en pág. 30.]
[114] W. Ribarsky, D. Xiaoyu Wang, and W. Dou, Social media analytics for com-
petitive advantage, Computers and Graphics (Pergamon), vol. 38, no. 1, pp.
328331, 2014. [Citado en págs. 30, 68 y 69.]
[115] M. Stone, In color perception, size matters, IEEE Computer Graphics and
Applications, vol. 32, no. 2, pp. 813, March 2012. [Citado en pág. 31.]
86
Jorge Durán Escudero
[123] D. Guo, Flow mapping and multivariate visualization of large spatial inter-
action data, IEEE Transactions on Visualization and Computer Graphics,
vol. 15, no. 6, pp. 10411048, 2009. [Citado en págs. 38, 68 y 69.]
[124] B. Shneiderman, The eyes have it: A task by data type taxonomy for infor-
mation visualizations, in Proceedings of the 1996 IEEE Symposium on Visual
Languages, ser. VL '96. Washington, DC, USA: IEEE Computer Society,
1996, pp. 336. [Citado en pág. 41.]
87
Analítica visual de datos para representación de la interacción en una
red social privada y con restricciones de privacidad
[130] M. Chen, S. Mao, and Y. Liu, Big data: A survey, Mobile Networks and
Applications, vol. 19, no. 2, pp. 171209, 2014. [Citado en pág. 59.]
[137] A. Harzing and S. Alakangas, Google scholar, scopus and the web of science:
a longitudinal and cross-disciplinary comparison, Scientometrics, vol. 106,
no. 2, pp. 787804, 2016. [Citado en pág. 62.]
[141] E. Meeks, D3.js in action data visualization with JavaScript. Manning, 2017.
[Citado en pág. 73.]
[142] M. Heydt, D3.js by example. Packt Publishing, 2015. [Citado en pág. 73.]
88
Jorge Durán Escudero
[145] J. Ferraiolo, F. Jun, and D. Jackson, Scalable vector graphics (SVG) 1.0 spe-
cication. iuniverse, 2000. [Citado en pág. 74.]
89
With the support of the EU Horizon 2020 Programme in its Europe in a chan-
ging world inclusive, innovative and reective Societies (HORIZON 2020: REV-
INEQUAL-10-2016: Multi-stakeholder platform for enhancing youth digital oppor-
tunities) Call. Project WYRED (netWorked Youth Research for Empowerment in
the Digital society) (Grant agreement No 727066). The sole responsibility for the
content of this document lies with the authors. It does not necessarily reect the
opinion of the European Union. The European Commission is not responsible for
any use that may be made of the information contained therein.