Articolo, uscito sulla rivista eGov, del servizio di analisi quali- quantitativa dei Media
Report
Share
Report
Share
1 of 4
More Related Content
Webdistilled per la Media Analysis
1. TECNOLOGIE
Web
Il web come
condensatore mediatico
Intext presenta Webdistilled, servizio in grado
di raccogliere dal web una enorme quantità
di informazioni e integrarle in una piattaforma
accessibile online per ascoltare e misurare
le opinioni della gente
“A powerful global conversation has begun. gli utilizzatori di Internet sono oltre 400 milio-
Through the Internet, people are discovering ni (più della metà della popolazione). L’ultima
and inventing new ways to share relevant rilevazione AudiWeb di aprile 2010 stima il nu-
knowledge with blinding speed. As a direct re- mero di utenti italiani connessi a Internet in 33
sult, markets are getting smarter and getting milioni (61% della popolazione). Il fenomeno
smarter faster than most companies”. Facebook ha raggiunto in meno di 4 anni oltre
The Cluetrain Manifesto, 1999 400 milioni di persone, con 15 milioni di iscritti
solo in Italia.
Tutto passa in rete:
Ascoltare meglio per capire di più
il web è il condensatore
mediatico universale Le analisi qualitative effettuate sui media classici
permettono di valutare le reazioni del pubblico
Il web ha cambiato le modalità di usufruire, alla comunicazione di una qualsiasi voce istitu-
consumare e vivere la comunicazione ed è zionale o commerciale (quotidiani, riviste, televi-
l’unico ‘condensatore mediatico’ in grado di sioni, radio). Sul web troviamo invece “tracce”
riportare e veicolare tutti i media classici (tv, (log) e “scie” (thread) delle opinioni dei naviga-
stampa e radio) su scala mondiale. È una stra- tori, persone che cercano sempre più informa-
ordinaria piattaforma che raccoglie pareri e zioni, condividono opinioni, emozioni, tendenze
commenti del mercato, di opinione pubblica e e idee su tutto, esprimendosi in modo più libero
consumatori. Sempre più “i mercati sono con- e spontaneo che attraverso i media ‘ufficiali’.
versazioni”, proprio come il web. Gli utenti di Saper ascoltare e capire le opinioni di cittadini,
Internet sono oltre 1.8 miliardi a livello mon- consumatori ed elettori permette di fornire utili
diale, con una penetrazione percentuale sulla informazioni a chi deve gestire scelte ed orien-
popolazione che varia dal 8.7% del continente tamenti e, nel contempo, dare valore aggiunto a
africano al 76.2% del Nord America. In Europa chi partecipa alla vita politica e sociale.
49
2. TECNOLOGIE
Web
Le problematiche dell’ascolto
È necessario
Ma quali sono gli aspetti e le complessità che che il sistema sia in grado
un sistema di questo tipo deve essere in grado di analizzare in dettaglio
di gestire? Forrester Research, nel suo report il contenuto di ogni clip,
di analisi sulle piattaforme di ascolto, individua
identificare persone,
tre macro-aree di valutazione:
- completezza delle fonti;
enti e organizzazioni,
- capacità di analisi del testo; marchi, prodotti
- funzionalità di consultazione e reporting dei e servizi citati, ma anche
dati. gli argomenti discussi
Completezza delle fonti
che parlano di un determinato soggetto (es.: un
Se da un lato il volume del cosiddetto “web sindaco, un ente pubblico, un’azienda munici-
indicizzato” è stimato in almeno 20 miliardi di palizzata), ma non riesce a riconoscere un post
pagine, il numero di blog attivi a livello mondia- in cui un cittadino parla del degrado di un’area
le è invece più difficile da stimare. Nel giugno di verde pubblico della sua città, magari senza
2008, Technorati affermava di indicizzare oltre citare riferimenti espliciti al comune, al sindaco
110 milioni di blog. Diversi studi hanno stima- o all’assessore di competenza.
to la blogosfera italiana in circa il 3% del tota- È quindi necessario che il sistema sia in grado
le mondiale. Non è quindi senza fondamento di analizzare in dettaglio il contenuto di ogni
ipotizzare che ogni giorno vengano pubblicati clip, identificare persone, enti e organizzazio-
milioni di contenuti generati dagli utenti Inter- ni, marchi, prodotti e servizi citati, ma anche
net, di cui centinaia di migliaia in lingua Italia- (e soprattutto) gli argomenti discussi, fino a
na. Inoltre, piattaforme collaborative e social comprendere caratteristiche e concetti utili ad
network hanno spostato il luogo di discussio- individuare il tema oggetto della clip e verifi-
ne: in un recente monitoraggio sul settore della carne la sua rilevanza rispetto allo scopo del
telefonia mobile, Intext ha raccolto in meno di monitoraggio.
tre mesi oltre 250.000 clip provenienti da più Inoltre, l’attenzione si sta spostando sempre di
di 9.000 fonti differenti (inclusi canali Twitter e più sulla capacità di valutare il tono di un post,
Facebook). Diventa dunque fortemente ridutti- classificando le clip a seconda che parlino
vo limitare il monitoraggio solo ad alcune fonti “bene” (polarità positiva) o “male” (polarità ne-
preselezionate. gativa) di un determinato soggetto o tema. Per
quanto interessante possa essere, una “rasse-
gna” di migliaia di clip non è realmente utilizza-
Capacità di analisi bile. Una volta acquisiti, selezionati ed analiz-
zati, i dati devono essere resi fruibili nel modo
Una valida copertura è condizione necessa- più semplice all’utente attraverso una oppor-
ria per un buon sistema di ascolto, ma non tuna piattaforma di ascolto. Forrester individua
sufficiente. Infatti, con un flusso potenziale di due elementi fondamentali nella valutazione di
centinaia di migliaia di clip al giorno, diventa una piattaforma di ascolto: la possibilità di rea-
fondamentale selezionare tutte e sole le clip ri- lizzare cruscotti analitici e report personalizzati
levanti per un contesto specifico. Un sistema e la semplicità di integrazione dei dati di analisi
basato su parole chiave può identificare le clip nel sistema informativo del cliente.
50
3. TECNOLOGIE
Web
Webdistilled: una piattaforma
semantica di analisi del web Buzz
0 10 20 30 40 50 60 70 80 90 100 110
Per rispondere all’esigenza di analizzare i con- Atac.
tenuti del web e trasformarli in informazioni Bordoni.
strutturate, Intext ha ideato e sviluppato Web- Cutrufo.
distilled, un servizio che integra: Acea.
Ama.
- un sistema di acquisizione di contenuti onli- Marchi.
ne capace di aggregare, solo per l’Italia, ol- Antoniazzi.
tre 150.000 clip ogni giorno, provenienti dai
Value
Corsini.
più disparati blog, forum, siti web e social DeLillo.
Ghera.
network come Facebook e Twitter; Marsilio.
- l’elevata velocità di elaborazione della piat- Belviso.
taforma permette a ciascun nodo di analisi Cavallari.
di elaborare anche 20 clip al secondo; Croppi.
Leo.
- un’avanzata piattaforma semantica in grado di:
• analizzare in tempo reale ogni clip per Negative.Buzz. Slightly-Negative.Buzz. Neutral.Buzz. Slightly-Positive.Buzz. Positive.Buzz.
identificare marchi e prodotti, persone,
enti e organizzazioni, luoghi ma anche Comune di Roma – Analisi di polarità relativa ad alcuni target –
concetti ed argomenti; Gennaio 2010
• valutare il buzz (quanto se ne parla) ed il
sentiment (come se ne parla) rispetto ad
uno o più target dati;
- un’applicazione online di business intelli-
gence per progettare con grande semplicità
Acquisizione del flusso
cruscotti di analisi (dashboard) e di generare • Aggregazione
report di dettaglio personalizzati. • Normalizzazione
• Deduplicazione Archiviazione
• Indicizzazione
• Archivio in linea (6 mesi)
Un nuovo sistema di ascolto Selezione
• Language detection
• Profilazione
Il sistema di ascolto di Webdistilled non parte • Analisi metriche
da una ricerca per parole chiave, come può es-
Analisi
sere per un classico motore di ricerca. Per cia- • Analisi concettuale
scun monitoraggio viene realizzato un modello • Identificazione entità
• Classificazione
semantico di analisi dedicato (chiamato profilo),
in cui vengono definiti i target, gli argomenti di Polarizzazione
interesse e una serie di metriche di rilevanza. • Identificazione dei target
• Sentiment Analysis
Ogni singola clip in ingresso viene dapprima • Risoluzione delle polarità
analizzata per identificare i concetti più rilevanti
e classificata rispetto ai diversi profili di analisi.
Business Intelligence Servizi live
Solo le clip potenzialmente rilevanti passano
• Report • Alert
ad un successivo stadio di analisi specifico per • Cruscotti • Flusso RSS
• Drill-through
ciascun monitoraggio. Parallelamente, l’inte-
ro flusso in ingresso è indicizzato in un archi-
vio storico e conservato per almeno sei mesi, Schema a blocchi del servizio Webdistilled
51
4. TECNOLOGIE
Web
dando modo a Webdistilled, in qualsiasi mo-
mento, di rielaborare analisi su dati pregressi
partendo da una base di oltre 30 milioni di clip. Le analisi di dettaglio
Ogni clip potenzialmente rilevante per un
monitoraggio viene successivamente analizzata
mediante l’Intext content Analyzer, un sistema
Dai flussi ai dati multi-stadio che combina strumenti di pattern
matching per l’identificazione dei target e
Alla fine del processo di analisi la clip, da sem- dei concetti chiave dell’indagine, strumenti
linguistici per l’analisi morfo-sintattica della clip
plice testo, è trasformata in dato strutturato.
e strumenti semantici per il riconoscimento e
Tutti i fatti identificati durante il processo di la classificazione di concetti ed entità. Sulla
analisi sono così consolidati all’interno di un base di questi nuovi elementi di analisi, viene
apposito database per poter poi essere rap- ricalcolata la rilevanza della clip rispetto allo
presentati attraverso il cruscotto di analisi di scopo del monitoraggio. Nel caso in cui la clip
venga valutata “on-target”, la piattaforma applica
business intelligence. All’interno di questo am-
i modelli di sentiment analysis per identificare e
biente, Webdistilled permette di seguire le evo- determinare l’eventuale polarità della clip. Anche
luzioni nel tempo di tematiche, opinioni, azioni in questo caso, per ogni monitoraggio è possibile
di comunicazione, offrendo inoltre la possibili- personalizzare i modelli di analisi del sentiment
tà all’utente di predisporre diverse dimensioni per integrare attributi e relazioni polari specifici
per il dominio. Una delle caratteristiche peculiari
di analisi per ogni monitoraggio. Queste pos-
di Webdistilled è che non si limita a identificare
sono comprendere, oltre ad attributi standard il “tono” dell’intera clip, ma analizza e risolve
(fonte, data, classe di rilevanza), anche dimen- puntualmente eventuali pattern polari sui diversi
sioni specifiche: un’analisi per un determinato target. Questo permette, ad esempio, di gestire
settore merceologico, avrà marchi e prodotti e correttamente clip in cui sono confrontati due o
più soggetti, su cui potrebbero essere espresse
caratteristiche, mentre un’analisi per una pub-
opinioni con polarità differenti. Per ogni clip
blica amministrazione avrà persone chiave e rilevante, inoltre, Webdistilled attiva un processo
relativi enti o organizzazioni di appartenenza, di tracking che permette di acquisire tutti i
o altre tematiche di interesse, come la sicurez- commenti associati alla clip, identificando ad
za, il traffico, l’ambiente, la cultura, ecc. Con esempio quali sono le conversazioni più calde,
ovvero il livello di “influenza” che un determinato
estrema semplicità possiamo quindi incrociare
autore esercita su quel dominio.
le diverse dimensioni di analisi, identificando le
loro correlazioni. Ad esempio, scoprire il livel-
lo di attenzione verso le tematiche ambientali, www.intext.it
ma anche come sono percepiti, in termini di www.webdistilled.com
attenzione e polarità, i diversi amministratori o
partiti rispetto a tale tematica.
È possibile salvare i report ottenuti e costruire
cruscotti di analisi che informano l’utente in
tempo reale. I dati, infatti, sono costantemente
aggiornati ed i cruscotti rigenerati ogni 4 ore,
ma anche storicizzati per un periodo minimo
di 6 mesi. Osservando l’andamento nel tempo
dei diversi indici, è possibile individuare even-
tuali scostamenti, indicatori di situazioni di
crisi, scomporre i dati ed analizzarli nei minimi
dettagli fino ad arrivare alla consultazione sia
di un elenco che di una singola clip.
52