Big datan ja analytiikkamaailman käsitteiden läpikäyminen
•
8 likes•3,488 views
Big datan ja analytiikkamaailman käsitteiden läpikäyminen. Kooste esityksestä 12.3.2014 Edutech Big Data ja data-analytiikka liiketoiminnan kehittämisessä,
Moduuli 1: Big Data nyt ja tulevaisuudessa.
1 of 17
Download to read offline
More Related Content
Big datan ja analytiikkamaailman käsitteiden läpikäyminen
1. Big Datan ja analytiikkamaailman
käsitteiden läpikäyminen
Jari Jussila / TTY
Big Data ja data-analytiikka liiketoiminnan
kehittämisessä
Moduuli 1: Big Data nyt ja tulevaisuudessa
12.3.2014
2. Big Data
30.3.2014 2
Volyymi Vauhti Variaatio Varmuus
Data at Rest Data in Motion Data in Many Forms Data in Doubt
Terabittejä olemassa
olevaa dataa
prosessoitavaksi
Striimattua dataa, nopea
vasteaika millisekunneista
sekunteihin
Strukturoitua, ei-
strukturoitua, ja
semistrukturoitua dataa
Epävarmuutta liittyen
datan epätäydellisyyteen,
puutteellisuuteen, tai
virheellisyyteen
Lähde: Breuker 2014; Laney, Meta Group 2001 (3V:tä)
3. Big Data transaktioista
interaktioihin
30.3.2014 3
WEB
BIG DATA
Lähde: mukaillen Yli-Pietilä & Backman 2013; Valli & Ahlgren 2013
ERP
CRM
ostotiedot
maksutiedot
segmentointi
tarjoustiedot
asiakaskohtaamiset
tukikontaktit
weblogit
tarjoushistoria A/B testaaminen
Dynaaminen
hinnoittelu
Hakukonemarkkinointi
ja optimointi
Mainosverkostot
Käyttäytymispohjainen
kohdentaminen
Dynaamiset
funnellit
Sentimentti
Ulkopuolinen demografia
Kuvat ja videot
Puheen muuttaminen tekstiksi
Feedit
Anturi/sensoridata
Tuote / palvelu logit
SMS/MMS
Sosiaaliset verkostot
Sosiaalinen media
Käyttäjien luoma sisältö
Mobiilidata
Navigointihistorian analyysi
Sijaintidata
4. Datan lajeja
Datan laji Muoto Volyymi Kuvaus Esimerkkejä
Master Data Strukturoitu Matala Yritystason dataa jolla on
strategista arvoa organisaatiolle
Asiakas, tuote,
toimittaja
Transaktiodata Struktoroitu & semi-
strukturoitu
Keskinkertainen -
korkea
Transaktiot joita syntyy
liiketoiminta-prosesseissa
Tilaukset, ostot,
maksut
Referenssidata Struktoroitu & semi-
strukturoitu
Matala – keskin-
kertainen
Faktoja jotka tukevat
organisaation kykyä tehokkaasti
prosessoida transaktioita, hallita
masterdataa ja tukea päätöksiä
Demografiset kentät
Metadata Strukturoitu Matala ”Dataa datasta” Datan nimi, datan
dimensiot tai yksiköt,
ym.
Analytiikkadata Strukturoitu Keskinkertainen -
korkea
Liiketoimintaoperaatiosta tai
transaktioista jalostettua tietoa
raportoinnin ja analytiikan
tarpeisiin
Data joka sijaitsee
tietovarastoissa ja
päätöksenteon
tukijärjestelmissä
Big Data Struktoroitu, semi-
strukturoitu ja ei
strukturoitu
Korkea Isoja data settejä, joita on
haastava tallentaa, etsiä, jakaa,
visualisoida ja analysoida
Ihmisten ja koneiden
luomaa dataa
sosiaalisesta
mediasta, webistä,
mobiililaitteista,
sensoreista, ym.
30.3.2014 4
Lähde: Big Data and Analytics [Kaisler et al. 2014]
5. Master data
• organisaation ydintieto on usein kaikkein
tärkeintä liiketoiminnalle ja siinä menestymiselle
sekä data-lähtöiselle päätöksenteolle
• ydintietoa käytetään useissa yrityksen
prosesseissa ja tietojärjestelmissä, joten
ydintietojen muotojen standardointi ja arvojen
synkronointi on kriittistä järjestelmien
onnistuneelle integroinnille
• ydintiedoksi mielletään usein esimerkiksi
asiakastiedot ja tuotetiedot
30.3.2014 5
Lähde: Vilminko-Heikkinen & Pekkola 2013
6. Big Data, Data-analytiikka ja
lähikäsitteet
• Big Data can be defined as the amount of data just beyond
technology’s capability to store, manage and process efficiently.
(Kaisler et al. 2014)
• Data analytics is the science of examining raw data with the purpose
of drawing conclusions about that information. (Rouse 2008)
• Business analytics is the scientific process of transforming data into
insight for making better decisions (INFORMS)
• Business Intelligence refers to the technologies, applications, and
processes for gathering, storing, accessing, and analyzing data to
help its users make better decisions (Wixom and Watson, Teradata
University Network 2012)
30.3.2014 6
7. Datan käyttöön ja analysointiin
liittyvää terminologiaa
Termi Ajanjakso Kuvaus
Päätöksenteon tuki
[Decision Support]
1970-1985 Hyödynnetään data analyysiä
tukemaan päätöksentekoa
Johdon tukijärjestelmät
[Executive Support Systems]
1980-1990 Fokus data analyysissä
ylemmän johdon tueksi
Kuutioiden mallinnus
[Online Analytical Processing
OLAP]
1990-2000 Ohjelmistoja
multidimensionaalisten data
taulujen analysointiin
Liiketoimintatiedon hallinta
[Business Intelligence]
1989-2005 Työkaluja tukemaan
datalähtöistä päätöksentekoa,
painopiste raportoinnissa
Analytiikka
[Analytics]
2005-2010 Fokus tilastollisessa ja
matemaattisessa analyysissä
päätöksenteon tueksi
Iso Data
[Big Data]
2010- Fokus erittäin isossa,
monimuotoisessa ja nopeasti
liikkuvassa datassa
30.3.2014 7
Lähde: Big Data at Work [Davenport, 2014]
8. Kuka lunastaa Big Data toiveet?
Data Scientist – datatieteilijä?
• Mitä osaamista vaaditaan datatietelijältä /-tiimiltä?
– Liiketoimintaosaaminen
– Toimialakohtainen osaaminen
– Ohjelmointi
• ”most basic, universal skill is the ability to write code…”
– Tietojenkäsittely, mm. datan kerääminen, siivous, yhdistäminen
– Matematiikka, mm. tilastotiede, algoritmit, SNA, ym.
– Kommunikointikyky
• ”…more enduring will be the need for data scientist to communicate in language that all
their stakeholders understand – and to demonstrate the special skills involved in
storytelling with data, whether verbally, visually, or –ideally –both”
– Big data tekniikat
– “The ability to take data—to be able to understand it, to process it, to extract value from it, to
visualize it, to communicate it—that’s going to be a hugely important skill in the next decades.”
Hal Varian
30.3.2014 8
Lähde: Loukides 2010; Davenport & Patil 2012
10. Eri analytiikka tyyppejä
• Deskriptiivinen analytiikka: tekniikoita joiden avulla voidaan
ymmärtää dataa ja analysoida liiketoiminnan suoriutumiskykyä
• Diagnostiivinen analytiikka: tekniikoita joiden avulla voidaan
ymmärtää mitä on tapahtunut ja miksi
• Prediktiivinen analytiikka: tekniikoita joiden avulla voidaan
analysoida nyky- ja historiatietoa jotta voidaan päätellä mitä
todennäköisesti tapahtuu tai ei tapahdu
• Preskriptiivinen analytiikka: tekniikoita joiden avulla voidaan
laskennallisesti kehittää ja analysoida vaihtoehtoja organisaation
toiminnalle
• Päätöksentekoa tukeva analytiikka: tekniikoita joiden avulla voidaan
visualisoida informaatiota päätöksen teon tueksi
30.3.2014 10
Lähde: Big Data and Analytics [Kaisler et al. 2014]
11. Analytiikkasykli
1. Määrittele liiketoimintaongelma tai kysymys johon haluat vastauksen
2. Tunnista, kerää, siivoa ja valmistele data kysymyksen vastausta varten
3. Deskriptiivinen analytiikka
– Perehdy dataan (descriptives, correlations, factor analysis, cluster
analysis, ym.)
– Luo mahdollisia hypoteeseja (data mining ym.)
4. Prediktiivinen analytiikka
– Muodosta hypoteesit
– Tunnista soveltuvimmat analytiikkamenetelmät
– Kehitä analyyttiset mallit (multivariate regression, logistic regression,
forecasting, non-linear models, decision trees, ym.)
– Aja mallit ja luo ennusteet
5. Preskriptiivinen analytiikka
– Kehitä päätös- ja optimointimallit
– Hyödynnä koneoppimista päätöksien ohjelmointiin
6. Kirjoita johtopäätökset ja suositukset
30.3.2014 11
Lähde: Introduction to Big Data [Kaisler et al. 2014]
12. Kuinka BI on muuttunut Big
Datan myötä?
Big Data Business analytiikka Business Intelligence
Vanhaa • Relaatiotietokannat
• SQL
• Tietovarastot
• Tiedonlouhinta
• Kvantitatiivinen
analyysi
• Tilastotiede
• Operaatiotutkimus
• Päätöksenteon
tukijärjestelmät
• Johdon
tietojärjestelmät
• OLAP
Uutta • 4V:tä
• Monimuotoista dataa
• Vähemmän struktuuria
• Big Data teknologiat
(MapReduce, Hadoop,
NoSQL, ym.)
• Ei strukturoitua dataa
• Dataa monesta
lähteestä
• Monimuotoista dataa
• Data liikkeessä
• Tekstianalytiikka
• Visuaalinen analytiikka
• Sosiaalisen median
analytiikka
• Helppokäyttöisyys
• Visuaalisuus
• Dynaamisuus
• Kattaa organisaation
prosessit
• Koneoppiminen
• RTAP
30.3.2014 12
Lähde: mukailtu Introduction to Big Data [Kaisler et al. 2014]
17. Lähteitä
• Breuker, D. 2014. Towards Model-Driven Engineering for Big Data Analytics – An Exploratory Analysis of Domain-
Specific Languages for Machine Learning. 47th Hawaii International Conference on System Sciences.
• Davenport, T. H., Patil, D. J. 2012. Data Scientist. The Sexiest Job of the 21st Century. Harvard Business Review.
October 2012.
• Davenport, T. H. 2014. Big Data at Work: Dispelling the Myths, Uncovering the Opportunities. Harvard Business
Review.
• Kaisler, S. H., Armour, F. J., Espinosa, A., Money, W. H. Introduction to Big Data. Presented at HICSS-47, January
6, 2014, Waikoloa, Hawai’i.
• Kaisler, S. H., Armour, F. J., Espinosa, A., Money, W. H. Big Data and Analytics. Presented at HICSS-47, January
6, 2014, Waikoloa, Hawai’i.
• Kaisler, S. H., Armour, F. J., Espinosa, A., Money, W. H. Advanced Analytics – Issues and Challenges in the Global
Environment. 47th Hawaii International Conference on System Sciences.
• Laihonen, H., Hannula, M; Helander, N; Ilvonen, I; Jussila, J; Kukko, M; Kärkkäinen, H; Lönnqvist, A; Myllärniemi,
J; Pekkola, S; Virtanen, P; Vuori, V; Yliniemi, T. 2013. Tietojohtaminen. Laitosraportti. Tampereen teknillinen
yliopisto.
• Laney, D. 3D Data Management: Controlling Data Volume, Velocity and Variety. Gartner. Retrieved 6 February
2001.
• Loukides, M. 2010. What is Data Science? O’ Reilly, Cambridge. http://www.kiwidatascience.it/wp-
content/uploads/2013/05/What_Is_Data_Science_.pdf
• Yli-Pietilä & Backman 2013. Management by analytics. Commercial and technical applications in the Big Data era.
Teradata
• Valli, K., Alhgren 2013. Informaatiosta kilpailuetua teollisuusyrityksiin. Teknologiateollisuus.
http://www.teknologiateollisuus.fi/file/16270/Informaatiostakilpailuetua.pdf.html
• Vilminko-Heikkinen, R., Pekkola, S. 2013. Establishing an Organization’s Master Data Management Function: A
Step-wise Approach. 46th Hawaii International Conference on System Sciences.
30.3.2014 17