Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
SlideShare a Scribd company logo
SEMANTISKAIS TĪMEKLIS
UN ATVĒRTIE DATI
Uldis Bojārs
Latvijas Nacionālā bibliotēka,
LU Matemātikas un informātikas institūts
LATA konference
“Atvērtie dati: iespējas un izaicinājumi”
23-Jan-2014
“Data is a 21st century commodity:
it’s the new oil.
There’s almost no limit to the economic and
social wonders it can generate: ...”
Neelie Kroes (at OKFN 2012),
VP of the European Commission and
Commissioner for the Digital Agenda
Atvērto datu veidi
•
•
•
•
•

Valdības dati
Pašvaldību dati
Kultūras mantojuma dati
Izglītības un zinātnes organizāciju dati
Portālu un ziņu aģentūru dati
– ar rakstiem saistītā informācija

• “Crowdsourced” dati
– cilvēki, sociālais tīmekli

• ... citu organizāciju un cilvēku apkopoti dati ...
Lai pilnībā izmantotu atvērto datu
potenciālu, datiem jābūt:
–atrodamiem
–lietojamiem
–saprotamiem
http://www.w3.org/2014/Talks/0123_phila_lata/#(14)
“Vieglais” semantiskais tīmeklis
• 5* Linked Data (saistītie dati)
• Datu kopu metadati
• Datu nozīme (semantika)
• Standarti:
– URI, HTTP, RDF
– SPARQL vaicājumu valoda
– datu shēmas: schema.org, DCAT, Dublic Core, u.c.
– drīzumā: CSV on the Web
Tehniskā informācija:

http://www.slideshare.net/CaptSolo/linked-open-data-20184278
Latvijas atvērtie dati
Vai tādi vispār ir?
Kā nodrošināt, ka lietotāji tos var atrast?
Semantiskais tīmeklis un Atvērtie dati
http://datahub.io/dataset/bluk-bnb
CKAN programmatūra datu portāliem @ http://ckan.org
Semantiskais tīmeklis un Atvērtie dati
• Dati par datiem
• Viss, kas ir jāzin, lai datu kopu varētu
atrast, saprast un lietot
• Pirmkārt: ka te vispār *atrodas* datu kopa
Metadatu publicēšana
• saistīto datu principi (URI, ...)
• anotāciju iekļaušana HTML lapās: RDFa
• schema.org - http://schema.org/Dataset
– meklēšanas servisu (Google, Bing, ...) un lielāko
sociālā tīmekļa vietņu (Facebook, ...) izstrādāts
standarts

• DCAT (Data Catalog Vocabulary)
– http://www.w3.org/TR/vocab-dcat/
– W3C standarts datu kopu aprakstiem
Ko tas viss nozīmē?

Kā šo informāciju saprast un izmantot?
Lai pilnībā izmantotu atvērto datu
potenciālu, datiem jābūt:
–atrodamiem
–lietojamiem
–saprotamiem
http://okfnlabs.org/bad-data/ex/bls-us-employment/
http://www.w3.org/2014/Talks/0123_phila_lata/#(14)
• “The UK government is convinced linked data
is the best approach available
– for publishing data in a hugely diverse and
distributed environment,
– in a gradual and sustainable way.”

• avots: “Why Linked Data for data.gov.uk?”
– http://www.jenitennison.com/blog/node/140
Atvērts standarts:
MARC 21
Bibliotēku speciālisti to
[varbūt] zin no galvas.
Vai šie dati ir ērti
lietojami plašam
interesentu lokam?
Lietas, ko zinās
speciālists:
001 = identifikators

670 = atsauces
(te parādās saites uz
citiem ierakstiem !!!)
Dati ir atvērti (CSV faili), tomēr lietotājs var nezināt:
– kā atrast saistīto informāciju (piem., Saeimas lēmumi)
– ka var būt vienādi vārdi + partijas (vairāki Andri Bērziņi?)
– latviešu valodu (“noraidīts”, “atturas”, ...)
http://data.opendata.lv/jbaiza/11-saeimas-balsojumi
4* = Labi identifikatori
• Ļauj norādīt uz datu kopām un atsevišķiem
ierakstiem
– “Šajā adresē ir interesanti dati, vērts apskatīt !”

• Dod iespēju veidot saites data kopu un
to objektu starpā
– viss saitēm nepieciešamais jau ir identifikatorā iekšā

• Citi nozīmīgi komponenti:
– datu shēmas, ar kurām aprakstīt vajadzīgos datus
• D472BF93A1272030C22579100046C50F
• http://titania.saeima.lv/personal/deputati/sae
ima11_depweb_public.nsf/0/D472BF93A1272
030C22579100046C50F?OpenDocument&lan
g=LV

• http://lv.wikipedia.org/wiki/Solvita_Āboltiņa
Labi Identifikatori = URI
• 4* open data:
– Lietojam tīmekļa standartus (HTTP URI kā identifikatori)

• Zinot adresi, datiem var pavaicāt: “pastāsti par sevi!”
– Vienkārši ierakstam adresi tīmekļa pārlūkā

• “Ceļojot” tīmeklī mēs jau lietojam identifikatorus
(tīmekļa adreses) un saites lapu starpā
– http://lv.wikipedia.org/wiki/Latvija
• http://viaf.org/viaf/12431977/#Aspazija,_1868-1943
Saistītie dati (RDF
formā), MARC21, XML, ...
No tā paša URI var saņemt gan
cilvēkas lasāmus, gan
mašīnlasāmus datus
viens ID -> dažādi formāti

Tīmekļa lapa

MARC-XML
http://viaf.org/viaf/12431977/
#Aspazija,_1868-1943

RDF (saistītie dati)

saites objektu starpā
(JSON, XML)
5* = Saites starp objektiem
• Ļauj ceļot starp datiem, atklāt jaunas datu kopas
– “Tas ir tāpat kā sērfot tīmeklī !”

• Rezultāts: datu tīmeklis
• Tehniski:
– atsaucoties uz citiem datiem, lieto to URI
– katram URI var likt “pastāstīt par sevi”
VIAF:
saites ar citiem objektiem
• Aspazija:
– http://viaf.org/viaf/12431977/#Aspazija,_1868-1943
– informācija par personu

• Saites uz:
– LIBRIS (Zviedrija), Vācijas nac. bibl., ...
• http://libris.kb.se/resource/auth/175510

– DBPedia (Wikipēdijas semantiskais “spogulis”)
• http://dbpedia.org/resource/Aspazija
• Aspazija @ DBPedia
– http://dbpedia.org/resource/Aspazija
– strukturēti dati, kas savākti no Vikipēdijas

• Atribūti + Saites uz:
–
–
–
–

dzīvesbiedrs: http://dbpedia.org/resource/Rainis
dz. vieta: http://dbpedia.org/resource/Zaļenieku_parish
http://dbpedia.org/resource/Category:Latvian_poets
...

• Vēl vairāk dati + saites uz citiem datiem:
– saistītie dati no nacionālajām bibliotēkām
Semantiskais tīmeklis un Atvērtie dati
Linking Open Data cloud diagram,
by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
http://www.ted.com/talks/tim_berners_lee_on_the_next_web.html
Kopsavilkums
• Datiem jābūt:
– atrodamiem, lietojamiem un saprotamiem

• Saistītie atvērtie dati = risinājums:
– datu kopu metadati (atrodamība)
– izmanto atvērtus standartus (lietojamība)
– apraksta datu nozīmi (saprotamība)

Veidojot Latvijas atvērtos datus, darīsim to pareizi !
Uldis Bojārs
LNB - Semantiskā tīmekļa eksperts
LU MII - Pētnieks (atvērtie saistītie dati)
• http://www.slideshare.net/CaptSolo/presentations
• uldis.bojars@gmail.com
• https://twitter.com/CaptSolo
• Atvērto datu diskusiju grupa:
– http://groups.google.com/group/opendata_lv

More Related Content

Semantiskais tīmeklis un Atvērtie dati

  • 1. SEMANTISKAIS TĪMEKLIS UN ATVĒRTIE DATI Uldis Bojārs Latvijas Nacionālā bibliotēka, LU Matemātikas un informātikas institūts LATA konference “Atvērtie dati: iespējas un izaicinājumi” 23-Jan-2014
  • 2. “Data is a 21st century commodity: it’s the new oil. There’s almost no limit to the economic and social wonders it can generate: ...” Neelie Kroes (at OKFN 2012), VP of the European Commission and Commissioner for the Digital Agenda
  • 3. Atvērto datu veidi • • • • • Valdības dati Pašvaldību dati Kultūras mantojuma dati Izglītības un zinātnes organizāciju dati Portālu un ziņu aģentūru dati – ar rakstiem saistītā informācija • “Crowdsourced” dati – cilvēki, sociālais tīmekli • ... citu organizāciju un cilvēku apkopoti dati ...
  • 4. Lai pilnībā izmantotu atvērto datu potenciālu, datiem jābūt: –atrodamiem –lietojamiem –saprotamiem
  • 6. “Vieglais” semantiskais tīmeklis • 5* Linked Data (saistītie dati) • Datu kopu metadati • Datu nozīme (semantika) • Standarti: – URI, HTTP, RDF – SPARQL vaicājumu valoda – datu shēmas: schema.org, DCAT, Dublic Core, u.c. – drīzumā: CSV on the Web
  • 8. Latvijas atvērtie dati Vai tādi vispār ir? Kā nodrošināt, ka lietotāji tos var atrast?
  • 12. • Dati par datiem • Viss, kas ir jāzin, lai datu kopu varētu atrast, saprast un lietot • Pirmkārt: ka te vispār *atrodas* datu kopa
  • 13. Metadatu publicēšana • saistīto datu principi (URI, ...) • anotāciju iekļaušana HTML lapās: RDFa • schema.org - http://schema.org/Dataset – meklēšanas servisu (Google, Bing, ...) un lielāko sociālā tīmekļa vietņu (Facebook, ...) izstrādāts standarts • DCAT (Data Catalog Vocabulary) – http://www.w3.org/TR/vocab-dcat/ – W3C standarts datu kopu aprakstiem
  • 14. Ko tas viss nozīmē? Kā šo informāciju saprast un izmantot?
  • 15. Lai pilnībā izmantotu atvērto datu potenciālu, datiem jābūt: –atrodamiem –lietojamiem –saprotamiem
  • 18. • “The UK government is convinced linked data is the best approach available – for publishing data in a hugely diverse and distributed environment, – in a gradual and sustainable way.” • avots: “Why Linked Data for data.gov.uk?” – http://www.jenitennison.com/blog/node/140
  • 19. Atvērts standarts: MARC 21 Bibliotēku speciālisti to [varbūt] zin no galvas. Vai šie dati ir ērti lietojami plašam interesentu lokam?
  • 20. Lietas, ko zinās speciālists: 001 = identifikators 670 = atsauces (te parādās saites uz citiem ierakstiem !!!)
  • 21. Dati ir atvērti (CSV faili), tomēr lietotājs var nezināt: – kā atrast saistīto informāciju (piem., Saeimas lēmumi) – ka var būt vienādi vārdi + partijas (vairāki Andri Bērziņi?) – latviešu valodu (“noraidīts”, “atturas”, ...) http://data.opendata.lv/jbaiza/11-saeimas-balsojumi
  • 22. 4* = Labi identifikatori • Ļauj norādīt uz datu kopām un atsevišķiem ierakstiem – “Šajā adresē ir interesanti dati, vērts apskatīt !” • Dod iespēju veidot saites data kopu un to objektu starpā – viss saitēm nepieciešamais jau ir identifikatorā iekšā • Citi nozīmīgi komponenti: – datu shēmas, ar kurām aprakstīt vajadzīgos datus
  • 24. Labi Identifikatori = URI • 4* open data: – Lietojam tīmekļa standartus (HTTP URI kā identifikatori) • Zinot adresi, datiem var pavaicāt: “pastāsti par sevi!” – Vienkārši ierakstam adresi tīmekļa pārlūkā • “Ceļojot” tīmeklī mēs jau lietojam identifikatorus (tīmekļa adreses) un saites lapu starpā – http://lv.wikipedia.org/wiki/Latvija • http://viaf.org/viaf/12431977/#Aspazija,_1868-1943
  • 25. Saistītie dati (RDF formā), MARC21, XML, ... No tā paša URI var saņemt gan cilvēkas lasāmus, gan mašīnlasāmus datus
  • 26. viens ID -> dažādi formāti Tīmekļa lapa MARC-XML http://viaf.org/viaf/12431977/ #Aspazija,_1868-1943 RDF (saistītie dati) saites objektu starpā (JSON, XML)
  • 27. 5* = Saites starp objektiem • Ļauj ceļot starp datiem, atklāt jaunas datu kopas – “Tas ir tāpat kā sērfot tīmeklī !” • Rezultāts: datu tīmeklis • Tehniski: – atsaucoties uz citiem datiem, lieto to URI – katram URI var likt “pastāstīt par sevi”
  • 28. VIAF: saites ar citiem objektiem • Aspazija: – http://viaf.org/viaf/12431977/#Aspazija,_1868-1943 – informācija par personu • Saites uz: – LIBRIS (Zviedrija), Vācijas nac. bibl., ... • http://libris.kb.se/resource/auth/175510 – DBPedia (Wikipēdijas semantiskais “spogulis”) • http://dbpedia.org/resource/Aspazija
  • 29. • Aspazija @ DBPedia – http://dbpedia.org/resource/Aspazija – strukturēti dati, kas savākti no Vikipēdijas • Atribūti + Saites uz: – – – – dzīvesbiedrs: http://dbpedia.org/resource/Rainis dz. vieta: http://dbpedia.org/resource/Zaļenieku_parish http://dbpedia.org/resource/Category:Latvian_poets ... • Vēl vairāk dati + saites uz citiem datiem: – saistītie dati no nacionālajām bibliotēkām
  • 31. Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
  • 33. Kopsavilkums • Datiem jābūt: – atrodamiem, lietojamiem un saprotamiem • Saistītie atvērtie dati = risinājums: – datu kopu metadati (atrodamība) – izmanto atvērtus standartus (lietojamība) – apraksta datu nozīmi (saprotamība) Veidojot Latvijas atvērtos datus, darīsim to pareizi !
  • 34. Uldis Bojārs LNB - Semantiskā tīmekļa eksperts LU MII - Pētnieks (atvērtie saistītie dati) • http://www.slideshare.net/CaptSolo/presentations • uldis.bojars@gmail.com • https://twitter.com/CaptSolo • Atvērto datu diskusiju grupa: – http://groups.google.com/group/opendata_lv

Editor's Notes

  1. http://blog.okfn.org/2012/09/20/rest-assured-the-eu-is-behind-you-says-european-commissioner-neelie-kroes-to-okfestival-participants/
  2. parasti: faili (CSV, Excel, ...) valstsiestāžutīmekļalapās
  3. hakatonurezultāti
  4. piemērskāpublicētdatukopas
  5. federētāpieeja - sākums: mašīnlasāmimetadati -- ne tikailatviešuvalodāizlasāms, nestrukturētsteksts (kādiirmūsupieņēmumi?) - publicējamdatuskopāarmetadatiem - automātiskisavācamtosvienotāreģistrā -- reģistrivarapkopotcitureģistruinformāciju
  6. http://www.google.com/webmasters/tools/richsnippets?q=http%3A%2F%2Fviaf.org%2Fviaf%2Fdata%2Fhttp://schema.org/DatasetW3C Recommendation 16 January 2014
  7. multi-lingualarī ne nozaresekspertiem
  8. skat. JeniTblogaierakstu
  9. irarī XML formāhttps://lira.lanet.lv/F/?func=full-set-set&set_number=003095&set_entry=000001&format=001
  10. irarī XML formāhttps://lira.lanet.lv/F/?func=full-set-set&set_number=003095&set_entry=000001&format=001
  11. semantika: kājēgpilniaprakstītdatus
  12. irarīpilnsdatu dumps
  13. datumodelēšanasjautājums
  14. network effect (!!!)