Download de presentatie
De presentatie wordt gedownload. Even geduld aub
GepubliceerdLander Verbeke Laatst gewijzigd meer dan 7 jaar geleden
1
Linked Open Data Statistics Belgium Kennismiddag – 20/03/2017
De doelstelling van deze kennismiddag is om jullie uit te leggen wat Linked Open Data (LOD) is aan de hand van concrete voorbeelden. Met deze nog weinig verspreide technologie in de NIS kunnen we bepaalde van onze gegevens zodanig structureren dat ze Linked Open Data integreren, een soort van wereldwijde databank die voor iedereen toegankelijk is. Binnen de Linked Open Data is een bestand, een enquête, een persoon, een gemeente... een concept dat men kan identificeren door een URI. We zullen zien hoe bestaande URI gecreëerd of hergebruikt worden en hoe, met behulp van RDF, er zinnen "onderwerp-gezegde-voorwerp" (ook triplet genoemd) kunnen gevormd worden die deze concepten verbinden. Voor gezegdes bestaat er standaardterminologie waarmee zinnen kunnen worden gecreëerd die gemakkelijk kunnen worden geïnterpreteerd door softwareagenten. Bepaalde terminologie is bijzonder nuttig voor statistici. Onder meer om gegevenscatalogi (StatDcat), nomenclatuurbestanden (SKOS) en bestanden met metagegevens (Disco) of gegevens (rdf data cube vocabulary) op te stellen. We zullen zien dat er grote LOD-databanken bestaan zoals DBPedia, Wikidata, Geonames. Deze databanken leveren ons een aantal zeer belangrijke URI die we kunnen hergebruiken in onze zinnen. Ten slotte zullen we vernemen dat er hulpmiddelen bestaan om LOD-databanken te exploiteren of bij te houden (SPARQL, Wikibase, …).
2
Open data
3
Portaal Open-data online geplaatst in 2015
4
+-/ 110: Census, bodemgebruik, fiscale statistieken,… Formaten: XLSX Excel Pivot tables CSV, TXT R, SAS, …, PostgreSQL, … GML, SHP QGIS, ArcGIS, … ,
5
5 * Open-Data
6
Er bestaat een maatstaf voor de kwaliteit van open-datagegevens
7
Statbel: Nu Statbel: Ambitie
8
Resource description framework (RDF)
9
Uniform resource identifier (URI)
Gebruik URIs om zaken te identificeren, zodat mensen kunnen verwijzen naar jouw zaken Met een URI kan een concept geïdentificeerd worden. Voorbeeld van een URI voor de gemeente van Rixensart: Over het algemeen is er aan een URI een webpagina gekoppeld die het concept documenteert. Voor Rixensart:
10
Uniform resource identifier (URI)
Ander voorbeeld van een URI Voorbeeld van een URI die de AD Statistiek identificeert: Webpagina gekoppeld aan deze URI: Er bestaan regels om URIs te vormen
11
Resource description framework (RDF)
In de RDF-fiches bewaart men triplets van het type "onderwerp-gezegde- voorwerp" De onderwerpen zijn URIs. De gezegdes zijn URIs. De voorwerpen zijn URIs of teksten. Voorbeeld (nomenclatuur): < < . Er bestaat standaardterminologie (regels om tripletten te vormen). Skos is één van de twee.
12
Resource description framework (RDF)
Het is mogelijk om "prefixen" te gebruiken om URI "af te korten" in RDF- fiches Voorbeeld: @prefix refnis: . @prefix skos: refnis:25091#id skos:prefLabel refnis:25091#id skos:broader refnis:25000#id.
13
Resource description framework (RDF)
Voorbeelden van RDF-tripletten om een persoon te beschrijven: Statbel:YoBa foaf:knows Statbel:DaLe Statbel:YoBa foaf:name « Youri Baeyens » Statbel:YoBa foaf:birthday « » Statbel:YoBa foaf:based_near geo:lat=« 50,858542 » Statbel:YoBa foaf:based_near geo:lat=« 4,355753 » Deze beschrijving gebruikt de "foaf"-terminologie: “FOAF is a project devoted to linking people and information using the Web” Hier beschreven:
14
Resource description framework (RDF)
Voorbeeld van een RDF-fiche om een studie te beschrijven (metadata): ddi:Study_1 a disco:Study. ddi:Study_1 dcterms:title "National Population and Housing Census, ddi:Study_1 dcterms:identifier "ARG_1980_PHC_v01_A_IPUMS“ . Deze beschrijving gebruikt de "ddi-rdf"-terminologie (disco): DDI-RDF is “A vocabulary for publishing metadata about data sets (research and survey data) into the Web of Linked Data” Hier beschreven:
15
Resource description framework (RDF)
RDF = tripletten vormen Er bestaan meerdere syntaxen om ze te vormen: turtle, N-triples, XML … Voorbeelden: zie nota die bij deze slide is gevoegd. Voorbeeld in RDF/turtle (fragment van Wikipedia): @prefix rdf: < . @prefix dc: < . @prefix ex: < . < dc:title "RDF/XML Syntax Specification (Revised)" ; ex:editor [ ex:fullname "Dave Beckett"; ex:homePage < ] . <rdf:RDF xmlns=" xmlns:dc=" xmlns:rdf=" > <Document rdf:about=" <dc:title xml:lang="en-US">N-Triples</dc:title> <maker> <Person rdf:nodeID="art"> <name>Art Barstow</name> </Person> </maker> <Person rdf:nodeID="dave"> <name>Dave Beckett</name> </Document> </rdf:RDF> < < < . < < . < < _:art . < < _:dave . _:art < < . _:art < "Art Barstow". _:dave < < . _:dave < "Dave Beckett".
16
Linked open-data (LOD)
17
Linked Open data (LOD) Voorbeeld:
Het is mogelijk om meerdere RDF-bronnen te linken. Men spreekt dus van Linked Open Data (LOD). Voorbeelden van LOD-sites waarop je data kan verbinden: Dbpedia Wikidata Geonames Een eenvoudige manier om met een andere DB te verbinden, is URIs te hergebruiken Voorbeeld: Statbel:YoBa foaf:interest <
18
Linked Open data (LOD) Voorbeeld van LOD (nomenclatuur):
@prefix refnis: skos: refnis:25091#id skos:prefLabel refnis:25091#id skos:broader refnis:25000#id. refnis:25091#id skos:exactMatch < refnis:25091#id skos:exactMatch < .
19
Semantic web
20
2007: Belangrijkste spelers
Semantic web Het geheel van zinnen met “onderwerp-gezegde-voorwerp” van verschillende LOD vormt een gigantische “knowledge graph” waarvan de omvang snel toeneemt dit is het “semantic web” 2007: Belangrijkste spelers
21
2017: Belangrijkste spelers
Semantic web 2017: Belangrijkste spelers
22
SPARQL Protocol and RDF Query Language (SPARQL)
RDF queries SPARQL Protocol and RDF Query Language (SPARQL)
23
SPARQL – een « SQL » om queries te maken in RDF
Het is mogelijk om onderzoek te doen op RDF-fiches « SPARQL ( sparkle uitgesproken in het Engels: "vonk") is een onderzoekstaal en een protocol waardoor men RDF -gegevens kan opzoeken, toevoegen, wijzigen of weglaten die beschikbaar zijn op internet. " "Die naam is een recursief acroniem met de betekenis Simple Protocol and RDF Query Language. "
24
WikiData – Wikipedia in RDF-versie
25
Voorbeelden van RDF DB's
URI: wd:Q493522
26
Sparql op Wikidata - http://tinyurl.com/z9a3wrw
27
Interessant hulpmiddel
Je kan SPARQL direct gebruiken voor RDF-fiches met behulp van
28
Search portal based on RDF
(cool stuff)
29
Discovery hub
30
RDF Graphs (cool stuff)
31
Hulpmiddelen om RDF-grafieken te visualiseren
IsaViz (hulpmiddel ontwikkelen door W3C; werkt met GraphViz)
32
Wikidata graph builder
33
Hulpmiddelen om RDF-grafieken te visualiseren
Gephi en zijn plug-in « Semantic web import »
34
RDF Stores
35
Datalift Datalift: een soort van DBMS voor tripletten. Gebruikt door Insee. Een zelfde behandeling met R en Datalift. Zie hier.
36
Blazegraph
37
graphdb
38
Jena
39
Wikibase Wikibase: hulpmiddel gebruikt door Wikidata
40
Terminologie voor statistici
Ontologies for statisticians
41
Standaardterminologie
Classificaties SKOS: Classificaties (nomenclaturen) XKOS: Uitbreiding van SKOS (voor de NACE,...) Een lijst van bestanden documenteren (catalogus) DCAT StatDCAT-AP GeoDCAT-AP
42
Standaardterminologie
Metadata: Dublin core DDI-RDF Gegevens: RDF Data cube vocabulary
43
Standaardterminologie
Andere interessante terminologie aanbevolen door Eurostat: The Organization Ontology The PROV ontology Time Ontology in OWL Dublin Core ISA Core Vocabularies in RDF (Person, Public Organisation, Business, Public Service, Location) Vocabulary of Interlinked Datasets (VoID)
44
Nomenclaturen Enkele nomenclaturen, « controlled vocabularies » & aanbevolen thesauri door Eurostat: INSPIRE code lists EuroVoc thesaurus Named Authority Lists (NAL)
45
LOD in de NIS
46
LOD in de NIS Eurostat is nog niet zeer actief
Enkele NIS maken al LOD: Insee: enkele tabellen met codes + wettelijke bevolking Istat ONS + Geoportal uk Census 2011 in Ireland
48
RDF@INSEE nomenclaturen
« De standaardterminologie SKOS (Simple Knowledge Organization System) wordt gebruikt als basis voor de publicatie van codes en nomenclaturen. " "Om de statistische nomenclaturen correct te beschrijven, moet de SKOS-terminologie worden vervolledigd onder verschillende invalshoeken (voorstelling van de niveaus, correspondentietabellen, etc.): het is het voorwerp van de XKOSterminologie, die een uitbreiding is van SKOS. " "De NAF en de nomenclatuur van juridische categorieën worden gepubliceerd volgens deze terminologie. "
49
RDF@INSEE nomenclaturen Nace (fragment)
< a skos:Concept ; skos:inScheme < ; skos:narrower < , < ; skos:notation "16" ; skos:prefLabel "Manufacture of wood and of products of wood and cork, except furniture; manufacture of articles of straw and plaiting , "Travail du bois et fabrication d'articles en bois et en liège, à l'exception des meubles ; fabrication d'articles en vannerie et ; skos:scopeNote < ; skosxl:altLabel < , < .
50
gegevens
52
Wat publiceren in LOD? Prioriteiten voor de publicatie van LOD:
Catalogus van gegevens (laten weten aan de computers wereldwijd dat gegevens beschikbaar zijn bij ons in csv-formaten,...) Metadata Nomenclaturen (URIs maken voor NACEBEL, REFNIS, bestanden maken die de hiërarchie tonen, ...) Enkele gegevens (bijvoorbeeld: wettelijke bevolking van de gemeenten)
53
LOD@Statbel – Use Case 1 Catalogus van beschikbare gegevens
elke “dataset” zal een URI ontvangen; de catalogus van de datasets kan verspreid worden (gemakkelijk importeerbaar binnen open-data portalen)
54
LOD@Statbel – Use Case 2 Bepaalde nomenclaturen zijn al beschikbaar!
Samenwerking met FedICT Refnis met link naar: Geonamen Wikidata NACE
55
– Use Case 3 Statistische metadata (ddi, ..)
56
– Use Case 3 Enkele referentiegegevens (bevolkingscijfers, bodemgebruik, ...) Project “Gemeenteraadsverkiezingen?" Voorbeeld van een triplet: “La Commune de Rixensart” “a pour densité de population” 1255 Wikidata:Q Wikidata:Q
57
LOD@Statbel – Use Case 3l
De Linked Data (LOD) kunnen interessant zijn voor intern gebruik: RDF Store (directory van de groepen Antonio, Alexandre,…) KBO
58
Bijleren over LOD
59
Enkele interessante referenties
Artikels: Inleiding over het semantic web op Interstices.info Enkele toepassingen van het semantisch web Boeken: A semantic web primer MOOCs Semantisch web en linked open data over FUN Introduction to a Web of Linked data op FUN Semantic web technologies op HPI
Verwante presentaties
© 2024 SlidePlayer.nl Inc.
All rights reserved.