Linked Open Data Statistics Belgium Kennismiddag – 20/03/2017 De doelstelling van deze kennismiddag is om jullie uit te leggen wat Linked Open Data (LOD) is aan de hand van concrete voorbeelden. Met deze nog weinig verspreide technologie in de NIS kunnen we bepaalde van onze gegevens zodanig structureren dat ze Linked Open Data integreren, een soort van wereldwijde databank die voor iedereen toegankelijk is. Binnen de Linked Open Data is een bestand, een enquête, een persoon, een gemeente... een concept dat men kan identificeren door een URI. We zullen zien hoe bestaande URI gecreëerd of hergebruikt worden en hoe, met behulp van RDF, er zinnen "onderwerp-gezegde-voorwerp" (ook triplet genoemd) kunnen gevormd worden die deze concepten verbinden. Voor gezegdes bestaat er standaardterminologie waarmee zinnen kunnen worden gecreëerd die gemakkelijk kunnen worden geïnterpreteerd door softwareagenten. Bepaalde terminologie is bijzonder nuttig voor statistici. Onder meer om gegevenscatalogi (StatDcat), nomenclatuurbestanden (SKOS) en bestanden met metagegevens (Disco) of gegevens (rdf data cube vocabulary) op te stellen. We zullen zien dat er grote LOD-databanken bestaan zoals DBPedia, Wikidata, Geonames. Deze databanken leveren ons een aantal zeer belangrijke URI die we kunnen hergebruiken in onze zinnen. Ten slotte zullen we vernemen dat er hulpmiddelen bestaan om LOD-databanken te exploiteren of bij te houden (SPARQL, Wikibase, …).
Open data
Open-data@Statbel Portaal Open-data online geplaatst in 2015
Open-data@Statbel +-/ 110: Census, bodemgebruik, fiscale statistieken,… Formaten: XLSX Excel Pivot tables CSV, TXT R, SAS, …, PostgreSQL, … GML, SHP QGIS, ArcGIS, … ,
5 * Open-Data
Open-data@Statbel Er bestaat een maatstaf voor de kwaliteit van open-datagegevens
Open-data@Statbel Statbel: Nu Statbel: Ambitie
Resource description framework (RDF)
Uniform resource identifier (URI) Gebruik URIs om zaken te identificeren, zodat mensen kunnen verwijzen naar jouw zaken Met een URI kan een concept geïdentificeerd worden. Voorbeeld van een URI voor de gemeente van Rixensart: http://vocab.belgif.be/refnis/25091#id Over het algemeen is er aan een URI een webpagina gekoppeld die het concept documenteert. Voor Rixensart: http://vocab.belgif.be/refnis/25091
Uniform resource identifier (URI) Ander voorbeeld van een URI Voorbeeld van een URI die de AD Statistiek identificeert: https://www.wikidata.org/entity/Q12480 Webpagina gekoppeld aan deze URI: https://www.wikidata.org/wiki/Q12480 Er bestaan regels om URIs te vormen
Resource description framework (RDF) In de RDF-fiches bewaart men triplets van het type "onderwerp-gezegde- voorwerp" De onderwerpen zijn URIs. De gezegdes zijn URIs. De voorwerpen zijn URIs of teksten. Voorbeeld (nomenclatuur): <http://vocab.belgif.be/refnis/25091#id> <http://www.w3.org/2004/02/skos/core#prefLabel> "Rixensart"@fr . Er bestaat standaardterminologie (regels om tripletten te vormen). Skos is één van de twee.
Resource description framework (RDF) Het is mogelijk om "prefixen" te gebruiken om URI "af te korten" in RDF- fiches Voorbeeld: @prefix refnis: http://vocab.belgif.be/refnis/ . @prefix skos: http://www.w3.org/2004/02/skos/core# . refnis:25091#id skos:prefLabel "Rixensart"@fr. refnis:25091#id skos:broader refnis:25000#id.
Resource description framework (RDF) Voorbeelden van RDF-tripletten om een persoon te beschrijven: Statbel:YoBa foaf:knows Statbel:DaLe Statbel:YoBa foaf:name « Youri Baeyens » Statbel:YoBa foaf:birthday « 1971-03-31 » Statbel:YoBa foaf:based_near geo:lat=« 50,858542 » Statbel:YoBa foaf:based_near geo:lat=« 4,355753 » Deze beschrijving gebruikt de "foaf"-terminologie: “FOAF is a project devoted to linking people and information using the Web” Hier beschreven: http://xmlns.com/foaf/spec/
Resource description framework (RDF) Voorbeeld van een RDF-fiche om een studie te beschrijven (metadata): ddi:Study_1 a disco:Study. ddi:Study_1 dcterms:title "National Population and Housing Census, 1980"@en. ddi:Study_1 dcterms:identifier "ARG_1980_PHC_v01_A_IPUMS“ . Deze beschrijving gebruikt de "ddi-rdf"-terminologie (disco): DDI-RDF is “A vocabulary for publishing metadata about data sets (research and survey data) into the Web of Linked Data” Hier beschreven: http://rdf-vocabulary.ddialliance.org/discovery.html
Resource description framework (RDF) RDF = tripletten vormen Er bestaan meerdere syntaxen om ze te vormen: turtle, N-triples, XML … Voorbeelden: zie nota die bij deze slide is gevoegd. Voorbeeld in RDF/turtle (fragment van Wikipedia): @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . @prefix dc: <http://purl.org/dc/elements/1.1/> . @prefix ex: <http://example.org/stuff/1.0/> . <http://www.w3.org/TR/rdf-syntax-grammar> dc:title "RDF/XML Syntax Specification (Revised)" ; ex:editor [ ex:fullname "Dave Beckett"; ex:homePage <http://purl.org/net/dajobe/> ] . <rdf:RDF xmlns="http://xmlns.com/foaf/0.1/" xmlns:dc="http://purl.org/dc/terms/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" > <Document rdf:about="http://www.w3.org/2001/sw/RDFCore/ntriples/"> <dc:title xml:lang="en-US">N-Triples</dc:title> <maker> <Person rdf:nodeID="art"> <name>Art Barstow</name> </Person> </maker> <Person rdf:nodeID="dave"> <name>Dave Beckett</name> </Document> </rdf:RDF> <http://www.w3.org/2001/sw/RDFCore/ntriples/> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://xmlns.com/foaf/0.1/Document> . <http://www.w3.org/2001/sw/RDFCore/ntriples/> <http://purl.org/dc/terms/title> "N-Triples"@en-US . <http://www.w3.org/2001/sw/RDFCore/ntriples/> <http://xmlns.com/foaf/0.1/maker> _:art . <http://www.w3.org/2001/sw/RDFCore/ntriples/> <http://xmlns.com/foaf/0.1/maker> _:dave . _:art <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://xmlns.com/foaf/0.1/Person> . _:art <http://xmlns.com/foaf/0.1/name> "Art Barstow". _:dave <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://xmlns.com/foaf/0.1/Person> . _:dave <http://xmlns.com/foaf/0.1/name> "Dave Beckett".
Linked open-data (LOD)
Linked Open data (LOD) Voorbeeld: Het is mogelijk om meerdere RDF-bronnen te linken. Men spreekt dus van Linked Open Data (LOD). Voorbeelden van LOD-sites waarop je data kan verbinden: Dbpedia Wikidata Geonames Een eenvoudige manier om met een andere DB te verbinden, is URIs te hergebruiken Voorbeeld: Statbel:YoBa foaf:interest <http://dbpedia.org/resource/Hiking>
Linked Open data (LOD) Voorbeeld van LOD (nomenclatuur): @prefix refnis: http://vocab.belgif.be/refnis/ . @prefix skos: http://www.w3.org/2004/02/skos/core# . refnis:25091#id skos:prefLabel "Rixensart"@fr. refnis:25091#id skos:broader refnis:25000#id. refnis:25091#id skos:exactMatch <http://sws.geonames.org/2787990>. refnis:25091#id skos:exactMatch <http://www.wikidata.org/entity/Q630478> .
Semantic web
2007: Belangrijkste spelers Semantic web Het geheel van zinnen met “onderwerp-gezegde-voorwerp” van verschillende LOD vormt een gigantische “knowledge graph” waarvan de omvang snel toeneemt dit is het “semantic web” 2007: Belangrijkste spelers
2017: Belangrijkste spelers Semantic web 2017: Belangrijkste spelers
SPARQL Protocol and RDF Query Language (SPARQL) RDF queries SPARQL Protocol and RDF Query Language (SPARQL)
SPARQL – een « SQL » om queries te maken in RDF Het is mogelijk om onderzoek te doen op RDF-fiches « SPARQL ( sparkle uitgesproken in het Engels: "vonk") is een onderzoekstaal en een protocol waardoor men RDF -gegevens kan opzoeken, toevoegen, wijzigen of weglaten die beschikbaar zijn op internet. " "Die naam is een recursief acroniem met de betekenis Simple Protocol and RDF Query Language. "
WikiData – Wikipedia in RDF-versie
Voorbeelden van RDF DB's URI: wd:Q493522
Sparql op Wikidata - http://tinyurl.com/z9a3wrw
Interessant hulpmiddel Je kan SPARQL direct gebruiken voor RDF-fiches met behulp van http://librdf.org/rasqal/
Search portal based on RDF (cool stuff)
Discovery hub
RDF Graphs (cool stuff)
Hulpmiddelen om RDF-grafieken te visualiseren IsaViz (hulpmiddel ontwikkelen door W3C; werkt met GraphViz)
Wikidata graph builder
Hulpmiddelen om RDF-grafieken te visualiseren Gephi en zijn plug-in « Semantic web import »
RDF Stores
Datalift Datalift: een soort van DBMS voor tripletten. Gebruikt door Insee. Een zelfde behandeling met R en Datalift. Zie hier.
Blazegraph
graphdb
Jena
Wikibase Wikibase: hulpmiddel gebruikt door Wikidata
Terminologie voor statistici Ontologies for statisticians
Standaardterminologie Classificaties SKOS: Classificaties (nomenclaturen) XKOS: Uitbreiding van SKOS (voor de NACE,...) Een lijst van bestanden documenteren (catalogus) DCAT StatDCAT-AP GeoDCAT-AP
Standaardterminologie Metadata: Dublin core DDI-RDF Gegevens: RDF Data cube vocabulary
Standaardterminologie Andere interessante terminologie aanbevolen door Eurostat: The Organization Ontology The PROV ontology Time Ontology in OWL Dublin Core ISA Core Vocabularies in RDF (Person, Public Organisation, Business, Public Service, Location) Vocabulary of Interlinked Datasets (VoID)
Nomenclaturen Enkele nomenclaturen, « controlled vocabularies » & aanbevolen thesauri door Eurostat: INSPIRE code lists EuroVoc thesaurus Named Authority Lists (NAL)
LOD in de NIS
LOD in de NIS Eurostat is nog niet zeer actief Enkele NIS maken al LOD: Insee: enkele tabellen met codes + wettelijke bevolking Istat ONS + Geoportal uk Census 2011 in Ireland
RDF@INSEE
RDF@INSEE nomenclaturen http://rdf.insee.fr/ « De standaardterminologie SKOS (Simple Knowledge Organization System) wordt gebruikt als basis voor de publicatie van codes en nomenclaturen. " "Om de statistische nomenclaturen correct te beschrijven, moet de SKOS-terminologie worden vervolledigd onder verschillende invalshoeken (voorstelling van de niveaus, correspondentietabellen, etc.): het is het voorwerp van de XKOSterminologie, die een uitbreiding is van SKOS. " "De NAF en de nomenclatuur van juridische categorieën worden gepubliceerd volgens deze terminologie. "
RDF@INSEE nomenclaturen Nace (fragment) <http://id.insee.fr/codes/nafr2/division/16> a skos:Concept ; skos:inScheme <http://id.insee.fr/codes/nafr2/naf> ; skos:narrower <http://id.insee.fr/codes/nafr2/groupe/16.1> , <http://id.insee.fr/codes/nafr2/groupe/16.2> ; skos:notation "16" ; skos:prefLabel "Manufacture of wood and of products of wood and cork, except furniture; manufacture of articles of straw and plaiting materials"@en , "Travail du bois et fabrication d'articles en bois et en liège, à l'exception des meubles ; fabrication d'articles en vannerie et sparterie"@fr ; skos:scopeNote <http://id.insee.fr/codes/nafr2/division/16/noteGenerale> ; skosxl:altLabel <http://id.insee.fr/codes/nafr2/division/16/label65fr> , <http://id.insee.fr/codes/nafr2/division/16/label40fr> .
RDF@INSEE gegevens
RDF@Statbel
Wat publiceren in LOD? Prioriteiten voor de publicatie van LOD: Catalogus van gegevens (laten weten aan de computers wereldwijd dat gegevens beschikbaar zijn bij ons in csv-formaten,...) Metadata Nomenclaturen (URIs maken voor NACEBEL, REFNIS, ... + bestanden maken die de hiërarchie tonen, ...) Enkele gegevens (bijvoorbeeld: wettelijke bevolking van de gemeenten)
LOD@Statbel – Use Case 1 Catalogus van beschikbare gegevens elke “dataset” zal een URI ontvangen; de catalogus van de datasets kan verspreid worden (gemakkelijk importeerbaar binnen open-data portalen)
LOD@Statbel – Use Case 2 Bepaalde nomenclaturen zijn al beschikbaar! Samenwerking met FedICT http://vocab.belgif.be/ Refnis met link naar: Geonamen Wikidata NACE
LOD@Statbel – Use Case 3 Statistische metadata (ddi, ..)
LOD@Statbel – Use Case 3 Enkele referentiegegevens (bevolkingscijfers, bodemgebruik, ...) Project “Gemeenteraadsverkiezingen?" Voorbeeld van een triplet: “La Commune de Rixensart” “a pour densité de population” 1255 Wikidata:Q630478 Wikidata:Q22856 1255
LOD@Statbel – Use Case 3l De Linked Data (LOD) kunnen interessant zijn voor intern gebruik: RDF Store (directory van de groepen Antonio, Alexandre,…) KBO
Bijleren over LOD
Enkele interessante referenties Artikels: Inleiding over het semantic web op Interstices.info Enkele toepassingen van het semantisch web Boeken: A semantic web primer MOOCs Semantisch web en linked open data over FUN Introduction to a Web of Linked data op FUN Semantic web technologies op HPI