Kant-en-klare bouwstenen voor de CLARIN-infrastructuur

Slides:



Advertisements
Verwante presentaties
De zin en onzin van escrow
Advertisements

802.1x op het SURFnet kantoor
Evaluatie van MS Exchange 2000 en opzetten van een server voor wereldwijde uitwisseling van projectinformatie Bertels David 3ICT1 Stageplaats: Acros Organics.
Downloaden: Ad-aware. Downloaden bestaat uit 3 delen: •1. Zoeken naar de plek waar je het bestand kan vinden op het internet •2. Het nemen van een kopie.
Installatie & beheer Jonathan Mohnen Martijn Wolfs.
De verschillende fasen in de elektronische noterings- procedure.
ADOBE PRESENTER Willem vanden Berg Dienst Onderwijsondersteuning en –ontwikkeling KaHo Sint-Lieven 1.
Europese e-Justice Marc van Opijnen sr. adviseur rechtsinformatica Raad voor de rechtspraak / spir-it
Hergebruik van taal- en spraakdata in e-health Remco van Veenendaal projectleider TST-Centrale Ehealth4com Nijmegen 3 oktober 2013.
Ronde (Sport & Spel) Quiz Night !
1 visual basic flash F3 studentenversie auteursversie.
C-DSD: Curating the Dutch Song Database (Nederlandse Liederenbank) C-DSD Martine de Bruin.
Het Management Informatie Portaal
© BeSite B.V www.besite.nl Feit: In 2007 is 58% van de organisaties goed vindbaar op internet, terwijl in 2006 slechts 32% goed vindbaar.
Naar het Jaareinde toe
Hoogwaardig internet voor hoger onderwijs en onderzoek Utrecht, 29 maart 2006 nieuwe technische ontwikkelingen m.b.t. eduroam eduroam voorwaarts! Paul.
WISKUNDIGE FORMULES.
XBRL / SBR Train de Trainer sessie Deel 2 A (van 3) 28 november 2012 SBR-Team Vanaf 1 januari 2013 is SBR de standaard voor financiële rapportages.
CLARIN en oude teksten: Taal- en spraakinfrastructuur voor onderzoekers in de humane en sociale wetenschappen Ineke Schuurman CCL, K.U.Leuven Coördinator.
DigiHist Oude teksten, moderne technologie: Geleerdenbrievenproject In eke Schuurman (K.U.Leuven) ism Jan Odijk (U.Utrecht)
CLARIN: een introductie Ineke Schuurman Coördinator CLARIN-Vlaanderen.
Elke 7 seconden een nieuw getal
Oefeningen F-toetsen ANOVA.
7/26/2014 | 1 Bibliotheekinstructie Europese Talen Vertaalwetenschap.
Sneeuwschuivers en leren sneeuwschuiven myResearch Portal en het belang van workflow data analyse Richard L. Zijdeman DAI: info:eu-repo/dai/nl/
TUDelft Knowledge Based Systems Group Zuidplantsoen BZ Delft, The Netherlands Caspar Treijtel Multi-agent Stratego.
1 Voorwaarden hergebruik Modulair ontwerp Low coupling High cohesion.
DutchSemCor: van SoNaR naar WSD Attila Görög – Vrije Universiteit Amsterdam
In dit vakje zie je hoeveel je moet betalen. Uit de volgende drie vakjes kan je dan kiezen. Er is er telkens maar eentje juist. Ken je het juiste antwoord,
Web 2.0 Social Software Toolkit 1/21 Introductie tot Social Software Patrick Klaassen RU
Werken aan Intergenerationele Samenwerking en Expertise.
2009 Tevredenheidsenquête Resultaten Opleidingsinstellingen.
PLAYBOY Kalender 2006 Dit is wat mannen boeit!.
nieuwe toepassingen 2008 Schoolbib 2.0 / VVBAD Mechelen, 5 november 2008 Rosemie Callewaert - Project Manager VCOB.
Remote Lab Netwerkbeveiliging Webapplicatie met PHP en MySQL Njotea Robin.
aanvallen moeten ten allen tijden worden weerstaan
Wouter Jansweijer, 16 September, Literatuur zoeken Project informatiewetenschappen october 2002.
Schitterende Organisaties®
1 Controleplan 2005 Raadgevend comité Hotel President – donderdag 21 april 2005.
1 CLARIN - NL Taal en Spraaktechnologie in een Infrastructuur voor Geesteswetenschappers Jan Odijk Utrecht, 11 juni 2010.
A H M F K EB C x 85 Korte zijde bij C 2 e secties volte 14 m en op afstand komen ( 0,5 rijbaan)
ZijActief Koningslust 10 jaar Truusje Trap
Datasets, verrijkte publicaties …en de rol van DANS 1Maarten Hoogerwerf, , NVB.
Ontwikkeld door CWB3. Opbouw Presentatie 1.Wat is GeoSport? 2.Ontwerp 1.Gebruikte ontwerpmethodieken 2.Ervaring 3.Implementatie 1.Gebruikte technologieën.
Nieuwe Meesters Delft Erfgoed = saai! 1. Nieuwe Meesters Delft Erfgoed = overal! 2.
Naam van de Auteur 7 januari 2008 Kennisnet Videodienstverlening Open source, open content Pieter Varekamp November 2008.
3D Topografie bij Rijkswaterstaat Paul van Asperen (RWS-AGI) Louise de Jong (RWS-AGI) Edward Verbree (TU Delft) Jeroen van Winden (ESRI NL) GIN studiedag.
ECHT ONGELOOFLIJK. Lees alle getallen. langzaam en rij voor rij
Processen Elektor Verkiezingssoftware
Opleiding CMS website Gent Bart Nelis Gent: #239/ docentengang Brussel: /naast bibliotheek
USABILITY MYTHBUSTERS BASTIAAN KLOOSTER & PETER AKERBOOM CONGRES WEBREDACTIE 2011.
De stadsrandzone centraal Ruimteconferentie 3 november 2009 Bart van Bleek.
GIS-coördinator in Westerlo
De financiële functie: Integrale bedrijfsanalyse©
Onsight Managed Security Services
Van papier naar digitaal Casus Digital born materiaal
Algemene Ondernemersvaardigheden
1 Zie ook identiteit.pdf willen denkenvoelen 5 Zie ook identiteit.pdf.
Strijd tegen de zonde?.
Facet De beveiligde site en de beheerder Facet.
ZijActief Koningslust
3/23/2015 | 1 Bibliotheekinstructie Klassieken en Oude Geschiedenis.
3/30/2015 | 1 Bibliotheekinstructie Nederlands 2014.
Beveiligingsaspecten van draadloze hotspots Toepassing van 802.1x met FreeRADIUS Steven Wittevrouw Bachelor Elektronica - ICT 3ICT
The Hybrid Workspace Gino van Essen Technical Consultant.
Syntactische Annotatie CHILDES
Transcript van de presentatie:

Kant-en-klare bouwstenen voor de CLARIN-infrastructuur Klaar? In! Kant-en-klare bouwstenen voor de CLARIN-infrastructuur Remco van Veenendaal, 26 mei 2009, kick-off CLARIN-NL

Infrastructuur Data Tools Spelregels

Infrastructuur

Infrastructuur Bouwblokken uit DAM-LR Metadata (IMDI) Unieke ids (Handle) Authenticatie (LDAP) Autorisatie (Shibboleth) Vertrouwd (PKI-certificaat) IMDI-portal imdi.inl.nl Uitbreiding/aanpassing naar CLARIN Bijv. OAI-PMH (workshop vanochtend)

Infrastructuur Verbeterde technische infrastructuur (2008) Bare metal virtualisatie met behulp van VMware ESX Servers Red Hat Enterprise Linux Windows Server 2003, Exchange en ISA Server MySQL en Microsoft SQL server. Telewerken via Windows Terminal Server 2008 en RSA tokens Cisco switches, HP NAS en NetApp SAN Onsite en offsite backup Procedures volgens ITIL

Data

Data Woordenboeken (online via GTB) Oudnederlands woordenboek (500-1200) Vroegmiddelnederlands woordenboek (13e eeuw) Middelnederlands woordenboek (1200-1500; te verschijnen) Woordenboek der Nederlandsche Taal (1500-1976) Algemeen Nederlands Woordenboek (eigentijds Nederlands; te verschijnen)

Data Corpora Corpus Gesproken Nederlands (900u spraak) STEVIN JASMIN-CGN (115u spraak) AUTONOMATA-namencorpus (5k uitgesproken namen) D-Coi (54m woorden) COREA-coreferentiecorpus (150k woorden) ANW-corpus (100m woorden; te verschijnen) PAROLE distributable corpus (3m woorden) CHOREC-spraakcorpus (130u spraak) …

Data Lexica e-Lex (200k lemma’s, 640k woordvormen) Bilinguale bestanden (Ar, Dn, Ind) RBN (45k trefwoorden; 90k verbindingen) RBBN (4k woorden) Woordenlijst Nederlandse Taal ’05 (100k lemma's volgens spelling ’05) STEVIN DuELME (5k mwe)

Data En… Sofeer woordenboek STEVIN Gedigitaliseerde Bijbelteksten Cornetto (lex-sem database met 92k lemma’s; 118k woordbetekenissen) Gedigitaliseerde Bijbelteksten Statenvertaling, Leuvense Bijbel, Lutherse Bijbel, Delftse Bijbel, … Modern Grammar of Dutch Incl. tools voor conversie en internetschil

Tools

Tools Tagger-lemmatiser (online i.s.m. UvT) Sofeer spellingcontrole STEVIN COREA-coreferentiewebservice DuELME-webapplicatie AUTONOMATA-g2p-toolkit IMPACT OCR & technologie t.b.v. digitalisering gedrukt cult. erfgoed GTB-software, ANW-software, etc. Corex (voor CGN en D-Coi; offline en online) …

Spelregels

Spelregels Kennisdeling IPR en licenties Ook met Work Package 7 CLARIN (IPR and Business Models)

Wat is er bijna klaar?

Bijna klaar STEVIN … DAESO (corpus en software voor semantiek) DPC (parallelle corpora Nl-En en Nl-Fr) Lassy (syntactisch geannoteerd tekstcorpus) Midas (software voor robuuste spraakherkenning) N-best (benchmark voor Nederlandstalige spraakherkenning) Autonomata Too (demo POI spraakherkenningservice) DAISY (software voor samenvattingen) DISCO (spraakherkenning in CALL voor tweedetaalleerders) DuOMAn (media analyse - opinie) PaCo-MT (hybride machinevertaling Nl-En-Nl, Nl-Fr-Nl) SoNaR (tekstcorpus 500m woorden) …

Maar …

Uitdaging Binnen CLARIN en CLARIN-NL zoveel mogelijk resources en tools integreren in de CLARIN-infrastructuur Toegankelijk via single sign-on Data zo uniform mogelijk raadpleegbaar en doorzoekbaar Data uploadbaar en bewerkbaar Tools zoveel mogelijk modulair en koppelbaar Workflows zoveel mogelijk herhaalbaar Afschriften van bewerkingen Gebruikersvriendelijkheid (!)

Vraag: onderzoek het Poldernederlands Zoek in metadata naar Nederlandse spraakcorpora met orthografische en fonologische transcriptie Zoek binnen de resultaten voorkomens van Poldernederlands (einde = aainde) Voorkomens van Poldernederlands in spraakcorpora

Corpus beschikbaar binnen CLARIN Spraakcorpus Uploaden Metadata Unieke ids Validatie Corpus beschikbaar binnen CLARIN

Teksten Uploaden Metadata Unieke ids Tagger-lemmatiser Frequentietool Tekstcorpus voorzien van diverse automatische annotaties en frequentielijst beschikbaar binnen CLARIN Parser Samenvatter Corefwebservice Validatie

Waar droomt u van?

Conclusie Veel mooie bouwstenen beschikbaar Resources, tools, infrastructuur, kennis Juist ook voor het Nederlands Uitdaging is deze bruikbaar te integreren in de CLARIN-infrastructuur

Vragen?