Download de presentatie
De presentatie wordt gedownload. Even geduld aub
GepubliceerdPeter Geerts Laatst gewijzigd meer dan 10 jaar geleden
1
Kant-en-klare bouwstenen voor de CLARIN-infrastructuur
Klaar? In! Kant-en-klare bouwstenen voor de CLARIN-infrastructuur Remco van Veenendaal, 26 mei 2009, kick-off CLARIN-NL
2
Infrastructuur Data Tools Spelregels
3
Infrastructuur
4
Infrastructuur Bouwblokken uit DAM-LR
Metadata (IMDI) Unieke ids (Handle) Authenticatie (LDAP) Autorisatie (Shibboleth) Vertrouwd (PKI-certificaat) IMDI-portal imdi.inl.nl Uitbreiding/aanpassing naar CLARIN Bijv. OAI-PMH (workshop vanochtend)
5
Infrastructuur Verbeterde technische infrastructuur (2008)
Bare metal virtualisatie met behulp van VMware ESX Servers Red Hat Enterprise Linux Windows Server 2003, Exchange en ISA Server MySQL en Microsoft SQL server. Telewerken via Windows Terminal Server 2008 en RSA tokens Cisco switches, HP NAS en NetApp SAN Onsite en offsite backup Procedures volgens ITIL
6
Data
7
Data Woordenboeken (online via GTB)
Oudnederlands woordenboek ( ) Vroegmiddelnederlands woordenboek (13e eeuw) Middelnederlands woordenboek ( ; te verschijnen) Woordenboek der Nederlandsche Taal ( ) Algemeen Nederlands Woordenboek (eigentijds Nederlands; te verschijnen)
8
Data Corpora Corpus Gesproken Nederlands (900u spraak) STEVIN
JASMIN-CGN (115u spraak) AUTONOMATA-namencorpus (5k uitgesproken namen) D-Coi (54m woorden) COREA-coreferentiecorpus (150k woorden) ANW-corpus (100m woorden; te verschijnen) PAROLE distributable corpus (3m woorden) CHOREC-spraakcorpus (130u spraak) …
9
Data Lexica e-Lex (200k lemma’s, 640k woordvormen)
Bilinguale bestanden (Ar, Dn, Ind) RBN (45k trefwoorden; 90k verbindingen) RBBN (4k woorden) Woordenlijst Nederlandse Taal ’05 (100k lemma's volgens spelling ’05) STEVIN DuELME (5k mwe)
10
Data En… Sofeer woordenboek STEVIN Gedigitaliseerde Bijbelteksten
Cornetto (lex-sem database met 92k lemma’s; 118k woordbetekenissen) Gedigitaliseerde Bijbelteksten Statenvertaling, Leuvense Bijbel, Lutherse Bijbel, Delftse Bijbel, … Modern Grammar of Dutch Incl. tools voor conversie en internetschil
11
Tools
12
Tools Tagger-lemmatiser (online i.s.m. UvT) Sofeer spellingcontrole
STEVIN COREA-coreferentiewebservice DuELME-webapplicatie AUTONOMATA-g2p-toolkit IMPACT OCR & technologie t.b.v. digitalisering gedrukt cult. erfgoed GTB-software, ANW-software, etc. Corex (voor CGN en D-Coi; offline en online) …
13
Spelregels
14
Spelregels Kennisdeling IPR en licenties
Ook met Work Package 7 CLARIN (IPR and Business Models)
15
Wat is er bijna klaar?
16
Bijna klaar STEVIN … DAESO (corpus en software voor semantiek)
DPC (parallelle corpora Nl-En en Nl-Fr) Lassy (syntactisch geannoteerd tekstcorpus) Midas (software voor robuuste spraakherkenning) N-best (benchmark voor Nederlandstalige spraakherkenning) Autonomata Too (demo POI spraakherkenningservice) DAISY (software voor samenvattingen) DISCO (spraakherkenning in CALL voor tweedetaalleerders) DuOMAn (media analyse - opinie) PaCo-MT (hybride machinevertaling Nl-En-Nl, Nl-Fr-Nl) SoNaR (tekstcorpus 500m woorden) …
17
Maar …
18
Uitdaging Binnen CLARIN en CLARIN-NL zoveel mogelijk resources en tools integreren in de CLARIN-infrastructuur Toegankelijk via single sign-on Data zo uniform mogelijk raadpleegbaar en doorzoekbaar Data uploadbaar en bewerkbaar Tools zoveel mogelijk modulair en koppelbaar Workflows zoveel mogelijk herhaalbaar Afschriften van bewerkingen Gebruikersvriendelijkheid (!)
19
Vraag: onderzoek het Poldernederlands
Zoek in metadata naar Nederlandse spraakcorpora met orthografische en fonologische transcriptie Zoek binnen de resultaten voorkomens van Poldernederlands (einde = aainde) Voorkomens van Poldernederlands in spraakcorpora
20
Corpus beschikbaar binnen CLARIN
Spraakcorpus Uploaden Metadata Unieke ids Validatie Corpus beschikbaar binnen CLARIN
21
Teksten Uploaden Metadata Unieke ids Tagger-lemmatiser Frequentietool Tekstcorpus voorzien van diverse automatische annotaties en frequentielijst beschikbaar binnen CLARIN Parser Samenvatter Corefwebservice Validatie
22
Waar droomt u van?
23
Conclusie Veel mooie bouwstenen beschikbaar
Resources, tools, infrastructuur, kennis Juist ook voor het Nederlands Uitdaging is deze bruikbaar te integreren in de CLARIN-infrastructuur
24
Vragen?
Verwante presentaties
© 2024 SlidePlayer.nl Inc.
All rights reserved.