Katrien Depuydt Track 3: Historische lexicondata.

Slides:



Advertisements
Verwante presentaties
Kick-off Nederlab - 25 januari 2013 Programma
Advertisements

Citeren, verwijzen, voetnoten, paginanummering … GIP
Project ICT–ondersteuning voor kinderen met leerstoornissen
Programma 10u: Deel 1 – Praktische tips door Ninnin Michaël
Zoeken in het Nederlands: toepassingen voor ontwikkeling en beheer van thesauri Dennis de Vries.
Het Onderwijs Begrippenkader (OBK) - een introductie
7/12/2014 | 1 Bibliotheekinstructie ATW 2013 archeologie2013.
Demo. Bij binnenkomst in Rots hoofdmenu aanwezige, gelicentieerde modules, zichtbaar als de medewerker er toegang toe heeft mogelijke handelingen binnen.
Rekenen Seizoen
Klankbordgroep. BM Rioleringszorg 2013 Monitoring UvW/VNG bedrijfsvergelijking Zuiveringsbeheer/ Waterschapspeil basismodule en aanvullende vragen (gezamenlijke.
Voorlopige MDS Chronische Zorg 11 juni Planning Q Q Q Q Q Q Q Q Q Q Q Q
XBRL / SBR Train de Trainer sessie Deel 2 A (van 3) 28 november 2012 SBR-Team Vanaf 1 januari 2013 is SBR de standaard voor financiële rapportages.
Samenwerkend schrijven in een virtuele werkplaats
Statistiek ?! … Ronald Buyl - BISI.
CLARIN en oude teksten: Taal- en spraakinfrastructuur voor onderzoekers in de humane en sociale wetenschappen Ineke Schuurman CCL, K.U.Leuven Coördinator.
En wat doet taalkunde in het programma van CKI?
Laplace transformatie
7/26/2014 | 1 Bibliotheekinstructie CIW 2013 archeologie2013.
Natuurlijke taalverwerking week 4
Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997.
Media & Creativiteit Pia Terstroet
Productencatalogus Samen beter informeren. Wat is de Productencatalogus? Uitwisselingssysteem voor overheidsinformatie.
Presentatie Studiemiddag Indexen en Nadere Toegangen Ralph Stuyver, Projectmanager 4 maart 2010.
Leraren AD4 verzorging-voeding
Ervaringen en ontwikkelingen Utrecht 15 februari 2011.
Dutch Parallel Corpus Multilinguaal & multifunctioneel
Train de trainer energiedeskundigen type A september/oktober 2012
Portfolio 1 Portfolio kunstenaars trekken langs opdrachtgevers om opdrachten in de wacht te slepen ze nemen voorbeelden mee van hun beste producten verzameling.
Implementing Cross-Language Text Retrieval Systems for Large-scale text Collections and the World Wide Web n Mark W. Davis and William C.Ogden n AAAI 1997.
Hoe begin je een digitale modelbaan
Roadmap Toekomstbeeld 2016 Informatievoorziening Zorg en Ondersteuning
Databank Ondergrond Vlaanderen - 29/03/2003 Programma : - demo website DOV - vragen en korte pauze - achtergrond interpretaties. Lithologische beschrijving.
Hoofdstuk 4 – Gegevens analyseren
Flexibel en geavanceerd. Dat is het idee.
Data Maarten Terpstra en Peter le Clerq. 1.Wij denken dat bedrijven in toenemende mate data gebruiken voor toepassingen in marketing, sales, service,
Een digitale leeromgeving met inhoud
22 oktober 2014 NIEUWE STRUCTUUR VOOR REGISTRATIE ADRES M. Ruymen.
Handboek integrale veiligheid voor lokale besturen.
De schrijfhulp Nederlands, Nederlands voor anderstaligen en Engels
Durven met dienstverlening 15 oktober 2015
Ephorus plagiaatdetectie in Minerva Patrick Cool Directie ICT Afdeling Onderwijstechnologie.
Smart Traffic: pilot N201 Dataverrijking door combinatie met simulatie
MTAS Multi Tier Annotation Search
Hogeschool Rotterdam, Opleiding Vastgoed & Makelaardij drs. ing. M.M.A. Scheepers Collegejaar college.
123 Belangrijke voordelenWat is het? End-to-end mogelijkheden Creëer en versterk autonome flexibele teams Plaats kwaliteit centraal in alles wat u doet.
Variabelen. Wat zijn variabelen? In een programmeertaal zijn er “dingen” nodig die ervoor zorgen dat het programma informatie voor korte of langere tijd.
Periode 2 Bouwen en verzorgen van artikelpresentaties Kerntaak: Verzorgen ontvangst en verwerking van goederen Hoofdstuk: Bouwen en verzorgen van artikelpresentaties.
Dingen in de kring van nonverbaal naar verbaal en weer terug Suzanne van Norden en Lucie Visch Workshop Een vluchteling / asielzoekerskind in de groep.
Master Taal- en Letterkunde. Vervolgtrajecten na bachelor ‘Taal- en Letterkunde: Twee Talen’ Master taal- en letterkunde: traject twee talen traject twee.
Erfgeo.nl Historische geocoder Niene Boeijen Erfgoed en Locatie Waag society.
Master Taal- en Letterkunde. Vervolgtraject na schakeljaar traject één taal: Nederlands, Frans, Engels, Duits, Latijn.
Enabling innovation in construction Topic Training Funderingen Irca Schepers Customer Service Engineer 1.
PROJECT WETENSCHAPSPOPULARISERING DIALECTLOKET. Dialectloket Website voor het brede publiek met  Informatie over dialecten  Bandencollectie vakgroep.
Prognosemodel Instroom Bachelors DAIR Seminar 4 november 2010.
Infosessie Bachelor 3: curriculumregistratie curriculum onderzoekstaak Maandag 27 september 2010
Thema 4: Begeleiden van leerlingen met dyslexie Vakinhoudelijke begeleiding Moderne vreemde talen.
KNVI Congres Introductie BI.
Leerlingenprognose en Ruimtebehoefte
Lijsten maken en wijzigen
WoordenlijstBeheer Terminologie centraal in de archiefsector
Oefening met atlas en kaarten
Hoe werkt bibliografische software?
Psychologie Les 1: Introductie.
Lectora als ontwikkeltool voor interactieve multimedia programma’s
Processen Knelpunten Oplossingen
WinMAX97 Geschikt voor: Inhoudsanalyse
Bord in de Klas November 2016 AUTEURSRECHTELIJK BESCHERMD
Uitdagingen en oplossingsrichtingen
Leergang LOB: verdiepingsmodule
Talentontwikkeling op school Het ontwerpen van een programma voor talentontwikkeling door (aankomend) leraren.
Transcript van de presentatie:

Katrien Depuydt Track 3: Historische lexicondata

Doel van track 3  Groot historisch computationeel lexicon, gekoppeld aan de historische woordenboeken  Trainingmateriaal voor PoS-taggen en lemmatiseren historisch Nederlands

Het historisch lexicon Opbouw:  Toekenning “modern lemma” en woordsoort aan alle woordvormen  Attestatie-informatie bij de woordvormen  Koppeling met de historische woordenboeken

Toepassingen van het historisch lexicon  Gebruik bij automatische taalkundige verrijking  Referentie bij interpretatie teksten  Query-expansie: er kan met modern lemma als zoeksleutel gezocht worden

Toepassingen van het historisch lexicon

Hoe bouwen we het  WNT-gebaseerd IMPACT lexicon wordt basis  Uitbreiding met gegevens uit ONW, VMNW, MNW  Onderlinge koppeling van de woordenboeken zodat we daadwerkelijk een lexicon krijgen  Uitbreiding gebaseerd op corpusmateriaal (historisch en modern)

Ingrediënten basislexicon  ONW : 9268 ingangen, definities, citaten  VMNW: ingangen, definities, citaten  MNW: ingangen, definities, citaten  WNT: ingangen, definities, citaten  ingangen totaal:  betekenissen totaal:  citaten totaal:

Werkwijze: lexiconinhoud uit woordenboekcitaten

Uitgangspunt: WNT-module GiGaNT

Onderlinge koppeling woordenboeklemmata

Werkwijze: Corpusgebaseerde uitbreiding lexicon

Trainingmateriaal voor taggen en lemmatiseren  Omvang per periode en type materiaal: te bepalen!  Werkwijze: automatische voorbewerking en correctie in CoBaLT (vgl. Kenter, Erjavec, Ž orga Dulmin & Fiše 2012)  Integratie met basislexicon

Deliverables  D. 1.1 Uitbreiding van het GiGaNT-lexicon met de MNW- basismodule  D. 1.2 Uitbreding van het GiGaNT-lexicon met de VMNW- basismodule  D. 1.3 Uitbreiding van het GiGaNT-lexicon met de ONW- basismodule  D. 1.4 Eventueel uitbreiding van het GiGaNT-lexicon met modern materiaal  D. 1.5 Periodespecifieke sets van spellingvariatieregels die in combinatie met het lexicon als webservice gebruikt moeten worden bij de verrijking. Tool ontwikkeld binnen IMPACT. Onderzoek nodig naar grootte van de periode.  D. 1.6 Gold Standard corpusmateriaal voor het trainen van taggers en lemmatiseerders voor nog nader te definiëren periodes, en ter aanvulling van het lexiconmateriaal van de verschillende periodes.