Syntactische Annotatie CHILDES

Slides:



Advertisements
Verwante presentaties
Dyscalculie Asli PEHLIVAN.
Advertisements

Een Gen voor Homoseksualiteit?
Kant-en-klare bouwstenen voor de CLARIN-infrastructuur
DokPlan.
TAALPROBLEMEN ODD ONE OUT.
Het krijgen van een kankerdiagnose, alsook het behandelingsproces, maakt het voor patiënten moeilijk om het leven ‘gewoon’ verder te zetten. De ervaring.
C-DSD: Curating the Dutch Song Database (Nederlandse Liederenbank) C-DSD Martine de Bruin.
WELKOM op de 2e SKML-IZS deelnemersmiddag
Aanpassing van linguïstische modules voor ondertiteling Beschrijving en Evaluatie van de huidige zinsreductiesoftware.
Vakliteratuur opzoeken Lieve Devos. LibriSource+ Nieuw portaal voor toegang tot elektronische bronnen Gemeenschappelijk platform.
Reductie van aantal OOV- woorden dmv lexiconuitbreiding Vincent Vandeghinste Centrum voor Computerlinguïstiek KULeuven.
Verschilmetingen Geraldine Clarebout CIP&T / itec K.U.Leuven Studiedag OOF project: Didactische scenario’s voor een goed gebruik van webcolleges09/02/2010.
Prosodie.
Natuurlijke Taalverwerking
Natuurlijke taalverwerking week 4
Inleiding tot marktonderzoek
Dutch Parallel Corpus Een multilinguaal & multifunctioneel corpus Accenta 2007 Donderdag 20 september.
30 juni Deze morgen Vorige bijeenkomst: –een concepthierarchie van kernbegrippen in Logic & Language vakgebied (o.b.v. glossary) Vandaag: –Jon:
Uitspraak trainen met een computer: is dat mogelijk? Ambra Neri Catia Cucchiarini, Helmer Strik Radboud Universiteit Nijmegen, CLST.
Digitaal inschrijven VO
1 CLARIN - NL Taal en Spraaktechnologie in een Infrastructuur voor Geesteswetenschappers Jan Odijk Utrecht, 11 juni 2010.
Project Text To Speech Wat houdt het text-to-speech project in
PRESENTATIES IN A NUTSHELL.
Page 1 HiSPARC FPGA & software aanpassingen Rais Mense.
Scriptieseminarie 3 Methode – Experimenteel onderzoek
ONLINE VERBONDEN EN INTELLIGENTE COMPUTERS Semantisch web Tom Schurmans Gunter Fransen Nand Truyen Nele Lieben.
TOOLS FOR STRUGGLING WRITERS ASSISTIVE TECHNOLOGY FOR WRITING Evy Jansen.
Lokaliseren en volgen van personen en objecten met behulp van camera’s Informatie Scriptieprijs November 2007 Sofie De Cooman.
Word kapitein van je project Doe ook mee !
Onderwijs aan kinderen met aan autisme verwante stoornissen
Het Mezennestje vzw KDV & BOKDV.  Voorschoolse opvang van 6u30 tot 9u  Naschoolse opvang van 15u30 tot 19u  Woensdagnamiddag van 12u tot 19u  Vakantie-
Hogeschool van Amsterdam - Interactieve Media – Internet Development – Jochem Meuwese - -
Stage: Basisschool de Klingerberg
Jaarverslag & Thema-avond ‘Ouderbetrokkenheid’
WAI-NOT Internet voor mensen met een mentale beperking
1 Inzicht in de kans op chemotherapie-geïnduceerde alopecia Corina van den Hurk Onderzoeker Post-Doc.
Tutoring Ba1-Ba3 Samenvattingen leren schrijven. In het begin was er… Een probleem… … en een wild idee!
 Sensibilisering  Het begin  De kerngroep  De enquête  Blackboard  Werving respondenten  Alcohol  Medicatie.
Opvoeden praktisch bekeken Bieke Van Severen 1BaO C SADAN-Opdracht.
Business Intelligence in Credit Management Noordwijkerhout, 24 maart 2011 Dennis van Essen | EMEA Sales.
Welkom in groep 8. Waar gaan we het over hebben? Wie zijn wij? Hoe ziet onze dag er uit? Wat leren we in groep 8 Afspraken bij de gymles Huiswerk Voor.
De verwerving van de verleden tijd door Nederlandstalige kinderen De invloed van het taalaanbod en semantische predisposities Margot Rozendaal Scriptiepresentatie.
1 van 22 Hoofdstuk 5 Geletterdheid: lezen. 2 van 22 Achtergrondkennis Kennis over lezen: o kennis van de wereld o kennis van de taal:  orthografische.
Zelfhulpgroepen voor allochtonen werkt! Zelfhulpgroepen voor allochtonen werkt!
Problemen in de interactie en communicatie bij kinderen met een aan autisme verwante stoornis. M. Serra & R.B. Minderaa.
Social intranet Donderdag 19 november Even voorstellen… Erica van de Veen Communicatiemedewerker Gemeente Putten 2.
Door Ben Cokelaere, student Howest Galaxy pipelines voor de analyse van omics data.
Goed of Fout Jan Odijk & Gertjan van Noord CLARIAH-middag Amersfoort,
OSR onderzoek Tevredenheid schoolleiders kwaliteit OSR-opgeleide docenten.
Welkom bij de ouderkring groep 4/ Inhoud van de avond 1.Contactouders. 2.Methode begrijpend lezen 3.Methode rekenen 4.Methode estafette.
1 van 8 Hoofdstuk 7 Taalbeschouwing. 2 van 8 Wat is taalbeschouwing? Taalbeschouwing als vijfde domein naast lezen, schrijven, luisteren, spreken Taalbeschouwing.
Ergotherapie bij Dementerende Ouderen en hun Mantelzorger Aan Huis
Het onderzoeksverslag
Tevredenheid schoolleiders kwaliteit OSR-opgeleide docenten
19 november 2014 Dr. Carina Wiekens Lectoraat Netintegratie
Inleiding tot marktonderzoek
Ontwikkelingspsychologie voor het Onderwijs Inleiding
Netweten Cyberpesten.
Intra-auteurvariatie in negatie: de brieven van P.C. Hooft
Coherentierelaties annoteren
GrETEL 4: Beter zoeken.
ETUDE Toetsservicesysteem
Mens & Maatschappij D-Toets
Mens & Maatschappij D-Toets
Betrokken ouder, tevreden ouder
Afkoppelen hemelwater bedrijven Noord- en Midden-Limburg Bijeenkomst 25 januari 2018 Presentatie onderzoek ‘afkoppelen hemelwater bedrijven Noord- en.
Opleiding Technicus / Certyfying Staff
Amsterdam Center for Language and Communication
Het bos van de Nederlandse zinsbouw? Ik dacht van ik weet de weg wel.
Transcript van de presentatie:

Syntactische Annotatie CHILDES AnnCor Syntactische Annotatie CHILDES Meie Otten en Remco van der Veen Marjo van Koppen en Jan Odijk

Syntactische Annotatie Achtergrond Alpino parser: geeft syntactische structuren aan Nederlandse zinnen  Accuraatheid van Alpino is 90% als het gaat om geschreven volwassen uitingen CHILDES: bestaat uit gesproken volwassen- en kindertaal  De data in CHILDES is niet voorzien van syntactische informatie Combineren van CHILDES data en Alpino: het CHILDES corpus kan verrijkt worden met POS-tags en syntactische structuur Helaas geeft dit ongewenste analyses in Alpino

Doelen Tweedelig doel 1. Het verbeteren van de toegankelijkheid van CHILDES Door ongewenste analyses in Alpino handmatig te corrigeren 2. Inzicht krijgen in de manier waarop kinderen taal verwerven en deze kindertaalverwerving plaatsen in een kader van volwassen taaluniversalia  Een bijkomstig doel

Methode Subcorpora van CHILDES - Van Kampen corpus - Longitudinaal - Moeder-dochter - Ongestructureerde setting - Maandelijks opgenomen Kind Leeftijd Laura 1;9 – 5;6 Sarah 1;6 – 5;2

Methode Procedure Getranscribeerde CHA-files van CHILDES genereren in XML lijsten in Alpino.  Syntactische bomen in Alpino volgens HPSG syntaxis De syntactische bomen analyseren volgens LASSY documentatie en POS manual  Als het nodig is de syntactische boom aanpassen Checkprogramma Jan Odijk en controle collega De aangepaste lijst plaatsen in de zoekmachine GrETEL

Analyses: moeilijkheden Transcriptie problemen ‘xxx’ voor Script fouten Gecorrigeerde zin met vishaakje ‘xxx’ voor onduidelijke spraak Fouten in het script

Analyses: moeilijkheden ‘Foute’ analyses door Alpino Automatisch gerunde analyses

Analyses: moeilijkheden Kindergrammatica Gecorrigeerde kindertaal

Analyses: moeilijkheden Samentrekkingen ‘das leuk’ gecorrigeerd

Analyses: moeilijkheden Herformulering: gesproken taal effect gecorrigeerde zin met herformulering

Resultaten 49200 uitingen door de eerste ronde gehaald sinds het begin van het project in 2015 33650 uitingen gereed om terug in GrETEL te plaatsen Grote documentatie v6.0 Inter Annotator Agreement: een score van 86% Checkprogramma van Jan Odijk

Toekomstplannen project Annoteren, analyseren en waar nodig aanpassen van de rest van het Van Kampen corpus in CHILDES Meer gebruik maken van het Jan Odijk checkprogramma en verbeterpunten aanleveren

Conclusie Syntactische annotatie van gesproken kindertaal versus syntactische annotatie van geschreven volwassentaal Een zorgvuldige en ethische aanpak is vereist Het belang van een uitgebreide documentatie Het interpreteren van rauwe data: niet ideaal maar soms noodzakelijk

Referenties Eynde, van F. (2005). Part of speech tagging en lemmatisering van het D-COI corpus. Retrieved from http://www.let.rug.nl/vannoord/Lassy/POS_manual.pdf Hoekstra, H., Moortgat, M., Renmans, B., Schouppe, M., Schuurman, I., & Van der Wouden, T. (2003). CGN syntactische annotatie. Retrieved from http://lands.let.ru.nl/cgn/doc_Dutch/topics/version_1.0/annot/syntax/syn_prot.pdf Noord, van G., I. Schuurman, G. Bouma (2011). Lassy Syntactische Annotatie. Retrieved from http://www.let.rug.nl/vannoord/Lassy/sa-man_lassy.pdf Noord, van G. Online Alpino Parser: automatic syntactic analysis of Dutch. http://www.let.rug.nl/vannoord/bin/alpino Pajas, P. & Fabian, P. (2014). Tree Editor TrEd (Version 2.5049) [Software]. Available from http://ufal.mff.cuni.cz/tred/ Renckens, E. (2011). Mens en computer ontleden even goed. Retrieved from https://www.nemokennislink.nl/publicaties/mens-en-computer-ontleden-even-goed (2003). CHILDES Child Language Data Exchange System. Retrieved from http://childes.psy.cmu.edu/