Syntactische Annotatie CHILDES AnnCor Syntactische Annotatie CHILDES Meie Otten en Remco van der Veen Marjo van Koppen en Jan Odijk
Syntactische Annotatie Achtergrond Alpino parser: geeft syntactische structuren aan Nederlandse zinnen Accuraatheid van Alpino is 90% als het gaat om geschreven volwassen uitingen CHILDES: bestaat uit gesproken volwassen- en kindertaal De data in CHILDES is niet voorzien van syntactische informatie Combineren van CHILDES data en Alpino: het CHILDES corpus kan verrijkt worden met POS-tags en syntactische structuur Helaas geeft dit ongewenste analyses in Alpino
Doelen Tweedelig doel 1. Het verbeteren van de toegankelijkheid van CHILDES Door ongewenste analyses in Alpino handmatig te corrigeren 2. Inzicht krijgen in de manier waarop kinderen taal verwerven en deze kindertaalverwerving plaatsen in een kader van volwassen taaluniversalia Een bijkomstig doel
Methode Subcorpora van CHILDES - Van Kampen corpus - Longitudinaal - Moeder-dochter - Ongestructureerde setting - Maandelijks opgenomen Kind Leeftijd Laura 1;9 – 5;6 Sarah 1;6 – 5;2
Methode Procedure Getranscribeerde CHA-files van CHILDES genereren in XML lijsten in Alpino. Syntactische bomen in Alpino volgens HPSG syntaxis De syntactische bomen analyseren volgens LASSY documentatie en POS manual Als het nodig is de syntactische boom aanpassen Checkprogramma Jan Odijk en controle collega De aangepaste lijst plaatsen in de zoekmachine GrETEL
Analyses: moeilijkheden Transcriptie problemen ‘xxx’ voor Script fouten Gecorrigeerde zin met vishaakje ‘xxx’ voor onduidelijke spraak Fouten in het script
Analyses: moeilijkheden ‘Foute’ analyses door Alpino Automatisch gerunde analyses
Analyses: moeilijkheden Kindergrammatica Gecorrigeerde kindertaal
Analyses: moeilijkheden Samentrekkingen ‘das leuk’ gecorrigeerd
Analyses: moeilijkheden Herformulering: gesproken taal effect gecorrigeerde zin met herformulering
Resultaten 49200 uitingen door de eerste ronde gehaald sinds het begin van het project in 2015 33650 uitingen gereed om terug in GrETEL te plaatsen Grote documentatie v6.0 Inter Annotator Agreement: een score van 86% Checkprogramma van Jan Odijk
Toekomstplannen project Annoteren, analyseren en waar nodig aanpassen van de rest van het Van Kampen corpus in CHILDES Meer gebruik maken van het Jan Odijk checkprogramma en verbeterpunten aanleveren
Conclusie Syntactische annotatie van gesproken kindertaal versus syntactische annotatie van geschreven volwassentaal Een zorgvuldige en ethische aanpak is vereist Het belang van een uitgebreide documentatie Het interpreteren van rauwe data: niet ideaal maar soms noodzakelijk
Referenties Eynde, van F. (2005). Part of speech tagging en lemmatisering van het D-COI corpus. Retrieved from http://www.let.rug.nl/vannoord/Lassy/POS_manual.pdf Hoekstra, H., Moortgat, M., Renmans, B., Schouppe, M., Schuurman, I., & Van der Wouden, T. (2003). CGN syntactische annotatie. Retrieved from http://lands.let.ru.nl/cgn/doc_Dutch/topics/version_1.0/annot/syntax/syn_prot.pdf Noord, van G., I. Schuurman, G. Bouma (2011). Lassy Syntactische Annotatie. Retrieved from http://www.let.rug.nl/vannoord/Lassy/sa-man_lassy.pdf Noord, van G. Online Alpino Parser: automatic syntactic analysis of Dutch. http://www.let.rug.nl/vannoord/bin/alpino Pajas, P. & Fabian, P. (2014). Tree Editor TrEd (Version 2.5049) [Software]. Available from http://ufal.mff.cuni.cz/tred/ Renckens, E. (2011). Mens en computer ontleden even goed. Retrieved from https://www.nemokennislink.nl/publicaties/mens-en-computer-ontleden-even-goed (2003). CHILDES Child Language Data Exchange System. Retrieved from http://childes.psy.cmu.edu/