Download de presentatie
De presentatie wordt gedownload. Even geduld aub
GepubliceerdChristiana Verhoeven Laatst gewijzigd meer dan 6 jaar geleden
1
Syntactische Annotatie CHILDES
AnnCor Syntactische Annotatie CHILDES Meie Otten en Remco van der Veen Marjo van Koppen en Jan Odijk
2
Syntactische Annotatie
Achtergrond Alpino parser: geeft syntactische structuren aan Nederlandse zinnen Accuraatheid van Alpino is 90% als het gaat om geschreven volwassen uitingen CHILDES: bestaat uit gesproken volwassen- en kindertaal De data in CHILDES is niet voorzien van syntactische informatie Combineren van CHILDES data en Alpino: het CHILDES corpus kan verrijkt worden met POS-tags en syntactische structuur Helaas geeft dit ongewenste analyses in Alpino
3
Doelen Tweedelig doel 1. Het verbeteren van de toegankelijkheid van CHILDES Door ongewenste analyses in Alpino handmatig te corrigeren 2. Inzicht krijgen in de manier waarop kinderen taal verwerven en deze kindertaalverwerving plaatsen in een kader van volwassen taaluniversalia Een bijkomstig doel
4
Methode Subcorpora van CHILDES - Van Kampen corpus - Longitudinaal
- Moeder-dochter - Ongestructureerde setting - Maandelijks opgenomen Kind Leeftijd Laura 1;9 – 5;6 Sarah 1;6 – 5;2
5
Methode Procedure Getranscribeerde CHA-files van CHILDES genereren in XML lijsten in Alpino. Syntactische bomen in Alpino volgens HPSG syntaxis De syntactische bomen analyseren volgens LASSY documentatie en POS manual Als het nodig is de syntactische boom aanpassen Checkprogramma Jan Odijk en controle collega De aangepaste lijst plaatsen in de zoekmachine GrETEL
6
Analyses: moeilijkheden
Transcriptie problemen ‘xxx’ voor Script fouten Gecorrigeerde zin met vishaakje ‘xxx’ voor onduidelijke spraak Fouten in het script
7
Analyses: moeilijkheden
‘Foute’ analyses door Alpino Automatisch gerunde analyses
8
Analyses: moeilijkheden
Kindergrammatica Gecorrigeerde kindertaal
9
Analyses: moeilijkheden
Samentrekkingen ‘das leuk’ gecorrigeerd
10
Analyses: moeilijkheden
Herformulering: gesproken taal effect gecorrigeerde zin met herformulering
11
Resultaten 49200 uitingen door de eerste ronde gehaald sinds het begin van het project in 2015 33650 uitingen gereed om terug in GrETEL te plaatsen Grote documentatie v6.0 Inter Annotator Agreement: een score van 86% Checkprogramma van Jan Odijk
12
Toekomstplannen project
Annoteren, analyseren en waar nodig aanpassen van de rest van het Van Kampen corpus in CHILDES Meer gebruik maken van het Jan Odijk checkprogramma en verbeterpunten aanleveren
13
Conclusie Syntactische annotatie van gesproken kindertaal versus syntactische annotatie van geschreven volwassentaal Een zorgvuldige en ethische aanpak is vereist Het belang van een uitgebreide documentatie Het interpreteren van rauwe data: niet ideaal maar soms noodzakelijk
14
Referenties Eynde, van F. (2005). Part of speech tagging en lemmatisering van het D-COI corpus. Retrieved from Hoekstra, H., Moortgat, M., Renmans, B., Schouppe, M., Schuurman, I., & Van der Wouden, T. (2003). CGN syntactische annotatie. Retrieved from Noord, van G., I. Schuurman, G. Bouma (2011). Lassy Syntactische Annotatie. Retrieved from Noord, van G. Online Alpino Parser: automatic syntactic analysis of Dutch. Pajas, P. & Fabian, P. (2014). Tree Editor TrEd (Version ) [Software]. Available from Renckens, E. (2011). Mens en computer ontleden even goed. Retrieved from (2003). CHILDES Child Language Data Exchange System. Retrieved from
Verwante presentaties
© 2024 SlidePlayer.nl Inc.
All rights reserved.