Amsterdam Center for Language and Communication Corpusonderzoek met behulp van automatisch gegenereerde syntactische annotatie Jelke Bloem
Automatisch geannoteerde corpora De ‘big data’ van de taalkunde: Automatisch annoteren is sneller Automatisch annoteren is slordiger Met taaltechnologie geannoteerde tekstcorpora: ‘Treebank’ van syntactisch geannoteerde tekst Historische teksten met part-of-speech tags Corpus aangevuld met lexicaal-semantische informatie Corpusonderzoek met automatisch gegenereerde syntactische annotatie
Automatisch geannoteerde corpora Niet vaak gebruikt door taalkundigen: Niet gebruiksvriendelijk? Verkeerde soort annotatie? Kwaliteit van de automatische annotatie? Vaak alleen algemene accuratesse-score Geen relevante evaluatie voor veel taalkundige onderzoeksvragen Corpusonderzoek met automatisch gegenereerde syntactische annotatie
Inhoud Waarom moeten we naar zoveel data kijken? Voorbeelden Mijn voorbeelden (werkwoordsclusters) Evaluatie van automatische annotatie Constructie-specifieke evaluatie Corpusonderzoek met automatisch gegenereerde syntactische annotatie
Waarom zoveel data? Corpusstudies naar zeldzame fenomenen Gebruikspatronen van minder frequente woorden Studie naar kleine effecten van bepaalde factoren Grote steekproeven van een specifieke constructie Analyse van meer verschillende tekstsoorten en domeinen Corpusonderzoek met automatisch gegenereerde syntactische annotatie
Studies op basis van automatische annotatie Wanneer wordt het Duitse hulpwerkwoord voorop geplaatst? (Hinrichs and Beck, 2013) Welke werkwoorden doen dit, wat zijn de beperkingen Vergelijking met oudere teksten dass sie arbeiten können wird wird arbeiten können arbeiten lassen wird wird arbeiten lassen arbeiten sehen wird wird arbeiten sehen Corpusonderzoek met automatisch gegenereerde syntactische annotatie
Studies op basis van automatische annotatie Verwerving van heel, zeer, erg (Odijk, 2015) Parsed Childes. zeer is ambigu Heel kan A-predicaten modificeren, maar niet V of P Hoeveel evidentie voor dit onderscheid krijgen kinderen Hij is daar heel / erg / zeer blij mee (adjectivaal predicaat) Dat verbaast mij *heel / erg / zeer (werkwoordelijk predicaat) Corpusonderzoek met automatisch gegenereerde syntactische annotatie
Studies op basis van automatische annotatie “Zoeken (naar)” en het complexiteitsprincipe (Pijpops et al, 2018) Analyse van eigenschappen van het object van ‘zoeken’ in deze constructie Meten van gemiddelde informatiedichtheid van het object Controleren voor verstorende factoren (bv. zinstype) Corpusonderzoek met automatisch gegenereerde syntactische annotatie
Voorbeeld: Werkwoordsclusters Een woordvolgordevariatie: ik denk dat ik het begrepen2 heb1 I think that I it understood2 have1 ik denk dat ik het heb1 begrepen2 I think that I it have1 understood2 Wanneer welke volgorde? Green/red order, Ascending/descending order, Participle-final/Participle-first order begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie
‘Handmatige’ corpusstudie (de Sutter, 2009) “De Standaard” in het CONDIV corpus (3.2M wrd.) Handmatig geannoteerd 2.390 handmatig gecontroleerde werkwoordsclusters onderzocht (66.99% 1-2 volgorde) 10 factoren die correleren met clustervolgorde bestudeerd o.a. Scheidbaarheid werkwoord: heeft afgewassen / af heeft gewassen begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie
Waarom hierbij zoveel data Waarom hierbij zoveel data? Collostructionele analyse van hoofdwerkwoorden in werkwoordsclusters Main verbs ------- Odds ratio - Red - Green 1 --- kampen 71.75 6 157 (to struggle) 2 --- zeggen 44.43 4 65 (to say) 3 --- danken 25.11 44 400 (to thank) 4 --- lijden 12.16 32 142 (to suffer) 5 --- munten 6.26 24 55 (to target) 6 --- bedoelen 5.67 26 54 (to intend) 7 --- bieden 5.43 69 137 (to offer) Main verbs ---- Odds ratio - Red - Green 1 --- hangen 5.03 55 4 (to hang) 2 --- grijpen 4.39 60 5 (to grab) 3 --- staan 4.14 1271 107 (to stand) 4 --- verrichten 3.91 161 15 (to execute/perform) 5 --- verlenen 3.65 110 11 (to grant) 6 --- goedkeuren 3.44 47 5 (to approve) 7 --- tonen 3.04 100 12 (to show) Opnieuw doen met alleen ‘hebben’? Gebruikspatronen van werkwoorden binnen werkwoordsclusters begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie
“Automatische” corpusstudie (Bloem, Versloot, Weerman, 2014) Wikipedia-gedeelte van “Lassy Large” corpus, automatisch geannoteerd 145M wrd, 411.623 clusters, 71.65% 1-2 order Replicatie van “handmatige studie”, resultaten kwamen grotendeels overeen Annotatiebeperkingen en annotatiefouten begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie
Annotatiebeperkingen Handmatige studie gebruikte ook prosodische informatie, niet automatisch beschikbaar Hulpwerkwoorden in verschillende functies: passief zijn zijn als ww van tijd zijn als koppelwerkwoord begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie
Annotatiefouten: Hoe evalueren we nu? Algemene accuratesse van de parser waarmee geannoteerd is Concept Accuracy (Alpino parser): Alpino parser: 86.52% accuratesse Alleen Wikipedia-domein: 88.38% Niet zo belangrijk bij onderzoek naar specifieke constructie aantal relaties correct totaal aantal relaties begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie
Hoe evalueren we nu? Odijk (2015): Vergelijk met handmatig geannoteerde ‘gold standard’ Een gedeelte van CHILDES is handmatig geannoteerd Accuratesse berekend over alleen ‘heel/zeer/erg’ Er is niet altijd een gold standard beschikbaar Handmatige annotatie kan ook fouten bevatten begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie
Wat doet de parser? Willekeurige fouten en systematische fouten Vaker fout bij minder frequente constructies Vaker fout bij meer ambiguiteit Vaker fout bij grotere structuren, langere zinnen Vaste uitdrukkingen Vaker fout bij teksttypen waar niet op getraind is Fouten wanneer trainingsdata fouten/’fouten’ bevat ->Fouten deels afhankelijk van aard van de constructie begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie
Constructie-specifieke evaluatie Evalueer kwaliteit van annotatie alleen voor tweeledige werkwoordsclusters 4 mogelijkheden: Handmatige evaluatie van de zoekresultaten Handmatige evaluatie van tekst Terugvallen op eenvoudigere annotatielaag Naar specifieke gevallen zoeken begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie
Handmatige evaluatie van de zoekresultaten Zoek naar een specifieke constructie, en bepaal handmatig de precisie hiervan Kan nog altijd veel werk zijn Precision wordt gemeten, maar recall niet: een werkwoord dat als adjectief geannoteerd is, wordt niet opgemerkt Bloem et al. (2014) begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie
Handmatige evaluatie van de zoekresultaten Werkwoordsclusters in NL-Wikipedia (Lassy Large) Steekproef 10.000 zinnen (0.13%), n=315 5 fouten handmatig gevonden, precisie van 0.984 Alle 5 gevallen waren ambigue adjectieven bvb. ‘de deur was gesloten’ -> Hoge precision op clusters van twee werkwoorden begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie
Handmatige evaluatie van tekst Lees een steekproef van de hele tekst, en markeer verkeerd geannoteerde gevallen. Test zowel ‘precision’ als ‘recall’ Geen voordeel meer van automatische annotatie Werkt alleen voor hoogfrequente constructies Maar: kijk altijd naar de data begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie
Terugvallen op eenvoudigere annotatielaag Grotere structuren zijn moeilijker: Lemmatisering, POS-tagging > parsing Zoekopdrachten gebaseerd op woordsoort zullen minder fouten bevatten Vergelijk met resultaten van syntactische zoekopdracht Hiermee kan ook ‘recall’ gevonden worden zonder de hele tekst te lezen begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie
Eenvoudigere annotatie: voorbeeld 2. Voltooid deelwoord met finiet ww ernaast 1. Voltooid deelwoord, met finiet ww als hoofd begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie
Eenvoudigere annotatie: evaluatie Steekproef van 10.000 zinnen n=315 met syntactisch zoeken, n=390 met POS in POS-zoekopdracht Recall 0.943 met zoekfouten meegeteld, 0.978 zonder Foutcategorie Frequentie Percentage Deel van groter cluster 56 74.7% Parseerfout 7 9.3% Zoekfout 12 16% begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie
Naar specifieke gevallen zoeken Kies een representatief geval van een constructie en zoek daarnaar: “hebben gehad” ‘string search’ onafhankelijk van annotatie Vergelijk ‘string search’ met syntactische zoekopdracht Goed om ‘recall’ te evalueren begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie
Specifieke gevallen: voorbeeld 1. “hebben gehad” als werkwoordscluster 2. “hebben gehad” als string begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie
Specifieke gevallen: evaluatie Steekproef van 300.000 zinnen n=4 met syntactisch zoeken, n=14 met string in string search ‘Recall’ = 0.8 Foutcategorie Frequentie Hoofdzincluster 9 Parseerfout 1 begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie
Discussie Taalkundigen kunnen automatische annotatie evalueren zonder een heel corpus te lezen Bepaal precision en recall met meerdere methoden: Precision: Handmatige evaluatie zoekresultaten Recall: Naar specifieke gevallen zoeken Algemenere recall: Terugvallen naar eenvoudigere annotatielaag Meer inzicht in annotatiekwaliteit dan alleen accuracy % begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie
Bibliografie begrepen heb | heb begrepen Bloem, J., Versloot, A., and Weerman, F. (2014). Applyingautomatically parsed corpora to the study of language variation. In Jan Hajic et al., editors, Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers, pp. 1974–1984, Dublin, August. Dublin City University and Association for Computational Linguistics. J. Bloem (2016). Lexical preferences in Dutch verbal cluster ordering. In K. Bellamy, E. Karvovskaya, M. Kohlberger & G. Saad (Eds.), ConSOLE XXIII: Proceedings of the 23rd Conference of the Student Organization of Linguistics in Europe (pp. 70-93). Leiden: Leiden University Centre for Linguistics. De Sutter, G. (2009). Towards a multivariate model of grammar: The case of word order variation in Dutch clause final verb clusters. In A Dufter, et al., editors, Describing and Modeling Variation in Grammar, pp. 225–255. Walter De Gruyter. Hinrichs, E. and Beck, K. (2013). Auxiliary fronting in German: A walk in the woods. In The Twelfth Workshop on Treebanks and Linguistic Theories (TLT12), p. 61. van Noord, G., Bouma, G., Van Eynde, F., de Kok, D., Linde, J., Schuurman, I., Sang, E. T. K., and Vandeghinste, V. (2013). Large scale syntactic annotation of written Dutch: Lassy. In Peter Spyns et al., editors, Essential Speech and Language Technology for Dutch, Theory and Applications of Natural Language Processing, pp. 147–164. Springer Berlin. Odijk, J. (2015). Linguistic research with PaQu. Computational Linguistics in The Netherlands journal, 5: pp. 3–14. begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie
Using GrETEL (Augustinus, Vandeghinste, and Van Eynde 2012) Example-based treebank querying: ik denk dat ik het heb begrepen http://gretel.ccl.kuleuven.be/gretel-2.0/ understood have | have understood Corpusonderzoek met automatisch gegenereerde syntactische annotatie
Using GrETEL: Output understood have | have understood //node[@cat="ssub" and node[@rel="hd" and @root="heb" and @pos="verb" and number(@begin) < number(../node[@rel="vc" and @cat="ppart"]/node[@rel="hd" and @pos="verb"]/@begin)] and node[@rel="vc" and @cat="ppart" and node[@rel="hd" and @pos="verb"]]] understood have | have understood Corpusonderzoek met automatisch gegenereerde syntactische annotatie
Using DACT: Query-based… querying De Kok (2010) Same query syntax: Insert the query that GrETEL produces understood have | have understood Corpusonderzoek met automatisch gegenereerde syntactische annotatie