De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Amsterdam Center for Language and Communication

Verwante presentaties


Presentatie over: "Amsterdam Center for Language and Communication"— Transcript van de presentatie:

1 Amsterdam Center for Language and Communication
Corpusonderzoek met behulp van automatisch gegenereerde syntactische annotatie Jelke Bloem

2 Automatisch geannoteerde corpora
De ‘big data’ van de taalkunde: Automatisch annoteren is sneller Automatisch annoteren is slordiger Met taaltechnologie geannoteerde tekstcorpora: ‘Treebank’ van syntactisch geannoteerde tekst Historische teksten met part-of-speech tags Corpus aangevuld met lexicaal-semantische informatie Corpusonderzoek met automatisch gegenereerde syntactische annotatie

3 Automatisch geannoteerde corpora
Niet vaak gebruikt door taalkundigen: Niet gebruiksvriendelijk? Verkeerde soort annotatie? Kwaliteit van de automatische annotatie? Vaak alleen algemene accuratesse-score Geen relevante evaluatie voor veel taalkundige onderzoeksvragen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

4 Inhoud Waarom moeten we naar zoveel data kijken? Voorbeelden
Mijn voorbeelden (werkwoordsclusters) Evaluatie van automatische annotatie Constructie-specifieke evaluatie Corpusonderzoek met automatisch gegenereerde syntactische annotatie

5 Waarom zoveel data? Corpusstudies naar zeldzame fenomenen
Gebruikspatronen van minder frequente woorden Studie naar kleine effecten van bepaalde factoren Grote steekproeven van een specifieke constructie Analyse van meer verschillende tekstsoorten en domeinen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

6 Studies op basis van automatische annotatie
Wanneer wordt het Duitse hulpwerkwoord voorop geplaatst? (Hinrichs and Beck, 2013) Welke werkwoorden doen dit, wat zijn de beperkingen Vergelijking met oudere teksten dass sie arbeiten können wird wird arbeiten können arbeiten lassen wird wird arbeiten lassen arbeiten sehen wird wird arbeiten sehen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

7 Studies op basis van automatische annotatie
Verwerving van heel, zeer, erg (Odijk, 2015) Parsed Childes. zeer is ambigu Heel kan A-predicaten modificeren, maar niet V of P Hoeveel evidentie voor dit onderscheid krijgen kinderen Hij is daar heel / erg / zeer blij mee (adjectivaal predicaat) Dat verbaast mij *heel / erg / zeer (werkwoordelijk predicaat) Corpusonderzoek met automatisch gegenereerde syntactische annotatie

8 Studies op basis van automatische annotatie
“Zoeken (naar)” en het complexiteitsprincipe (Pijpops et al, 2018) Analyse van eigenschappen van het object van ‘zoeken’ in deze constructie Meten van gemiddelde informatiedichtheid van het object Controleren voor verstorende factoren (bv. zinstype) Corpusonderzoek met automatisch gegenereerde syntactische annotatie

9 Voorbeeld: Werkwoordsclusters
Een woordvolgordevariatie: ik denk dat ik het begrepen2 heb1 I think that I it understood2 have1 ik denk dat ik het heb1 begrepen2 I think that I it have1 understood2 Wanneer welke volgorde? Green/red order, Ascending/descending order, Participle-final/Participle-first order begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

10 ‘Handmatige’ corpusstudie (de Sutter, 2009)
“De Standaard” in het CONDIV corpus (3.2M wrd.) Handmatig geannoteerd 2.390 handmatig gecontroleerde werkwoordsclusters onderzocht (66.99% 1-2 volgorde) 10 factoren die correleren met clustervolgorde bestudeerd o.a. Scheidbaarheid werkwoord: heeft afgewassen / af heeft gewassen begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

11 Waarom hierbij zoveel data
Waarom hierbij zoveel data? Collostructionele analyse van hoofdwerkwoorden in werkwoordsclusters Main verbs Odds ratio - Red - Green 1 --- kampen (to struggle) 2 --- zeggen  (to say) 3 --- danken  (to thank) 4 --- lijden   (to suffer) 5 --- munten (to target) 6 --- bedoelen (to intend) 7 --- bieden (to offer) Main verbs ---- Odds ratio - Red - Green 1 --- hangen  (to hang) 2 --- grijpen   (to grab) 3 --- staan  (to stand) 4 --- verrichten  (to execute/perform) 5 --- verlenen  (to grant) 6 --- goedkeuren   (to approve) 7 --- tonen (to show) Opnieuw doen met alleen ‘hebben’? Gebruikspatronen van werkwoorden binnen werkwoordsclusters begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

12 “Automatische” corpusstudie (Bloem, Versloot, Weerman, 2014)
Wikipedia-gedeelte van “Lassy Large” corpus, automatisch geannoteerd 145M wrd, clusters, 71.65% 1-2 order Replicatie van “handmatige studie”, resultaten kwamen grotendeels overeen Annotatiebeperkingen en annotatiefouten begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

13 Annotatiebeperkingen
Handmatige studie gebruikte ook prosodische informatie, niet automatisch beschikbaar Hulpwerkwoorden in verschillende functies: passief zijn zijn als ww van tijd zijn als koppelwerkwoord begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

14 Annotatiefouten: Hoe evalueren we nu?
Algemene accuratesse van de parser waarmee geannoteerd is Concept Accuracy (Alpino parser): Alpino parser: 86.52% accuratesse Alleen Wikipedia-domein: 88.38% Niet zo belangrijk bij onderzoek naar specifieke constructie aantal relaties correct totaal aantal relaties begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

15 Hoe evalueren we nu? Odijk (2015): Vergelijk met handmatig geannoteerde ‘gold standard’ Een gedeelte van CHILDES is handmatig geannoteerd Accuratesse berekend over alleen ‘heel/zeer/erg’ Er is niet altijd een gold standard beschikbaar Handmatige annotatie kan ook fouten bevatten begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

16 Wat doet de parser? Willekeurige fouten en systematische fouten
Vaker fout bij minder frequente constructies Vaker fout bij meer ambiguiteit Vaker fout bij grotere structuren, langere zinnen Vaste uitdrukkingen Vaker fout bij teksttypen waar niet op getraind is Fouten wanneer trainingsdata fouten/’fouten’ bevat ->Fouten deels afhankelijk van aard van de constructie begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

17 Constructie-specifieke evaluatie
Evalueer kwaliteit van annotatie alleen voor tweeledige werkwoordsclusters 4 mogelijkheden: Handmatige evaluatie van de zoekresultaten Handmatige evaluatie van tekst Terugvallen op eenvoudigere annotatielaag Naar specifieke gevallen zoeken begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

18 Handmatige evaluatie van de zoekresultaten
Zoek naar een specifieke constructie, en bepaal handmatig de precisie hiervan Kan nog altijd veel werk zijn Precision wordt gemeten, maar recall niet: een werkwoord dat als adjectief geannoteerd is, wordt niet opgemerkt Bloem et al. (2014) begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

19 Handmatige evaluatie van de zoekresultaten
Werkwoordsclusters in NL-Wikipedia (Lassy Large) Steekproef zinnen (0.13%), n=315 5 fouten handmatig gevonden, precisie van 0.984 Alle 5 gevallen waren ambigue adjectieven bvb. ‘de deur was gesloten’ -> Hoge precision op clusters van twee werkwoorden begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

20 Handmatige evaluatie van tekst
Lees een steekproef van de hele tekst, en markeer verkeerd geannoteerde gevallen. Test zowel ‘precision’ als ‘recall’ Geen voordeel meer van automatische annotatie Werkt alleen voor hoogfrequente constructies Maar: kijk altijd naar de data begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

21 Terugvallen op eenvoudigere annotatielaag
Grotere structuren zijn moeilijker: Lemmatisering, POS-tagging > parsing Zoekopdrachten gebaseerd op woordsoort zullen minder fouten bevatten Vergelijk met resultaten van syntactische zoekopdracht Hiermee kan ook ‘recall’ gevonden worden zonder de hele tekst te lezen begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

22 Eenvoudigere annotatie: voorbeeld
2. Voltooid deelwoord met finiet ww ernaast 1. Voltooid deelwoord, met finiet ww als hoofd begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

23 Eenvoudigere annotatie: evaluatie
Steekproef van zinnen n=315 met syntactisch zoeken, n=390 met POS in POS-zoekopdracht Recall met zoekfouten meegeteld, zonder Foutcategorie Frequentie Percentage Deel van groter cluster 56 74.7% Parseerfout 7 9.3% Zoekfout 12 16% begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

24 Naar specifieke gevallen zoeken
Kies een representatief geval van een constructie en zoek daarnaar: “hebben gehad” ‘string search’ onafhankelijk van annotatie Vergelijk ‘string search’ met syntactische zoekopdracht Goed om ‘recall’ te evalueren begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

25 Specifieke gevallen: voorbeeld
1. “hebben gehad” als werkwoordscluster 2. “hebben gehad” als string begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

26 Specifieke gevallen: evaluatie
Steekproef van zinnen n=4 met syntactisch zoeken, n=14 met string in string search ‘Recall’ = 0.8 Foutcategorie Frequentie Hoofdzincluster 9 Parseerfout 1 begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

27 Discussie Taalkundigen kunnen automatische annotatie evalueren zonder een heel corpus te lezen Bepaal precision en recall met meerdere methoden: Precision: Handmatige evaluatie zoekresultaten Recall: Naar specifieke gevallen zoeken Algemenere recall: Terugvallen naar eenvoudigere annotatielaag Meer inzicht in annotatiekwaliteit dan alleen accuracy % begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

28 Bibliografie begrepen heb | heb begrepen
Bloem, J., Versloot, A., and Weerman, F. (2014). Applyingautomatically parsed corpora to the study of language variation. In Jan Hajic et al., editors, Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers, pp. 1974–1984, Dublin, August. Dublin City University and Association for Computational Linguistics. J. Bloem (2016). Lexical preferences in Dutch verbal cluster ordering. In K. Bellamy, E. Karvovskaya, M. Kohlberger & G. Saad (Eds.), ConSOLE XXIII: Proceedings of the 23rd Conference of the Student Organization of Linguistics in Europe (pp ). Leiden: Leiden University Centre for Linguistics. De Sutter, G. (2009). Towards a multivariate model of grammar: The case of word order variation in Dutch clause final verb clusters. In A Dufter, et al., editors, Describing and Modeling Variation in Grammar, pp. 225–255. Walter De Gruyter. Hinrichs, E. and Beck, K. (2013). Auxiliary fronting in German: A walk in the woods. In The Twelfth Workshop on Treebanks and Linguistic Theories (TLT12), p. 61. van Noord, G., Bouma, G., Van Eynde, F., de Kok, D., Linde, J., Schuurman, I., Sang, E. T. K., and Vandeghinste, V. (2013). Large scale syntactic annotation of written Dutch: Lassy. In Peter Spyns et al., editors, Essential Speech and Language Technology for Dutch, Theory and Applications of Natural Language Processing, pp. 147–164. Springer Berlin. Odijk, J. (2015). Linguistic research with PaQu. Computational Linguistics in The Netherlands journal, 5: pp. 3–14. begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

29 Using GrETEL (Augustinus, Vandeghinste, and Van Eynde 2012)
Example-based treebank querying: ik denk dat ik het heb begrepen understood have | have understood Corpusonderzoek met automatisch gegenereerde syntactische annotatie

30 Using GrETEL: Output understood have | have understood
and and < and and and and understood have | have understood Corpusonderzoek met automatisch gegenereerde syntactische annotatie

31 Using DACT: Query-based… querying De Kok (2010)
Same query syntax: Insert the query that GrETEL produces understood have | have understood Corpusonderzoek met automatisch gegenereerde syntactische annotatie


Download ppt "Amsterdam Center for Language and Communication"

Verwante presentaties


Ads door Google