Amsterdam Center for Language and Communication

Slides:

Advertisements

Verwante presentaties

Week 9: Probabilistische Grammatica's Jurafsky & Martin (ed. 1), Hoofdstuk 12: Lexicalized and Probabilistic Parsing) Taaltheorie en Taalverwerking Remko.

Advertisements

Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.

Onderzoek naar competentiegericht beoordelen in het groene onderwijs

Laurens van der Maaten IKAT / ROB

Nederlab Laboratory for research on the patterns of change in the Dutch language and culture Kickoff, 25 januari, 2013 Meertens Instituut, Amsterdam.

All Media are SOCIAL Eenleven zonder media, is dat mogelijk? Media spelen een belangrijke rol in ons sociale leven en zijn een primaire levensbehoefte.

Onderwijs ontwerpen voor het leren oplossen van informatie-problemen Iwan Wopereis Centre for Learning Sciences and Technologies (CELSTEC) Open University.

Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.

thema's weinig over puur “onderwerpsontsluiting” onderwerpsontsluiting full-text zoeken user / looser generated content catalogiseren / titelbeschrijven.

1 Facilitating Online Learning Conversations Exploring tool affordances in higher education Jakko van der Pol IVLOS, UU/ Onderwijscentrum VU.

Veel procesmodellen? Weggooien of... serieus beheren! Remco Dijkman.

Base: bewerkingen 2 soorten - Oplopend- Aflopend.

Variatie in betekenis Werkgroepopdracht 1b.

Situational Influences on the Use of Communication Technologies A Meta-Analysis and Exploratory Study B. van den Hooff, J. Groot, S. de Jonge.

Aanpassing van linguïstische modules voor ondertiteling Beschrijving en Evaluatie van de huidige zinsreductiesoftware.

Reductie van aantal OOV- woorden dmv lexiconuitbreiding Vincent Vandeghinste Centrum voor Computerlinguïstiek KULeuven.

The new Amazon Easy Intuitive Clean Powerful Tags User friendly.

Opdracht 2. premisse: het Nederlandse over in contexten waarin het vertaald wordt door about is een instantiatie van de focus-of- attention sense incorrecte.

Processing Unknown Words Wouter Schellekens Merlijn Hutteman.

Gegevensverwerving en verwerking

Natuurlijke taalverwerking week 4

Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997.

Challenge the future Delft University of Technology TBM Onderwijsdag 2012 Succesvol betrekken afstudeerders bij onderzoek: LR Erwin Mooij, Space.

Dutch Parallel Corpus Multilinguaal & multifunctioneel

30 juni Deze morgen Vorige bijeenkomst: –een concepthierarchie van kernbegrippen in Logic & Language vakgebied (o.b.v. glossary) Vandaag: –Jon:

The relevance of recall and precision in user evaluation Louise T. Su Journal of the American Society of Information Science 1994.

Implementing Cross-Language Text Retrieval Systems for Large-scale text Collections and the World Wide Web n Mark W. Davis and William C.Ogden n AAAI 1997.

COAVA Demonstratie en curatie (CLARIN-NL, tweede ronde) Folkert de Vriend 09/02/2011.

Hoofdstuk 4 – Gegevens analyseren

J OBTEVREDENHEID The interaction of Job Satisfaction, Job Search, and Job Changes Cornelißen, T. (2009). The Interaction of Job Satisfaction, Job Search,

Scriptieseminarie 3 Methode – Experimenteel onderzoek

MET DANK AAN COLLEGA’S IN DEN LANDE ! vee 2012

Dr. G.H.W. Verrips Waarom, wat en hoe Kwaliteit van Leven.

Nederlandse Organisatie voor Wetenschappelijk Onderzoek Hans BennisMeertens Instituut (KNAW)

Baarde en de goede Hoofdstuk 11: Data-analyse

Deltion College Engels B1 Lezen [no. 001] can-do : 2 products compared.

Informatievaardigheden Feedback BPE Marja Maclaine Pont Bibliotheek Wageningen UR 29 september 2011.

Hogeschool van Amsterdam - Interactieve Media – Internet Development – Jochem Meuwese - -

Peerfeedback Didactische cursus 2015.

20 mei Symposium Statistical Auditing Slide 1 Wat zegt de COS over steekproeven en data-analyse? Paul van Batenburg.

Papier of Elektronisch 2 portfolio implementaties bij Geneeskunde Maarten van Wesel & Anouk Prop.

Search engines welk instrument voor welke taak eric sieverts Universiteitsbibliotheek Utrecht Instituut voor Media en Informatiemanagement / HvA Eric Sieverts.

MTAS Multi Tier Annotation Search

De verwerving van de verleden tijd door Nederlandstalige kinderen De invloed van het taalaanbod en semantische predisposities Margot Rozendaal Scriptiepresentatie.

Basics SERP = Search Engine Results Page Betaalde resultaten = SEA Natuurlijke resultaten = SEO Search Engine Optimization SEO is een lange termijn verhaal.

Automatisch Vertalen SMT Lieve Macken Vakgroep Vertalen, Tolken en Communicatie.

Goed of Fout Jan Odijk & Gertjan van Noord CLARIAH-middag Amersfoort,

Flitstraining RAPP-it: de snelle reflectie app

Disclosure belangen NHG spreker

Sector, Firm Size and ICT investments

Onderzoekend leren in de natuurwetenschappen

Werkwijze Hoe zullen we als groep docenten te werk gaan?

Coherentierelaties annoteren

#5. MULTI-ACTOR SAMENWERKING | CITY-OF-THINGS

Syntactische Annotatie CHILDES

GrETEL 4: Beter zoeken.

Today: Chapter 2 Discuss SO 2 What to study for your test?

Moving objects in a geo-DBMS

Youden Analyse.

Reading strategies 2 Meaning of words, fixed expressions, multiple choice questions, open questions, article.

NEW INTERFACE UNIT 2 : GRAMMAR

Chapter 3 Who dares? Grammar Stepping Stones 3 havo

Werkwoorden Koppelwerkwoord Zelfstandig werkwoord Hulpwerkwoord

Chapter 5 Hit the road Grammar Stepping Stones 2 t/hv.

Meaning maning by public leaders in times of crisis

– Software development fundamentals

CITO examentraining leesvaardigheid vrl.

Het bos van de Nederlandse zinsbouw? Ik dacht van ik weet de weg wel.

Transcript van de presentatie:

Amsterdam Center for Language and Communication Corpusonderzoek met behulp van automatisch gegenereerde syntactische annotatie Jelke Bloem

Automatisch geannoteerde corpora De ‘big data’ van de taalkunde: Automatisch annoteren is sneller Automatisch annoteren is slordiger Met taaltechnologie geannoteerde tekstcorpora: ‘Treebank’ van syntactisch geannoteerde tekst Historische teksten met part-of-speech tags Corpus aangevuld met lexicaal-semantische informatie Corpusonderzoek met automatisch gegenereerde syntactische annotatie

Automatisch geannoteerde corpora Niet vaak gebruikt door taalkundigen: Niet gebruiksvriendelijk? Verkeerde soort annotatie? Kwaliteit van de automatische annotatie? Vaak alleen algemene accuratesse-score Geen relevante evaluatie voor veel taalkundige onderzoeksvragen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

Inhoud Waarom moeten we naar zoveel data kijken? Voorbeelden Mijn voorbeelden (werkwoordsclusters) Evaluatie van automatische annotatie Constructie-specifieke evaluatie Corpusonderzoek met automatisch gegenereerde syntactische annotatie

Waarom zoveel data? Corpusstudies naar zeldzame fenomenen Gebruikspatronen van minder frequente woorden Studie naar kleine effecten van bepaalde factoren Grote steekproeven van een specifieke constructie Analyse van meer verschillende tekstsoorten en domeinen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

Studies op basis van automatische annotatie Wanneer wordt het Duitse hulpwerkwoord voorop geplaatst? (Hinrichs and Beck, 2013) Welke werkwoorden doen dit, wat zijn de beperkingen Vergelijking met oudere teksten dass sie arbeiten können wird wird arbeiten können arbeiten lassen wird wird arbeiten lassen arbeiten sehen wird wird arbeiten sehen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

Studies op basis van automatische annotatie Verwerving van heel, zeer, erg (Odijk, 2015) Parsed Childes. zeer is ambigu Heel kan A-predicaten modificeren, maar niet V of P Hoeveel evidentie voor dit onderscheid krijgen kinderen Hij is daar heel / erg / zeer blij mee (adjectivaal predicaat) Dat verbaast mij *heel / erg / zeer (werkwoordelijk predicaat) Corpusonderzoek met automatisch gegenereerde syntactische annotatie

Studies op basis van automatische annotatie “Zoeken (naar)” en het complexiteitsprincipe (Pijpops et al, 2018) Analyse van eigenschappen van het object van ‘zoeken’ in deze constructie Meten van gemiddelde informatiedichtheid van het object Controleren voor verstorende factoren (bv. zinstype) Corpusonderzoek met automatisch gegenereerde syntactische annotatie

Voorbeeld: Werkwoordsclusters Een woordvolgordevariatie: ik denk dat ik het begrepen2 heb1 I think that I it understood2 have1 ik denk dat ik het heb1 begrepen2 I think that I it have1 understood2 Wanneer welke volgorde? Green/red order, Ascending/descending order, Participle-final/Participle-first order begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

‘Handmatige’ corpusstudie (de Sutter, 2009) “De Standaard” in het CONDIV corpus (3.2M wrd.) Handmatig geannoteerd 2.390 handmatig gecontroleerde werkwoordsclusters onderzocht (66.99% 1-2 volgorde) 10 factoren die correleren met clustervolgorde bestudeerd o.a. Scheidbaarheid werkwoord: heeft afgewassen / af heeft gewassen begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

Waarom hierbij zoveel data Waarom hierbij zoveel data? Collostructionele analyse van hoofdwerkwoorden in werkwoordsclusters Main verbs ------- Odds ratio - Red - Green 1 --- kampen 71.75 6 157 (to struggle) 2 --- zeggen 44.43 4 65 (to say) 3 --- danken 25.11 44 400 (to thank) 4 --- lijden 12.16 32 142 (to suffer) 5 --- munten 6.26 24 55 (to target) 6 --- bedoelen 5.67 26 54 (to intend) 7 --- bieden 5.43 69 137 (to offer) Main verbs ---- Odds ratio - Red - Green 1 --- hangen 5.03 55 4 (to hang) 2 --- grijpen 4.39 60 5 (to grab) 3 --- staan 4.14 1271 107 (to stand) 4 --- verrichten 3.91 161 15 (to execute/perform) 5 --- verlenen 3.65 110 11 (to grant) 6 --- goedkeuren 3.44 47 5 (to approve) 7 --- tonen 3.04 100 12 (to show) Opnieuw doen met alleen ‘hebben’? Gebruikspatronen van werkwoorden binnen werkwoordsclusters begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

“Automatische” corpusstudie (Bloem, Versloot, Weerman, 2014) Wikipedia-gedeelte van “Lassy Large” corpus, automatisch geannoteerd 145M wrd, 411.623 clusters, 71.65% 1-2 order Replicatie van “handmatige studie”, resultaten kwamen grotendeels overeen Annotatiebeperkingen en annotatiefouten begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

Annotatiebeperkingen Handmatige studie gebruikte ook prosodische informatie, niet automatisch beschikbaar Hulpwerkwoorden in verschillende functies: passief zijn zijn als ww van tijd zijn als koppelwerkwoord begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

Annotatiefouten: Hoe evalueren we nu? Algemene accuratesse van de parser waarmee geannoteerd is Concept Accuracy (Alpino parser): Alpino parser: 86.52% accuratesse Alleen Wikipedia-domein: 88.38% Niet zo belangrijk bij onderzoek naar specifieke constructie aantal relaties correct totaal aantal relaties begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

Hoe evalueren we nu? Odijk (2015): Vergelijk met handmatig geannoteerde ‘gold standard’ Een gedeelte van CHILDES is handmatig geannoteerd Accuratesse berekend over alleen ‘heel/zeer/erg’ Er is niet altijd een gold standard beschikbaar Handmatige annotatie kan ook fouten bevatten begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

Wat doet de parser? Willekeurige fouten en systematische fouten Vaker fout bij minder frequente constructies Vaker fout bij meer ambiguiteit Vaker fout bij grotere structuren, langere zinnen Vaste uitdrukkingen Vaker fout bij teksttypen waar niet op getraind is Fouten wanneer trainingsdata fouten/’fouten’ bevat ->Fouten deels afhankelijk van aard van de constructie begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

Constructie-specifieke evaluatie Evalueer kwaliteit van annotatie alleen voor tweeledige werkwoordsclusters 4 mogelijkheden: Handmatige evaluatie van de zoekresultaten Handmatige evaluatie van tekst Terugvallen op eenvoudigere annotatielaag Naar specifieke gevallen zoeken begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

Handmatige evaluatie van de zoekresultaten Zoek naar een specifieke constructie, en bepaal handmatig de precisie hiervan Kan nog altijd veel werk zijn Precision wordt gemeten, maar recall niet: een werkwoord dat als adjectief geannoteerd is, wordt niet opgemerkt Bloem et al. (2014) begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

Handmatige evaluatie van de zoekresultaten Werkwoordsclusters in NL-Wikipedia (Lassy Large) Steekproef 10.000 zinnen (0.13%), n=315 5 fouten handmatig gevonden, precisie van 0.984 Alle 5 gevallen waren ambigue adjectieven bvb. ‘de deur was gesloten’ -> Hoge precision op clusters van twee werkwoorden begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

Handmatige evaluatie van tekst Lees een steekproef van de hele tekst, en markeer verkeerd geannoteerde gevallen. Test zowel ‘precision’ als ‘recall’ Geen voordeel meer van automatische annotatie Werkt alleen voor hoogfrequente constructies Maar: kijk altijd naar de data begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

Terugvallen op eenvoudigere annotatielaag Grotere structuren zijn moeilijker: Lemmatisering, POS-tagging > parsing Zoekopdrachten gebaseerd op woordsoort zullen minder fouten bevatten Vergelijk met resultaten van syntactische zoekopdracht Hiermee kan ook ‘recall’ gevonden worden zonder de hele tekst te lezen begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

Eenvoudigere annotatie: voorbeeld 2. Voltooid deelwoord met finiet ww ernaast 1. Voltooid deelwoord, met finiet ww als hoofd begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

Eenvoudigere annotatie: evaluatie Steekproef van 10.000 zinnen n=315 met syntactisch zoeken, n=390 met POS in POS-zoekopdracht Recall 0.943 met zoekfouten meegeteld, 0.978 zonder Foutcategorie Frequentie Percentage Deel van groter cluster 56 74.7% Parseerfout 7 9.3% Zoekfout 12 16% begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

Naar specifieke gevallen zoeken Kies een representatief geval van een constructie en zoek daarnaar: “hebben gehad” ‘string search’ onafhankelijk van annotatie Vergelijk ‘string search’ met syntactische zoekopdracht Goed om ‘recall’ te evalueren begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

Specifieke gevallen: voorbeeld 1. “hebben gehad” als werkwoordscluster 2. “hebben gehad” als string begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

Specifieke gevallen: evaluatie Steekproef van 300.000 zinnen n=4 met syntactisch zoeken, n=14 met string in string search ‘Recall’ = 0.8 Foutcategorie Frequentie Hoofdzincluster 9 Parseerfout 1 begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

Discussie Taalkundigen kunnen automatische annotatie evalueren zonder een heel corpus te lezen Bepaal precision en recall met meerdere methoden: Precision: Handmatige evaluatie zoekresultaten Recall: Naar specifieke gevallen zoeken Algemenere recall: Terugvallen naar eenvoudigere annotatielaag Meer inzicht in annotatiekwaliteit dan alleen accuracy % begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

Bibliografie begrepen heb | heb begrepen Bloem, J., Versloot, A., and Weerman, F. (2014). Applyingautomatically parsed corpora to the study of language variation. In Jan Hajic et al., editors, Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers, pp. 1974–1984, Dublin, August. Dublin City University and Association for Computational Linguistics. J. Bloem (2016). Lexical preferences in Dutch verbal cluster ordering. In K. Bellamy, E. Karvovskaya, M. Kohlberger & G. Saad (Eds.), ConSOLE XXIII: Proceedings of the 23rd Conference of the Student Organization of Linguistics in Europe (pp. 70-93). Leiden: Leiden University Centre for Linguistics. De Sutter, G. (2009). Towards a multivariate model of grammar: The case of word order variation in Dutch clause final verb clusters. In A Dufter, et al., editors, Describing and Modeling Variation in Grammar, pp. 225–255. Walter De Gruyter. Hinrichs, E. and Beck, K. (2013). Auxiliary fronting in German: A walk in the woods. In The Twelfth Workshop on Treebanks and Linguistic Theories (TLT12), p. 61. van Noord, G., Bouma, G., Van Eynde, F., de Kok, D., Linde, J., Schuurman, I., Sang, E. T. K., and Vandeghinste, V. (2013). Large scale syntactic annotation of written Dutch: Lassy. In Peter Spyns et al., editors, Essential Speech and Language Technology for Dutch, Theory and Applications of Natural Language Processing, pp. 147–164. Springer Berlin. Odijk, J. (2015). Linguistic research with PaQu. Computational Linguistics in The Netherlands journal, 5: pp. 3–14. begrepen heb | heb begrepen Corpusonderzoek met automatisch gegenereerde syntactische annotatie

Using GrETEL (Augustinus, Vandeghinste, and Van Eynde 2012) Example-based treebank querying: ik denk dat ik het heb begrepen http://gretel.ccl.kuleuven.be/gretel-2.0/ understood have | have understood Corpusonderzoek met automatisch gegenereerde syntactische annotatie

Using GrETEL: Output understood have | have understood //node[@cat="ssub" and node[@rel="hd" and @root="heb" and @pos="verb" and number(@begin) < number(../node[@rel="vc" and @cat="ppart"]/node[@rel="hd" and @pos="verb"]/@begin)] and node[@rel="vc" and @cat="ppart" and node[@rel="hd" and @pos="verb"]]] understood have | have understood Corpusonderzoek met automatisch gegenereerde syntactische annotatie

Using DACT: Query-based… querying De Kok (2010) Same query syntax: Insert the query that GrETEL produces understood have | have understood Corpusonderzoek met automatisch gegenereerde syntactische annotatie