Coherentierelaties annoteren Anncor-bijeenkomst 22-11-2017 Coherentierelaties annoteren Een methode voor naïeve annotatoren Laura Brands Work package Discourse Annotation
Work package Discourse Annotation Nina Sangers: completeren en in één format zetten van geannoteerde coherentierelaties uit het PhD-onderzoek van Jet Hoek (± 400 per type) additieve relaties (also, in addition) causale relaties (because, so) contrastieve relaties (but, although) conditionele relaties (if, unless) = Engelse bronteksten uit Europarl-corpus met vertalingen in het Nederlands, Duits, Frans en Spaans Laura Brands: annotatie-experiment dat gebruikmaakt van AnnCor-corpus van coherentierelaties
Introductie De meeste annotatiemethoden kosten veel tijd en vereisen veel voorkennis. Bijvoorbeeld Carlson et al. (2003): handleiding van 87 pagina’s en uitgebreide training voor ervaren annotatoren. Scholman et al. (2016) ontwikkelden een stapsgewijze methode voor het annoteren van coherentierelaties. Kost minder tijd Kan gebruikt worden door onervaren annotatoren.
Een stapsgewijze methode Coherentierelaties = betekenisrelaties tussen (deel)zinnen (bv. tegenstelling, oorzaak-gevolg) Coherentierelaties worden geanalyseerd met vier primitieven: Polariteit: positief, negatief Relatietype: causaal, conditioneel, temporeel, additief Coherentiebron: objectief, subjectief Volgorde: natuurlijk, omgekeerd, n.v.t.
Een stapsgewijze methode Primitieven kun je hiërarchisch ordenen: Scholman et al. 2016, p. 10
Een stapsgewijze methode Annoteren wordt gedaan m.b.v. parafrase- en substitutietesten. Substitutietest: Denk eventuele connectieven weg. Kun je de relatie markeren door… Polariteit: maar Relatietype: omdat/hoewel (causaal), als/tenzij (conditioneel), toen (temporeel), en (additief) Parafrasetest: Kun je de relatie parafraseren als… Coherentiebron: De segmenten beschrijven een situatie/feit/gebeurtenis (objectief); De segmenten beschrijven een mening/bewering/conclusie Volgorde: S1 is de oorzaak, S2 het gevolg (natuurlijk); S1 is het gevolg, S2 de oorzaak (omgekeerd)
Een stapsgewijze methode Veelbelovende resultaten bij Scholman et al., maar: Hiërarchie kan een negatief effect hebben gehad fouten op eerdere primitieven leiden tot fouten op latere primitieven. Onderzoeksvraag: Leidt het verwijderen van de hiërarchie tot hogere agreement scores?
Annotatie-experiment - voorwerk Bureau-analyse: veranderingen aan handleiding en parafrase- en substitutietesten van Scholman et al. (2016). 20 fragmenten geannoteerd door vier experts om gouden standaard te bepalen. Polariteit niet geannoteerd: verlaagt de werkdruk en Scholman et al. (2016) tonen aan dat dit primitief nauwelijks problemen oplevert.
Participanten 40 in totaal, leeftijd variërend van 18-31 (gemiddeld 21,6). Alle participanten deden een aan taal gerelateerde studie. Verdeeld over twee groepen: hiërarchisch en niet- hiërarchisch. 20 participanten (3 mannen, 17 vrouwen) in elke groep.
Methode Handleiding op papier, annoteren via online vragenlijst. Relatietype: substitutietest voor volgende waarde verschijnt pas als de vorige is beantwoord.
Methode Niet-hiërarchische groep moet altijd elk primitief bepalen. Als relatietype temporeel, dan coherentiebron automatisch objectief. Als relatietype additief, dan volgorde automatisch n.v.t.
Resultaten Inter-annotator agreement (AC1 en Fleiss’ kappa)
Resultaten Kappa agreement met gouden standaard
Resultaten Recall, Precision en F-scores voor relatietype
Resultaten Recall, Precision en F-scores voor coherentiebron
Resultaten Recall, Precision en F-scores voor volgorde
Conclusie Over het algemeen leidt verwijderen hiërarchie tot hogere scores. Als de problemen kunnen worden opgelost, kan annoteren bijvoorbeeld via crowdsourcing gedaan worden. ‘Moeilijke’ fragmenten kunnen dan nog bekeken worden door experts. Dit scheelt al veel tijd en geld.
Referenties Carlson, L., Marcu, D. & Okurowski, M. E. (2003). Building a discourse-tagged corpus in the framework of Rhetorical Structure Theory. In J.C. J. van Kuppevelt & R. W. Smith (eds.), Current and new directions in discourse and dialogue (pp. 85-112). Dordrecht: Kluwer. Scholman, M. C. J., Evers-Vermeul, J., & Sanders, T. J. M. (2016). A step-wise approach to discourse annotation: Towards a reliable categorization of coherence relations. Dialogue and Discourse 7(2), 1-28.