De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Coherentierelaties annoteren

Verwante presentaties


Presentatie over: "Coherentierelaties annoteren"— Transcript van de presentatie:

1 Coherentierelaties annoteren
Anncor-bijeenkomst Coherentierelaties annoteren Een methode voor naïeve annotatoren Laura Brands Work package Discourse Annotation

2 Work package Discourse Annotation
Nina Sangers: completeren en in één format zetten van geannoteerde coherentierelaties uit het PhD-onderzoek van Jet Hoek (± 400 per type) additieve relaties (also, in addition) causale relaties (because, so) contrastieve relaties (but, although) conditionele relaties (if, unless) = Engelse bronteksten uit Europarl-corpus met vertalingen in het Nederlands, Duits, Frans en Spaans Laura Brands: annotatie-experiment dat gebruikmaakt van AnnCor-corpus van coherentierelaties

3 Introductie De meeste annotatiemethoden kosten veel tijd en vereisen veel voorkennis. Bijvoorbeeld Carlson et al. (2003): handleiding van 87 pagina’s en uitgebreide training voor ervaren annotatoren. Scholman et al. (2016) ontwikkelden een stapsgewijze methode voor het annoteren van coherentierelaties. Kost minder tijd Kan gebruikt worden door onervaren annotatoren.

4 Een stapsgewijze methode
Coherentierelaties = betekenisrelaties tussen (deel)zinnen (bv. tegenstelling, oorzaak-gevolg) Coherentierelaties worden geanalyseerd met vier primitieven: Polariteit: positief, negatief Relatietype: causaal, conditioneel, temporeel, additief Coherentiebron: objectief, subjectief Volgorde: natuurlijk, omgekeerd, n.v.t.

5 Een stapsgewijze methode
Primitieven kun je hiërarchisch ordenen: Scholman et al. 2016, p. 10

6 Een stapsgewijze methode
Annoteren wordt gedaan m.b.v. parafrase- en substitutietesten. Substitutietest: Denk eventuele connectieven weg. Kun je de relatie markeren door… Polariteit: maar Relatietype: omdat/hoewel (causaal), als/tenzij (conditioneel), toen (temporeel), en (additief) Parafrasetest: Kun je de relatie parafraseren als… Coherentiebron: De segmenten beschrijven een situatie/feit/gebeurtenis (objectief); De segmenten beschrijven een mening/bewering/conclusie Volgorde: S1 is de oorzaak, S2 het gevolg (natuurlijk); S1 is het gevolg, S2 de oorzaak (omgekeerd)

7 Een stapsgewijze methode
Veelbelovende resultaten bij Scholman et al., maar: Hiërarchie kan een negatief effect hebben gehad  fouten op eerdere primitieven leiden tot fouten op latere primitieven. Onderzoeksvraag: Leidt het verwijderen van de hiërarchie tot hogere agreement scores?

8 Annotatie-experiment - voorwerk
Bureau-analyse: veranderingen aan handleiding en parafrase- en substitutietesten van Scholman et al. (2016). 20 fragmenten geannoteerd door vier experts om gouden standaard te bepalen. Polariteit niet geannoteerd: verlaagt de werkdruk en Scholman et al. (2016) tonen aan dat dit primitief nauwelijks problemen oplevert.

9 Participanten 40 in totaal, leeftijd variërend van (gemiddeld 21,6). Alle participanten deden een aan taal gerelateerde studie. Verdeeld over twee groepen: hiërarchisch en niet- hiërarchisch. 20 participanten (3 mannen, 17 vrouwen) in elke groep.

10 Methode Handleiding op papier, annoteren via online vragenlijst.
Relatietype: substitutietest voor volgende waarde verschijnt pas als de vorige is beantwoord.

11 Methode Niet-hiërarchische groep moet altijd elk primitief bepalen.
Als relatietype temporeel, dan coherentiebron automatisch objectief. Als relatietype additief, dan volgorde automatisch n.v.t.

12 Resultaten Inter-annotator agreement (AC1 en Fleiss’ kappa)

13 Resultaten Kappa agreement met gouden standaard

14 Resultaten Recall, Precision en F-scores voor relatietype

15 Resultaten Recall, Precision en F-scores voor coherentiebron

16 Resultaten Recall, Precision en F-scores voor volgorde

17 Conclusie Over het algemeen leidt verwijderen hiërarchie tot hogere scores. Als de problemen kunnen worden opgelost, kan annoteren bijvoorbeeld via crowdsourcing gedaan worden. ‘Moeilijke’ fragmenten kunnen dan nog bekeken worden door experts. Dit scheelt al veel tijd en geld.

18 Referenties Carlson, L., Marcu, D. & Okurowski, M. E. (2003). Building a discourse-tagged corpus in the framework of Rhetorical Structure Theory. In J.C. J. van Kuppevelt & R. W. Smith (eds.), Current and new directions in discourse and dialogue (pp ). Dordrecht: Kluwer. Scholman, M. C. J., Evers-Vermeul, J., & Sanders, T. J. M. (2016). A step-wise approach to discourse annotation: Towards a reliable categorization of coherence relations. Dialogue and Discourse 7(2), 1-28.


Download ppt "Coherentierelaties annoteren"

Verwante presentaties


Ads door Google