Aanpassing van linguïstische modules voor ondertiteling Beschrijving en Evaluatie van de huidige zinsreductiesoftware.

Slides:



Advertisements
Verwante presentaties
automatiseringselektronica
Advertisements

Algemene Weetjes Over Tekst verklaren en het CSE.
HET CSE NEDERLANDS. Je spreekt toch al jaren
De samengestelde zin.
Les 2 klassediagrammen II
Verlichtingsdenker: vertrouwen in de rede
Laurens van der Maaten IKAT / ROB
Les 2 : MODULE 1 STARRE LICHAMEN
VOOR SLIMMEKES! Bloemen verwelken, schepen vergaan… dus koop geen bloemen en vlieg voortaan! Je zult maar een ééndagsvlieg zijn en je dag niet hebben!
Redelijke aanpassingen t.a.v. personen met een beperking
Communicatief gedrag + / -
Practica Computerlinguistiek Tekst en uitleg:
Kwaliteit en betrouwbaarheid van simulaties ir. Rudolf van Mierlo Efectis Nederland BV.
WELKOM op de 2e SKML-IZS deelnemersmiddag
Collectief portfolio groep 3
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS - 4 mei 2004 Modellering van spontane spraak Jacques Duchateau
S1S1 S2S2 S3S3 Atranos Gebruikerscommissie 11 mei 2001.
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS - 22 oktober 2003 Statistische Taalmodellen voor Spontane Spraak Jacques Duchateau
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS Gebruikerscommissie 4 mei 2004 Patrick Wambacq.
Reductie van aantal OOV- woorden dmv lexiconuitbreiding Vincent Vandeghinste Centrum voor Computerlinguïstiek KULeuven.
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS Workshop 17 september 2004 Patrick Wambacq.
S1S1 S2S2 S3S3 Atranos Gebruikerscommissie 22 november 2001.
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS Workshop 17 september 2004 Patrick Wambacq.
S1S1 S2S2 S3S3 Atranos Gebruikerscommissie 28 oktober 2002.
S1S1 S2S2 S3S3 Atranos Gebruikerscommissie 9 april 2003.
Statistische Taalmodellen voor Spontane Spraak
Deze les wordt verzorgd door de Kansrekening en statistiekgroep Faculteit W&I TU/e.
Instructie Programmeren Task 5
Natuurlijke taalverwerking week 4
Portfolio
Werkmodel 8 domeinen van Schalock
Nieuwsbegrip Doel van deze les:
DEEL 2 LES 20 De verdieping Les 20 Signaleren Versie
Inleiding tot Excel.
Les Informatica 02/03/2004 Yperman Hans
MET DANK AAN COLLEGA’S IN DEN LANDE ! vee 2012
FISCAAL OVERGANGSRECHT Amsterdam, 21 maart 2012 Mr. C.A.H. Luijken Deloitte Pension Advisory.
Enkelvoudige en samengestelde zinnen
2014 EVALUATIES N+1.
Het discriminatieverbod en redelijke aanpassingen Annelies D’Espallier
Personeelsessie LOKO.
Samenvatting Havo 5.
SE-Seneca voorbereiding op CE 2013!
20 mei Symposium Statistical Auditing Slide 1 Wat zegt de COS over steekproeven en data-analyse? Paul van Batenburg.
Resultaten Leerlingenenquête 2015
Voegwoorden.
Grafentheorie Graaf Verzameling knopen al dan niet verbonden door takken, bijv:
Methodiek: Plancyclus
Waar blijft de tijd Sociale media in jouw leven. Waar blijft de tijd Intro Je hoorde het verhaal van Marijke. Reageer eens op haar situatie. Sociale media.
Quiz tops en tips groep 5 en 6. Tops en tips In deze les maakte je maatje een gedicht over de nacht. Dit stond in ‘Zo zit het!’: ZO ZIT HET! Hier let.
SharePoint Alles over versiebeheer In de Private en Public cloud.
SAMENGESTELDE ZINNEN Hoofdzin en bijzin. Wat gaan we deze les leren? Wat zijn samengestelde zinnen? Wat is een bijzin? Wat is hoofdzin?
Presentatie nieuwe / aangepaste spelregels. Toelichting op de nieuwe spelregels met ingang van 1 juli 2016 Op 1 maart 2016 heeft de IHF de verschillende.
Drivers Wat is het Wat doet het Waar komen ze vandaan.
VOOR SLIMMEKES! Voor smarties..
De vraag is je beste vriend
Verbanden en signaalwoorden
De samengestelde zin.
voorzetselvoorwerpszin
Lijdendvoorwerpszin, onderwerpszin en bijwoordelijke bijzin
SharePoint Versiebeheer
Nevenschikking en onderschikking
Meewerkendvoorswerpzin
Puntentelling Teams Geschat
Bijzin als zinsdeel Gezegdezin.
De Flexibele Club Competitie
Syntactische Annotatie CHILDES
Samentrekking.
Nevenschikking en onderschikking
Stappenplan werkwoordspelling
Transcript van de presentatie:

Aanpassing van linguïstische modules voor ondertiteling Beschrijving en Evaluatie van de huidige zinsreductiesoftware

WERKPAKKET 4 Vincent Vandeghinste Centrum voor Computerlinguïstiek

Zinsreductiesoftware Tussenstap in ondertitelingsproces transcriptie Beschikbare tijd Voldoende tijd voor ondertitel? ja Zinsreductiemodule Ondertitel-generator ondertitels nee

Beschrijving van de software Voorbereidingsfase Conversie naar pretag TnT CGN (r6) Afkorter Vb: Europese Unie => EU Chunker Chunker Grammars Bijzin-detector input

Beschrijving van de software (2) Eigenlijke reductie –Voor elke knoop in de bekomen boom wordt de kans op verwijdering en de kans op niet verwijdering geschat op basis van de frequentie van verwijdering van chunks in het parallelle corpus. –Daarnaast zijn er regelgebaseerde beperkingen in wat verwijderd kan worden

Schatting van probabiliteiten o.b.v. parallelle corpus Bewerkingen uitgevoerd op corpus transcriptsondertitelsLink-files Convert2prePOS Link2gether TnT VP chunkerNP chunkerPP chunkerAP chunker FULL chunker Bijzin Detector Chunk Aligner Compare VPCompare APCompare NPCompare PPCompare SSub Extract Removal/Unchange Frequencies Removal/Unchange Frequencies Compare S

Beschrijving van de software (3) Statistische component Regelgebaseerde component: –a.h.v. regels wordt bepaald wat NIET weggelaten mag worden (vb: verwijder nooit het hoofdsubstantief uit een NP) Als het eerste zinselement weggelaten wordt, dan wordt de eerste NP die gevonden wordt na het WW naar voor verplaatst zodat de zin grammaticaal blijft bovendien zegt de generaal zich terug te trekken. => de generaal zegt zich terug te trekken.

Beschrijving van de software (4) Laatste inkorting: –Voor lange woorden wordt nagegaan of ze niet opgesplitst kunnen worden en hersamengesteld d.m.v. automatische samenstelling (WP2) –Als dit het geval is wordt het woord vervangen door het hoofd van de samenstelling (vb: raketaanval => aanval) –Er kan een lijst van woorden opgegeven worden die niet gereduceerd mogen worden tot hun hoofd

Evaluatie Bootstrapping: door herhaaldelijk testen + foutenanalyse wordt het systeem verbeterd Voorlopige testresulaten: eerste evaluatie, nog geen onafhankelijke testset 3 reducties per inputzin: –10 % reductie –20 % reductie –Maximaal 64 karakters

Evaluatie (2) Soms wordt er geen output gegenereerd (Nothing): –Het systeem vond geen reductie terwijl dit wel mogelijk zou moeten zijn –Het systeem vond geen reductie, maar reductie lijkt onmogelijk: Resultaten die scoren als Nothing zijn niet per se fout (vb: even kijken.)

Evaluatie (3) Resultaten worden beoordeeld op 2 criteria: –Grammaticaliteit –Informatiewaarde (IW): Als de reductie even informatief is als de input wordt de IW gescoord als Same. Als de reductie minder informatief is als de input wordt de IW gescoord als Less. Als de informatie in de output onbegrijpelijk of tegenstrijdig is met de informatie in de input wordt de IW gescoord als Nonsens. Same en Less worden als goede reducties beschouwd

Evaluatie (4) – Resultaten: grammaticaliteit

Evaluatie (5) – Resultaten: informatiewaarde

Bespreking De evaluatiemethode is geen ideale evaluatie van het uiteindelijk beoogde systeem, want er wordt gepoogd elke testzin te reduceren, ook wanneer geen reductie noodzakelijk zou zijn. In werkelijkheid moeten enkel zinnen die niet weergegeven kunnen worden in de beschikbare tijd gereduceerd worden

Bespreking (2) Sterke punten: –Kleine reductie leidt vaak tot goed resultaat –Eerste voorgestelde reducties zijn meestal goede reducties Zwakke punten: –Bij nevenschikking loopt de chunker fout –Voorzetselvoorwerpen worden soms verwijderd, hoewel ze tot het valentiepatroon van het WW horen

Conclusie en Toekomst Het huidige systeem lijkt goed bruikbaar voor zinsreductie Door gebruik te maken van valentie-informatie kan het systeem nog verbeterd worden In een uiteindelijke evaluatie moeten geen 3 reducties per zin geëvalueerd worden, maar moet berekend worden welke reductie noodzakelijk is afhankelijk van de beschikbare tijd om deze informatie als ondertitel te presenteren