De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Aanpassing van linguïstische modules voor ondertiteling Beschrijving en Evaluatie van de huidige zinsreductiesoftware.

Verwante presentaties


Presentatie over: "Aanpassing van linguïstische modules voor ondertiteling Beschrijving en Evaluatie van de huidige zinsreductiesoftware."— Transcript van de presentatie:

1 Aanpassing van linguïstische modules voor ondertiteling Beschrijving en Evaluatie van de huidige zinsreductiesoftware

2 WERKPAKKET 4 Vincent Vandeghinste Centrum voor Computerlinguïstiek

3 Zinsreductiesoftware Tussenstap in ondertitelingsproces transcriptie Beschikbare tijd Voldoende tijd voor ondertitel? ja Zinsreductiemodule Ondertitel-generator ondertitels nee

4 Beschrijving van de software Voorbereidingsfase Conversie naar pretag TnT CGN (r6) Afkorter Vb: Europese Unie => EU Chunker Chunker Grammars Bijzin-detector input

5 Beschrijving van de software (2) Eigenlijke reductie –Voor elke knoop in de bekomen boom wordt de kans op verwijdering en de kans op niet verwijdering geschat op basis van de frequentie van verwijdering van chunks in het parallelle corpus. –Daarnaast zijn er regelgebaseerde beperkingen in wat verwijderd kan worden

6 Schatting van probabiliteiten o.b.v. parallelle corpus Bewerkingen uitgevoerd op corpus transcriptsondertitelsLink-files Convert2prePOS Link2gether TnT VP chunkerNP chunkerPP chunkerAP chunker FULL chunker Bijzin Detector Chunk Aligner Compare VPCompare APCompare NPCompare PPCompare SSub Extract Removal/Unchange Frequencies Removal/Unchange Frequencies Compare S

7 Beschrijving van de software (3) Statistische component Regelgebaseerde component: –a.h.v. regels wordt bepaald wat NIET weggelaten mag worden (vb: verwijder nooit het hoofdsubstantief uit een NP) Als het eerste zinselement weggelaten wordt, dan wordt de eerste NP die gevonden wordt na het WW naar voor verplaatst zodat de zin grammaticaal blijft bovendien zegt de generaal zich terug te trekken. => de generaal zegt zich terug te trekken.

8 Beschrijving van de software (4) Laatste inkorting: –Voor lange woorden wordt nagegaan of ze niet opgesplitst kunnen worden en hersamengesteld d.m.v. automatische samenstelling (WP2) –Als dit het geval is wordt het woord vervangen door het hoofd van de samenstelling (vb: raketaanval => aanval) –Er kan een lijst van woorden opgegeven worden die niet gereduceerd mogen worden tot hun hoofd

9 Evaluatie Bootstrapping: door herhaaldelijk testen + foutenanalyse wordt het systeem verbeterd Voorlopige testresulaten: eerste evaluatie, nog geen onafhankelijke testset 3 reducties per inputzin: –10 % reductie –20 % reductie –Maximaal 64 karakters

10 Evaluatie (2) Soms wordt er geen output gegenereerd (Nothing): –Het systeem vond geen reductie terwijl dit wel mogelijk zou moeten zijn –Het systeem vond geen reductie, maar reductie lijkt onmogelijk: Resultaten die scoren als Nothing zijn niet per se fout (vb: even kijken.)

11 Evaluatie (3) Resultaten worden beoordeeld op 2 criteria: –Grammaticaliteit –Informatiewaarde (IW): Als de reductie even informatief is als de input wordt de IW gescoord als Same. Als de reductie minder informatief is als de input wordt de IW gescoord als Less. Als de informatie in de output onbegrijpelijk of tegenstrijdig is met de informatie in de input wordt de IW gescoord als Nonsens. Same en Less worden als goede reducties beschouwd

12 Evaluatie (4) – Resultaten: grammaticaliteit

13 Evaluatie (5) – Resultaten: informatiewaarde

14 Bespreking De evaluatiemethode is geen ideale evaluatie van het uiteindelijk beoogde systeem, want er wordt gepoogd elke testzin te reduceren, ook wanneer geen reductie noodzakelijk zou zijn. In werkelijkheid moeten enkel zinnen die niet weergegeven kunnen worden in de beschikbare tijd gereduceerd worden

15 Bespreking (2) Sterke punten: –Kleine reductie leidt vaak tot goed resultaat –Eerste voorgestelde reducties zijn meestal goede reducties Zwakke punten: –Bij nevenschikking loopt de chunker fout –Voorzetselvoorwerpen worden soms verwijderd, hoewel ze tot het valentiepatroon van het WW horen

16 Conclusie en Toekomst Het huidige systeem lijkt goed bruikbaar voor zinsreductie Door gebruik te maken van valentie-informatie kan het systeem nog verbeterd worden In een uiteindelijke evaluatie moeten geen 3 reducties per zin geëvalueerd worden, maar moet berekend worden welke reductie noodzakelijk is afhankelijk van de beschikbare tijd om deze informatie als ondertitel te presenteren


Download ppt "Aanpassing van linguïstische modules voor ondertiteling Beschrijving en Evaluatie van de huidige zinsreductiesoftware."

Verwante presentaties


Ads door Google