Download de presentatie
De presentatie wordt gedownload. Even geduld aub
GepubliceerdIne Claes Laatst gewijzigd meer dan 10 jaar geleden
1
Aanpassing van linguïstische modules voor ondertiteling Beschrijving en Evaluatie van de huidige zinsreductiesoftware
2
WERKPAKKET 4 Vincent Vandeghinste Centrum voor Computerlinguïstiek
3
Zinsreductiesoftware Tussenstap in ondertitelingsproces transcriptie Beschikbare tijd Voldoende tijd voor ondertitel? ja Zinsreductiemodule Ondertitel-generator ondertitels nee
4
Beschrijving van de software Voorbereidingsfase Conversie naar pretag TnT CGN (r6) Afkorter Vb: Europese Unie => EU Chunker Chunker Grammars Bijzin-detector input
5
Beschrijving van de software (2) Eigenlijke reductie –Voor elke knoop in de bekomen boom wordt de kans op verwijdering en de kans op niet verwijdering geschat op basis van de frequentie van verwijdering van chunks in het parallelle corpus. –Daarnaast zijn er regelgebaseerde beperkingen in wat verwijderd kan worden
6
Schatting van probabiliteiten o.b.v. parallelle corpus Bewerkingen uitgevoerd op corpus transcriptsondertitelsLink-files Convert2prePOS Link2gether TnT VP chunkerNP chunkerPP chunkerAP chunker FULL chunker Bijzin Detector Chunk Aligner Compare VPCompare APCompare NPCompare PPCompare SSub Extract Removal/Unchange Frequencies Removal/Unchange Frequencies Compare S
7
Beschrijving van de software (3) Statistische component Regelgebaseerde component: –a.h.v. regels wordt bepaald wat NIET weggelaten mag worden (vb: verwijder nooit het hoofdsubstantief uit een NP) Als het eerste zinselement weggelaten wordt, dan wordt de eerste NP die gevonden wordt na het WW naar voor verplaatst zodat de zin grammaticaal blijft bovendien zegt de generaal zich terug te trekken. => de generaal zegt zich terug te trekken.
8
Beschrijving van de software (4) Laatste inkorting: –Voor lange woorden wordt nagegaan of ze niet opgesplitst kunnen worden en hersamengesteld d.m.v. automatische samenstelling (WP2) –Als dit het geval is wordt het woord vervangen door het hoofd van de samenstelling (vb: raketaanval => aanval) –Er kan een lijst van woorden opgegeven worden die niet gereduceerd mogen worden tot hun hoofd
9
Evaluatie Bootstrapping: door herhaaldelijk testen + foutenanalyse wordt het systeem verbeterd Voorlopige testresulaten: eerste evaluatie, nog geen onafhankelijke testset 3 reducties per inputzin: –10 % reductie –20 % reductie –Maximaal 64 karakters
10
Evaluatie (2) Soms wordt er geen output gegenereerd (Nothing): –Het systeem vond geen reductie terwijl dit wel mogelijk zou moeten zijn –Het systeem vond geen reductie, maar reductie lijkt onmogelijk: Resultaten die scoren als Nothing zijn niet per se fout (vb: even kijken.)
11
Evaluatie (3) Resultaten worden beoordeeld op 2 criteria: –Grammaticaliteit –Informatiewaarde (IW): Als de reductie even informatief is als de input wordt de IW gescoord als Same. Als de reductie minder informatief is als de input wordt de IW gescoord als Less. Als de informatie in de output onbegrijpelijk of tegenstrijdig is met de informatie in de input wordt de IW gescoord als Nonsens. Same en Less worden als goede reducties beschouwd
12
Evaluatie (4) – Resultaten: grammaticaliteit
13
Evaluatie (5) – Resultaten: informatiewaarde
14
Bespreking De evaluatiemethode is geen ideale evaluatie van het uiteindelijk beoogde systeem, want er wordt gepoogd elke testzin te reduceren, ook wanneer geen reductie noodzakelijk zou zijn. In werkelijkheid moeten enkel zinnen die niet weergegeven kunnen worden in de beschikbare tijd gereduceerd worden
15
Bespreking (2) Sterke punten: –Kleine reductie leidt vaak tot goed resultaat –Eerste voorgestelde reducties zijn meestal goede reducties Zwakke punten: –Bij nevenschikking loopt de chunker fout –Voorzetselvoorwerpen worden soms verwijderd, hoewel ze tot het valentiepatroon van het WW horen
16
Conclusie en Toekomst Het huidige systeem lijkt goed bruikbaar voor zinsreductie Door gebruik te maken van valentie-informatie kan het systeem nog verbeterd worden In een uiteindelijke evaluatie moeten geen 3 reducties per zin geëvalueerd worden, maar moet berekend worden welke reductie noodzakelijk is afhankelijk van de beschikbare tijd om deze informatie als ondertitel te presenteren
Verwante presentaties
© 2024 SlidePlayer.nl Inc.
All rights reserved.