De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans.

Verwante presentaties


Presentatie over: "ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans."— Transcript van de presentatie:

1 ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans

2 CNTS taak voor T1+6 WP2: Ontdekken en verwerken van Out-Of- Vocabulary-items (OOV) –Specifieke taak = foneem-naar-grafeem omzetting –Doeleinden: T1+6: Baseline omzetter T1+6: Rapport

3 Overzicht Waarom foneem-naar-grafeem omzetting? Haalbaarheidsexperimenten met CELEX –Resultaten + fouten-analyse Experimenten met ‘echte’ data –Resultaten + fouten-analyse Conclusies + TODO

4 Spraak Herkenner spraaktekst Confidence threshold Vermoedelijk OOV-item Foneemherkenner (ESAT) Foneemstring + context (voorgaande en volgende woorden in spelling) Omzetter (TiMBL) Spelling Spelling corrector met omvangrijk vocabularium Training Data WP2: Taak: foneem-naar-grafeem omzetting

5 (1) Onderzoek naar haalbaarheid Wat is de haalbaarheid van foneem-naar-grafeem omzetting? –Experimenten met CELEX –Memory Based Learning (TiMBL) als machine learning methode Hoe groot is de invloed van ruis in de data? –Typische error rate van een foneem-herkenner ~ 25 tot 30%

6 Voorbereiden van CELEX –Spelling en uitspraak moeten gealigneerd worden (met Expectation Maximization (EM) algoritme [ILKAlign]) “nul” symbool/tAksi/taxitax_i samengestelde grafemen/slap/slaapslAp –Voordeel van EM: geen tuning nodig –Gerandomiseerd op woordniveau Voorbereiden van de data (1)

7 Voorbereiden van de data (2) Toevoegen van ruis –Gebeurde op woordniveau –Simulatie van substituties: fonemen werden vervangen door hun nearest phonemes Confusion matrix a.h.v. MVDM (Modified Value Difference Metric) –Van 0 tot 50% ruis

8 Experimenten met TiMBL Memory Based Learning experimenten –Classification-based –Similarity-based –Gebruikte algoritmes: IB1 (standaard) met k=1,3,5 IGTree (decision tree based optimization) –Metriek om similarity te berekenen: Overlap metric met Gain Ratio weighting –Experimenten met 10-fold cross-validation Resultaten (accuraatheid) –Vrij van fouten: 99.1 (grafemen)91.4 (woorden) –25% fouten: 93.1 (grafemen) 53.0 (woorden) –30% fouten:92.0 (grafemen)47.7 (woorden)

9 Resultaten van experimenten met CELEX

10 Fouten-analyse Analyse van fouten in de output van algoritme IB1, k=1 op dataset zonder ruis 2 soorten fouten: –Fouten door ambiguïteit –Fouten door atypische spelling

11 Fouten door ambiguïteit Ambiguïteit door spellingsconventies –/k/  c of k? /INkledIN/  incleding  voetbalkompetitie –/i/  i of y?  fyle /elEktrolitis/  elektrolitisch Ambiguïteit door assimilatie –/n/ wordt /m/ voor /b/ /embanswEx/  eembaansweg Ambiguïteit door zelfde uitspraak, andere spelling –/ledikAnt/  ladikant  ladykiller, ladyshave, ladylike

12 Fouten door atypische spelling FonemenTiMBLCorrect /sikorK/SykcurijCichorei /fwAje/FoyeeFoyer /bazuka/BazoekaBazooka

13 (2) Experimenten met data van foneemherkenner Data van ESAT: – woorden – grafemen –8913 OOV-items –Enkele voorbeelden: grafeemstring:ze veegde de tranen uit haar ooghoeken veGe Lt har grafeemstring:het was een spel geworden spEl grafeemstring:cathy had haar uiterste best gedaan foneemstring:kYdi hAt hAr bEs

14 Aligneren met “nul” symbolen + samengestelde grafemen Problemen bij het aligneren van de data: –Door deleties in de foneemstrings werkt het EM algoritme niet Oplossing: –Ander aligneer-algoritme: Dynamic Programming (DP) (of Dynamic Time Warping) –Nadeel: tuning nodig! –Voordeel: kan deleties aligneren Voorbereiden van de ESAT-data (1)

15 Deleties staan niet aangeduid in de input van omzetter  deleties werden verwijderd uit dataset Heeft spelling voorgaande/volgende woord invloed? Vier verschillende datasets: 1.Woorden met deleties verwijderd, geen spelling als context 2.Woorden met deleties verwijderd, wel spelling als context 3.Instanties met deleties verwijderd, geen spelling als context 4.Instanties met deleties verwijderd, wel spelling als context Experimenten: (1) 10 CV op volledige dataset, en (2) alleen OOV-items als testmateriaal Voorbereiden van de ESAT-data (2)

16 Resultaten met hele dataset - grafeemniveau DatasetIB1, k=1IB1, k=3IB1, k=5IGTREE -spelling -woorden spelling -woorden spelling -instanties spelling -instanties

17 Resultaten met hele dataset - woordniveau DatasetIB1, k=1IB1, k=3IB1, k=5IGTREE -spelling -woorden spelling -woorden spelling -instanties spelling -instanties

18 Voorbeeld van output TiMBL’s output: cafe zag en wild zwaaien haar vader stak zijn dan omhoog fassaf hij wilde zeggen het komt we goed jog haar maar klefde bijnae tegen ik aultoeraanpiee aan Correcte versie: cathy zag hen wild zwaaien haar vader stak zijn duim omhoog alsof hij wilde zeggen het komt wel goed joch haar moeder kleefde bijna tegen het autoraampje aan

19 Foutenanalyse: hoe goed worden OOV-items omgezet? Alle OOV-items uit de tien test-bestanden van 10 CV experimenten gehaald (8913 woorden) Resultaten berekend op grafeem- en woordniveau Geteld hoeveel woorden 0, 1, 2, … fouten per woord hebben

20 Resultaten op grafeemniveau DatasetIB1, k=1IB1, k=3IB1, k=5IGTREE -spelling -woorden spelling -woorden spelling -instanties spelling -instanties

21 Resultaten op woordniveau MAAR  verzameling OOV-words bevat 3985 (44.7%) woorden met deleties  deze woorden kunnen nooit volledig correct herkend worden DatasetIB1, k=1IB1, k=3IB1, k=5IGTREE -spelling -woorden spelling -woorden spelling -instanties spelling -instanties

22 Voorbeeld van output TiMBL’s output: het komt wel goed jog bijna tegen het aultoeraampiee aan haar neus werd pladvedrukt cathy zag de belleen langzaam verdwijnen cathy staarde hem bevreemd aan Correcte versie: het komt wel goed joch bijna tegen het autoraampje aan haar neus werd platgedrukt cathy zag de bmw langzaam verdwijnen cathy staarde hem bevreemd aan

23 Fouten-analyse OOV-items De meeste woorden hebben 2 tot 5 fouten per woord (gemiddelde is 3.03)

24 (3) Conclusie Experimenten op volledige ESAT dataset (max. 47.0) komen in de buurt van de resultaten van de experimenten met artificiële ruis (47.7 – 53.0% op woordniveau) Resultaten bij de OOV-items (max. 6.9%) liggen ver beneden de resultaten van de experimenten met artificiële ruis

25 (4) TODO Verdere optimalisering van de leertechniek op deze taak Oplossing voor probleem van deleties Spelling corrector met omvangrijk vocabularium als post-processing Evaluatie van omzetter in combinatie met de confidence measures ontwikkeld door ESAT


Download ppt "ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans."

Verwante presentaties


Ads door Google