De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Watskeburt? Niets! Zo praten wij gewoon Helmer Strik et al. Radboud Universiteit Nijmegen, CLST.

Verwante presentaties


Presentatie over: "Watskeburt? Niets! Zo praten wij gewoon Helmer Strik et al. Radboud Universiteit Nijmegen, CLST."— Transcript van de presentatie:

1 Watskeburt? Niets! Zo praten wij gewoon Helmer Strik et al. Radboud Universiteit Nijmegen, CLST

2 Helmer StrikDe dag vd Fonetiek, Utrecht, 22-12-052 Inleiding “Watskeburt” zingt De Jeugd Van Tegenwoordig (2005) "Gijwabbedoel" schreef Jan Kuitenbrouwer in zijn Hedenlands-column in De Volkskrant (12 november 2003) Multi-Woord Expressies: MWEs

3 Helmer StrikDe dag vd Fonetiek, Utrecht, 22-12-053 Overzicht presentatie Resultaten 1e onderzoek D. Binnenpoorte, C. Cucchiarini, L. Boves & H. Strik (2005) Multiword Expressions in Spoken Language: an exploratory study on pronunciation variation. Computer, Speech & Language 19(4), pp. 433-449. Vervolgonderzoek  Bram Elffers & Dusan Bavcar  Case study: ‘op een gegeven moment’  Selectie van MWEs

4 Helmer StrikDe dag vd Fonetiek, Utrecht, 22-12-054 Average Weighted Disagreement als‘tware av. %disagr. 30.5650.004.17 #canonical phonemes 324 AWD = (30.56*3 + 50.00*2 + 4.17*4)/(3+2+4) = 23.15%

5 Helmer StrikDe dag vd Fonetiek, Utrecht, 22-12-055 Result of 3-grams 3-gramAWD in MWE context AWD in andere context verschil zoiets van ja57.2715.7541.52 in ieder geval37.1712.2624.91 af en toe34.7615.1519.61 op die manier31.9412.9918.95 ’t is natuurlijk45.5931.1114.48 weet ik niet29.2221.527.70 dat is natuurlijk34.6228.765.86 hoe heet dat30.4324.955.48 ook helemaal niet27.7824.403.38 als ’t ware23.1535.88-12.73

6 Helmer StrikDe dag vd Fonetiek, Utrecht, 22-12-056 Result of 4-grams 4-gramAWD in MWE context AWD in andere context verschil dat vind ‘k ook48.8929.0019.89 op een gegeven moment47.1327.9119.22 dat maakt niet uit42.4226.4915.93 dat is niet zo40.0028.4711.53 of wat dan ook31.5422.109.44 ‘k weet niet precies28.5722.735.84 dat weet ik niet29.0325.963.07 weet ik veel wat26.4525.081.37 dat weet ik nog24.5526.15-1.60 als ’t goed is18.5732.41-13.84

7 Helmer StrikDe dag vd Fonetiek, Utrecht, 22-12-057 Conclusies 1e onderzoek Er zijn N-grammen waarvan de uitspraak (sterk) afwijkend is, t.o.v.  Canoniek  Dezelfde woorden in andere contexten Meer reductie Multi-Woord Expressies

8 Helmer StrikDe dag vd Fonetiek, Utrecht, 22-12-058 MWEs, apart behandelen? MWEs – (veel) meer reductie Spraaktechnologie - ASR, APT, Segm.  Apart behandelen  Bijv. aparte entries in het lexicon  OVIS onderzoek (98&99): MWEs => lagere WER Psycholinguistiek - Spraakproductie, perceptie, acquisitie  Apart behandelen?  Bijv. aparte entries in het lexicon?

9 Helmer StrikDe dag vd Fonetiek, Utrecht, 22-12-059 MWEs bestuderen  Interessant  Verbeteren prestaties van machines  Maar hoe? Selecteren, bijv. in het CGN  Maar hoe?  Selectie criteria?  Definitie ontbreekt Case study: ‘op een gegeven moment’  CGN – component a (spontaan)

10 Helmer StrikDe dag vd Fonetiek, Utrecht, 22-12-0510. RealisationSubDelIns% Disagr. Op @n xe m@nt16043.8 Op @ xe m@nd27056.3 Op @ x@f mEnt16043.8 Op @N Gev@ momEnt12018.8 Ob @ xev@ mEnt15037.5 p @ Ge md110068.8 Op @ Ge mt09056.3 Op @ xe mnt08050.0 Op @ Ge m@nt17050.0 Ob @ Ge m@t28062.5 Op @ Ge @nt18056.3 @b @ Gev mEnt26050.0 Op @ xev@ m@nt (2x)15037.5 Op @ xe m@n18056.3 Ob @N xev@ mEnd34043.8 Ob @ Ge m@n28062.5 Ob @ Ge m@nt27056.3 Ob @ Gev m@nt26050.0 ub @ Gev mEnt26050.0 Op @ Gev@ mEnt (2x)05031.3 Average:1.26.40.047.7 Kerncorpus: 22 realisaties; DP oplijning met canonieke transcriptie (7 syllabes, 16 fonemen): Sub(stituties)Sub(stituties) Del(eties)Del(eties) Ins(erties)Ins(erties) %Disagreement%Disagreement

11 Helmer StrikDe dag vd Fonetiek, Utrecht, 22-12-0511 opeengegevenmoment Freq. MWE22 Andere3251470124 Lengte (# fonemen) MWE1.951.142.823.68 Andere1.971.824.005.63 Verschil-0.02-0.69-1.18-1.94 %Verschil-1%-38%-30%-35% Duur MWE0.090.050.190.17 Andere0.120.110.290.34 Verschil-0.03-0.06-0.10-0.16 %Verschil-24%-52%-35%-49% Articulatie snelheid MWE20.6020.7814.8321.23 Andere15.8216.1413.7516.72 Verschil4.794.641.094.51 %Verschil+30%+29%+8%+27%

12 Helmer StrikDe dag vd Fonetiek, Utrecht, 22-12-0512 Selectie criteria Selectie van N-grammen met verschillende criteria Frequentie ALD: Absolute Length Difference #fon. realisatie - #fon. canoniek RLD: Relative Length Difference 100% * ALD / #fon. canoniek ART: ARTiculation rate #fon. / duur Etc.

13 Helmer StrikDe dag vd Fonetiek, Utrecht, 22-12-0513 Hoogste Freq. RankOrthography#wordsFRQALDRLDART 1ja 2442-0.03-0.809.19 2dat is23670.407.9015.24 3ja maar22710.6112.2612.03 4da 's2266-2.62-87.2316.77 5en dan22440.469.1017.18 6ja dat22260.428.4012.51 7't is22230.9222.9815.03 8of zo22120.030.7012.26 9als je22091.9739.3412.78 10oh ja2207-0.03-1.137.90

14 Helmer StrikDe dag vd Fonetiek, Utrecht, 22-12-0514 Hoogste ALD RankOrthography#wordsFRQALDRLDART 1op een gegeven moment ook537.0038.8920.42 2een gegeven moment ook436.6741.6720.54 3op een gegeven moment4226.4140.0618.70 4een gegeven moment3226.3645.4618.27 5gegeven moment ook336.0042.8619.82 6natuurlijk helemaal236.0040.0020.93 7dan op een gegeven moment535.6729.8320.44 8is in ieder geval435.6743.5918.41 9gegeven moment2285.3944.9418.64 10je op een gegeven435.3344.4419.32

15 Helmer StrikDe dag vd Fonetiek, Utrecht, 22-12-0515 Hoogste RLD RankOrthography#wordsFRQALDRLDART 1een gegeven2273.9649.5416.19 2een gegeven moment3226.3645.4618.27 3gegeven moment2285.3944.9418.64 4je op een gegeven435.3344.4419.32 5hè als292.2244.449.07 6als je als363.5043.7510.71 7is in ieder geval435.6743.5918.41 8ze natuurlijk234.3343.3320.29 9gegeven moment ook336.0042.8619.82 10een gegeven moment ook436.6741.6720.54

16 Helmer StrikDe dag vd Fonetiek, Utrecht, 22-12-0516 Conclusies Verschillende selectiecriteria leiden tot verschillende N-grammen (MWEs). Welke selectie criteria? Combinatie: welke? ‘Moeder – kind’ probleem Evaluatie?  Andere taken (o.a. APT, Segm., ASR): Vergelijken met referentie (handmatige annotatie)  Hier?

17 Helmer StrikDe dag vd Fonetiek, Utrecht, 22-12-0517 ‘op een gegeven moment’ CGN – component a (alles) : 477 x op een gegeven moment 37 xop gegeven moment 12 xgegeven moment ?xxx gegeven moment ?op een uh gegeven moment ?op een gegeven mo ?op een gegeven m ?op een gegeven Wat is MWE? Wat is ‘andere context’?

18 Helmer StrikDe dag vd Fonetiek, Utrecht, 22-12-0518 Discussie Selectie van MWEs is problematisch Niet te algemeen; meer specifiek?  Sommige taken (o.a. ASR, APT, Segm.)  Optimaliseren van een criterium  Vergelijken met referentie (handmatige annotatie)  Andere taken?  Psycholinguistiek? Spraaktechnologie (applicaties):  MWE: wel / niet? Toevoegen aan lexicon  En wat? (20 realisaties van o.e.g.m.)

19 Helmer StrikDe dag vd Fonetiek, Utrecht, 22-12-0519 Meer informatie Voor meer informatie, zie //lands.let.ru.nl/ //lands.let.ru.nl/staff/strik.php zap.to/helmer = http://lands.let.kun.nl/TSpublic/strik/

20 Helmer StrikDe dag vd Fonetiek, Utrecht, 22-12-0520 Meer informatie Voor meer informatie, zie //lands.let.ru.nl/ //lands.let.ru.nl/staff/strik.php zap.to/helmer = http://lands.let.kun.nl/TSpublic/strik/


Download ppt "Watskeburt? Niets! Zo praten wij gewoon Helmer Strik et al. Radboud Universiteit Nijmegen, CLST."

Verwante presentaties


Ads door Google