Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003
2 Overzicht Inleiding Basisprincipes Robuuste breedband-bundelvorming Meerkanaals optimale filtering Akoestische-kanaalschatting en dereverberatie Besluit en verder onderzoek
3 Overzicht Inleiding Situering en toepassingen Probleemstelling Bijdragen Basisprincipes Robuuste breedband-bundelvorming Meerkanaals optimale filtering Akoestische-kanaalschatting en dereverberatie Besluit en verder onderzoek
4 Opname van spraak in ongunstige akoestische omgeving Situering Spraakcommunicatietoepassingen: handenvrije mobiele telefonie, spraakgestuurde systemen, hoorapparaten Achtergrondlawaai: - ventilator, radio - andere personen - meestal ongekend Reverberatie (nagalm) - reflecties van signaal tegen muur, objecten Lage signaalkwaliteit Spraakverstaanbaarheid en spraakherkenning Inleiding -Situering -Probleemstelling -Bijdragen Basisprincipes Bundelvorming Meerkanaals optimale filtering Kanaalschatting en dereverberatie Besluit
5 Signaalverbetering Doelstelling Signaalverbeteringstechnieken: Ruisonderdrukking : verminderen van achtergrondlawaai zonder spraak te vervormen Dereverberatie : effect van nagalm verminderen Gecombineerde ruisonderdrukking en dereverberatie Akoestische bronlokalisatie: camera of volgspot Inleiding -Situering -Probleemstelling -Bijdragen Basisprincipes Bundelvorming Meerkanaals optimale filtering Kanaalschatting en dereverberatie Besluit
6 Video-conferencing: Microfoonrooster voor bronlokalisatie : – richten van camera op actieve spreker – signaalverbetering door sturen van microfoonrooster Toepassingen Handenvrije mobiele telefonie: Belangrijkste toepassing vanuit economisch standpunt Handenvrije kit in wagen verplicht Meeste huidige systemen: 1 directionele microfoon Inleiding -Situering -Probleemstelling -Bijdragen Basisprincipes Bundelvorming Meerkanaals optimale filtering Kanaalschatting en dereverberatie Besluit
7 Hoorapparaten en cochleaire implantaten: meeste slechthorenden lijden aan perceptueel gehoorverlies versterking verzwakking van ruis tov gewenst signaal Toepassingen Spraakgestuurde systemen: consumentenelektronica (HiFi, PC software) voordeel wanneer spraakherkenning betrouwbaar werkt in alle omstandigheden signaalverbetering als voorverwerking meerdere microfoons + DSP in hoorapparaat huidige systemen: eenvoudige bundelvorming robuustheid zeer belangrijk wegens kleine afstand microfoons Inleiding -Situering -Probleemstelling -Bijdragen Basisprincipes Bundelvorming Meerkanaals optimale filtering Kanaalschatting en dereverberatie Besluit
8 Algoritmische vereisten ‘Blinde’ technieken: ongekende ruisbronnen en omgeving Adaptief: tijdsvariante signalen en akoestische omgeving Robuustheid: Microfoonkarakteristieken (versterking, fase, positie) Andere afwijkingen van veronderstelde signaalmodel Integratie van verschillende technieken Berekeningscomplexiteit Inleiding -Situering -Probleemstelling -Bijdragen Basisprincipes Bundelvorming Meerkanaals optimale filtering Kanaalschatting en dereverberatie Besluit
Probleemstelling en bijdragen 9 Eénkanaals-technieken – spectrale subtractie [Boll 79, Ephraim 85, Xie 96] Signaalonafhankelijke transformatie Problemen met residuele ruis – deelruimte-gebaseerd [Dendrinos 91, Ephraim 95, Jensen 95] Signaalafhankelijke transformatie signaalruimte + ruisdeelruimte 2. Meerkanaals optimale filtering spatiale informatie robuustheid 3. Blinde kanaalschatting dereverberatie 1. Robuuste breedband- bundelvorming Meerkanaals-technieken – vaste bundelvorming [Dolph 46, Cox 86, Ward 95, Elko 00] Vast directiviteitspatroon – adaptieve bundelvorming [Frost 72, Griffiths 82, Gannot 01] aanpassen aan verschillende omgevingen performantie `Generalised Sidelobe Canceller’ (GSC) – inverse, ‘matched’ filtering [Myoshi 88, Flanagan 93, Affes 97] enkel spectrale informatiea-priori veronderstellingen
10 Overzicht Inleiding Basisprincipes Signaalmodel Karakteristieken van signalen en akoestische omgeving Robuuste breedband-bundelvorming Meerkanaals optimale filtering Akoestische-kanaalschatting en dereverberatie Besluit en verder onderzoek
11 Signaalmodel Model voor microfoonsignalen in tijdsdomein: gefilterde versie van zuiver spraaksignaal + additieve gekleurde ruis Akoestische impulsresponsie Spraak- signaal Additieve ruis Inleiding Basisprincipes -Signaalmodel -Karakteristieken Bundelvorming Meerkanaals optimale filtering Kanaalschatting en dereverberatie Besluit
12 Signaalmodel Meerkanaals-signaalverbetering: microfoonsignalen worden gefilterd met filters w n [k] en gesommeerd f [k] = totale transferfunctie voor spraakcomponent z v [k] = residuele ruiscomponent Technieken verschillen in berekening van filters: Ruisonderdrukking : minimaliseer residuele ruis z v [k] en beperk spraakvervorming Dereverberatie : f [k] = δ [k] door schatten van akoestische impulsresponsies h n [k] Gecombineerde ruisonderdrukking en dereverberatie Inleiding Basisprincipes -Signaalmodel -Karakteristieken Bundelvorming Meerkanaals optimale filtering Kanaalschatting en dereverberatie Besluit
13 Karakteristieken van signalen Spraak: Breedbandig ( Hz) Aan/uit-karakteristiek Spraakdetectie-algoritme (VAD) Lineair lage-rangmodel: lineaire combinatie van basisfuncties Amplitude Tijd (sec) (R=12…20) Ruis: ongekende signalen zonder referentie traag-variërend (ventilator) niet-stationair (radio, spraak) Inleiding Basisprincipes -Signaalmodel -Karakteristieken Bundelvorming Meerkanaals optimale filtering Kanaalschatting en dereverberatie Besluit
14 Akoestische omgeving Reverberatietijd T 60 : globale karakteristiek Akoestische impulsresponsies: Akoestische filtering tussen spreker en microfoons FIR-filter (K=1000…2000 taps) Niet-minimum-fasesysteem geen stabiele inverse Microfoonrooster: Veronderstelling: puntsensoren met ideale karakteristiek Afwijkingen: versterking, fase, positie AutoKamerKerk 70 ms250 ms1500 ms Tijd (sec) Amplitude Impulsresponsie PSK rij 9 Inleiding Basisprincipes -Signaalmodel -Karakteristieken Bundelvorming Meerkanaals optimale filtering Kanaalschatting en dereverberatie Besluit
15 Overzicht Inleiding Basisprincipes Robuuste breedband-bundelvorming Nieuwe ontwerpprocedures voor breedband- bundelvorming Robuuste bundelvorming tegen afwijkingen in versterking en fase Meerkanaals optimale filtering Akoestische-kanaalschatting en dereverberatie Besluit en verder onderzoek
16 Vaste bundelvorming Ruis- en spraakbronnen met zelfde spectrum op verschillende posities Benut spatiale diversiteit door meerdere microfoons Originele techniek uit radartoepassingen: Smallband : compensatie van vertraging breedband ‘Far-field’ : vlakke golven ‘near-field’ : sferische golven Gekende karakteristieken van sensoren afwijkingen - Lage complexiteit - Robuustheid bij lage signaal-ruisverhouding - A-priori kennis over posities en microfoonkarakteristieken - Signaal-onafhankelijk FIR ‘filter-and-sum’ structuur: willekeurig directiviteits- patroon voor willekeurige microfoonconfiguratie Onderdrukken ruis en reverberatie uit bepaalde richtingen Inleiding Basisprincipes Bundelvorming -Ontwerp -Robuust Meerkanaals optimale filtering Kanaalschatting en dereverberatie Besluit
17 ‘Filter-and-sum’ configuratie Doelstelling: bereken filters w n [k] zodat bundelvormer gewenste vaste spatiale en spectrale filtering uitvoert Far-field: - vlakke golven - gelijke verzwakking 2D-filterontwerp in hoek en frequentie Directiviteitspatroon: Gewenst directiviteitspatroon: Inleiding Basisprincipes Bundelvorming -Ontwerp -Robuust Meerkanaals optimale filtering Kanaalschatting en dereverberatie Besluit
18 Ontwerpprocedures Ontwerp filter w zodat directiviteitspatroon zo dicht mogelijk benadert over volledig frequentie-hoek- gebied minimalisatie van kostfunctie Niet-lineare kostfunctie iteratieve optimalisatie = complex! Gewogen-kleinste-kwadraten kwadratische functie Eigenfilter gebaseerd op TLS-criterium GEVD Besluit: TLS-eigenfilter beste niet-iteratieve procedure Inleiding Basisprincipes Bundelvorming -Ontwerp -Robuust Meerkanaals optimale filtering Kanaalschatting en dereverberatie Besluit
19 Niet-lineaire procedureTLS-Eigenfilter Simulaties Angle (deg) Freq (Hz) dB Angle (deg) Freq (Hz) dB Parameters: -N=5, d=4cm -L=20, f s =8kHz -Pass: 40 o -80 o -Stop: 0 o -30 o + 90 o -180 o Delay-and-sum Angle (deg) Freq (Hz) dB
20 Kleine afwijkingen van veronderstelde karakteristieken (versterking, fase, positie) grote afwijkingen in directiviteits- patroon, zeker voor microfoonroosters met kleine afmeting In de praktijk zijn microfoonkarakteristieken nooit exact gekend Beschouw alle mogelijke microfoonkarakteristieken en optimaliseer gemiddelde performantie met waarschijnlijkheid als gewicht ‘worst-case’ performantie minimax-optimalisatieprobleem Robuuste breedband bundelvorming Breng specifieke (willekeurige) afwijkingen in rekening Meet- of kalibratieprocedure Inleiding Basisprincipes Bundelvorming -Ontwerp -Robuust Meerkanaals optimale filtering Kanaalschatting en dereverberatie Besluit
21 Simulaties Niet-lineaire ontwerpprocedure N=3, posities: [ ] m, L=20, f s =8 kHz Passband = 0 o -60 o, Hz (endfire) Stopband = 80 o -180 o, Hz Robuust ontwerp voor gemiddelde performantie: Uniforme pdf = ( ) en (-5 o -10 o ) Afwijking = [ ] en [5 o -2 o 5 o ] Ontwerp JJ dev Niet-robuust Gemiddelde kost Maximum kost Inleiding Basisprincipes Bundelvorming -Ontwerp -Robuust Meerkanaals optimale filtering Kanaalschatting en dereverberatie Besluit
22 Niet-robuust ontwerpRobuust ontwerp Geen afwijkingen Afwijkingen (versterking/fase) Simulaties Angle (deg) Frequency (Hz) dB Angle (deg) Frequency (Hz) dB Angle (deg) Frequency (Hz) dB Angle (deg) Frequency (Hz) dB Inleiding Basisprincipes Bundelvorming -Ontwerp -Robuust Meerkanaals optimale filtering Kanaalschatting en dereverberatie Besluit
23 Overzicht Inleiding Basisprincipes Robuuste breedband-bundelvorming Meerkanaals optimale filtering GSVD-gebaseerde optimaal-filtertechniek Verminderen van berekeningscomplexiteit Simulaties Akoestische-kanaalschatting en dereverberatie Besluit en verder onderzoek
24 Meerkanaals optimale filtering Doel: optimale schatting van spraakcomponenten in microfoonsignalen Minimaliseer MSE Vertraagde spraakcomponent in microfoonsignaal Uitgangssignaal Geen veronderstellingen Standaard (adaptieve) bundelvorming: LCMV Lineaire beperkingen: a-priori veronderstellingen over microfoon + positie Meer-kanaals Wiener Filter -Spraak en ruis onafhankelijk -2e orde statistiek ruis stationair schatten tijdens ruisperiodes (VAD) MeerkanaalsSignaal-afhankelijk Robuustheid Inleiding Basisprincipes Bundelvorming Meerkanaals optimale filtering -Optimale filtering -Complexiteit -Simulaties Kanaalschatting en dereverberatie Besluit
25 Meerkanaals optimale filtering Implementatietechniek: gebaseerd op Veralgemeende-Singuliere-Waarde-Ontbinding (GSVD) – in rekening brengen van lage-rangmodel spraak – afweging tussen ruisonderdrukking en spraakvervorming QRD [Rombouts 2002], subband [Spriet 2001] lagere complexiteit Spraakdetectie-mechanisme is enige a-priori veronderstelling: nodig voor schatting van correlatiematrices - =1 : MMSE (gelijk belang) - <1 : minder spraakvervorming, minder ruisonderdrukking - >1 : meer spraakvervorming, meer ruisonderdrukking Inleiding Basisprincipes Bundelvorming Meerkanaals optimale filtering -Optimale filtering -Complexiteit -Simulaties Kanaalschatting en dereverberatie Besluit
26 Opsplitsing in spatiaal en spectraal gedeelte Gewenst directiviteitspatroon voor eenvoudige scenario’s Analyse in het frequentiedomein spectrale filtering (PSD) spatiale filtering (coherentie) Inleiding Basisprincipes Bundelvorming Meerkanaals optimale filtering -Optimale filtering -Complexiteit -Simulaties Kanaalschatting en dereverberatie Besluit SpraakRuis
27 Verminderen van complexiteit Recursieve versie: elke tijdsstap berekening GSVD + filter Complexiteitsreductie door: Recursieve technieken voor herberekening GSVD [Moonen 90] Sub-bemonstering (stationaire akoestische omgevingen) Hoge berekeningscomplexiteit ‘Batch’RecursiefQRD [Rombouts] sub = Gflops2.1 Gflops358 Mflops sub = Gflops105 Mflops18 Mflops (N = 4, L = 20, M=80, f s = 16 kHz, P = 4000, Q = 20000) Real-time implementatie mogelijk Inleiding Basisprincipes Bundelvorming Meerkanaals optimale filtering -Optimale filtering -Complexiteit -Simulaties Kanaalschatting en dereverberatie Besluit
28 Verminderen van complexiteit Integratie in ‘Generalised Sidelobe Canceller’ (GSC) structuur: adaptieve bundelvorming Creatie van ‘spraakreferentie’ en ‘ruisreferentie’ Standaard meerkanaals adaptief filter (LMS, APA) Spraak- referentie Optimaal filter Ruis- referentie(s) + – Adaptief filter delay Blocking matrix Ruis- referenties Spraak- referentie f [k]f [k] Delay-sum bundelvormer Meer-kanaals adaptief filter Verhogen van performantie Verminderen van complexiteit door korte filters Inleiding Basisprincipes Bundelvorming Meerkanaals optimale filtering -Optimale filtering -Complexiteit -Simulaties Kanaalschatting en dereverberatie Besluit
29 Simulaties N=4, SNR=0 dB, 3 ruisbronnen (wit, spraak, muziek), f s =16 kHz Performantie: verbetering van signaal-ruisverhouding (SNR) Reverberatietijd (msec) Unbiased SNR (dB) Delay-and-sum bundelvormerr GSC (L ANC =400, ruisref=Griffiths-Jim) Recursieve GSVD (L=20, L ANC =400, alle nref) Recursieve GSVD (L=20, geen ANC) Inleiding Basisprincipes Bundelvorming Meerkanaals optimale filtering -Optimale filtering -Complexiteit -Simulaties Kanaalschatting en dereverberatie Besluit
30 Conclusies GSVD-gebaseerde optimaal-filtertechniek: Meerkanaals-uitbreiding van éénkanaals deelruimte- gebaseerde technieken Signaal-afhankelijk lage-rangmodel spraak Geen a-priori veronderstellingen over sprekerpositie en microfoons SNR-verbetering beter dan GSC voor alle reverberatietijden en beschouwde akoestische scenario’s Grotere robuustheid tegen afwijkingen in signaalmodel: Microfoonkarakteristieken Sprekerpositie VAD: enige a-prori informatie! – Geen effect op SNR-verbetering – Beperkt effect op spraakvervorming Inleiding Basisprincipes Bundelvorming Meerkanaals optimale filtering -Optimale filtering -Complexiteit -Simulaties Kanaalschatting en dereverberatie Besluit
31 Overzicht Inleiding Basisprincipes Robuuste breedband-bundelvorming Meerkanaals optimale filtering Akoestische-kanaalschatting en dereverberatie Technieken in tijdsdomein Technieken in frequentiedomein Gecombineerde ruisonderdrukking en dereverberatie Besluit en verder onderzoek
32 Doelstelling Blinde schatting van akoestische impulsresponsiesTijdsdomein Frequentiedomein Ruisonderdrukking en dereverberatie DereverberatieBronlokalisatie Inleiding Basisprincipes Bundelvorming Meerkanaals optimale filtering Kanaalschatting en dereverberatie -Tijdsdomein -Frequentiedomein -Dereverberatie Besluit
33 Signaalmodel voor N=2 en geen achtergrondruis Deelruimte-gebaseerde techniek: impulsresponsies kunnen berekend uit nulruimte van spraakcorrelatiematrix (Veralgemeende) eigenvector behorend bij kleinste (veralgemeende) eigenwaarde Problemen van techniek in tijdsdomein: – gevoeligheid aan onderschatting van kanaallengte – lage-rangmodel in combinatie met achtergrondruis Technieken in tijdsdomein S(z)S(z) H0(z)H0(z) H1(z)H1(z) Y1(z)Y1(z) Y0(z)Y0(z) Signalen -H 1 (z) H0(z)H0(z) Nulruimte 0 ±α±α ±α±α E(z)E(z) E(z)E(z) Inleiding Basisprincipes Bundelvorming Meerkanaals optimale filtering Kanaalschatting en dereverberatie -Tijdsdomein -Frequentiedomein -Dereverberatie Besluit
34 Niet-adaptieve techniek vormt basis voor afleiding van adaptief stochastich-gradiëntalgoritme Gebruik : schatting van gedeeltelijke impulsresponsies schatting van tijdsvertraging voor bronlokalisatie Stochastisch-gradiëntalgoritme Inleiding Basisprincipes Bundelvorming Meerkanaals optimale filtering Kanaalschatting en dereverberatie -Tijdsdomein -Frequentiedomein -Dereverberatie Besluit
35 Technieken in frequentiedomein Problemen technieken in tijdsdomein frequentiedomein Signaalmodel: Schatting van akoestische transferfunctievector H( ) uit GEVD van correlatiematrices en Behorend bij grootste veralgemeende eigenwaarde geen stochastisch-gradiëntalgoritme beschikbaar Onbekende schaleringsfactor in elke frequentiebin: kan bepaald worden indien norm gekend is enkel toepasbaar wanneer positie van bron vrij vast is (bv. desktop, wagen) Inleiding Basisprincipes Bundelvorming Meerkanaals optimale filtering Kanaalschatting en dereverberatie -Tijdsdomein -Frequentiedomein -Dereverberatie Besluit
36 Filteroperatie in frequentiedomein: Dereverberatie: genormaliseerd ‘matched filter’ Gecombineerde ruisonderdrukking en dereverberatie: Z( ) is optimale schatting van S( ) integratie van meer-kanaals Wiener-filter met genormaliseerd ‘matched filter’ Afweging tussen beide doelstellingen Gecombineerde ruisonderdrukking en dereverberatie Residuele ruis Inleiding Basisprincipes Bundelvorming Meerkanaals optimale filtering Kanaalschatting en dereverberatie -Tijdsdomein -Frequentiedomein -Dereverberatie Besluit
37 Simulaties N=4, d=2 cm, f s =16 kHz, SNR=0 dB, T 60 =400 msec FFT-grootte L=1024, overlap R=16 Performantiecriteria: Signaal-ruisverhouding (SNR) Dereverberatie-index (DI) : SNR (dB)DI (dB) Origineel microfoonsignaal Ruisonderdrukking Dereverberatie Gecombineerde ruisonderdrukking en dereverberatie Inleiding Basisprincipes Bundelvorming Meerkanaals optimale filtering Kanaalschatting en dereverberatie -Tijdsdomein -Frequentiedomein -Dereverberatie Besluit
38 Besluit Lage signaalkwaliteit door achtergrondruis en reverberatie signaalverbetering om spraakverstaanbaarheid en performantie te verhogen Eénkanaals-technieken: spectrale informatie Standaard bundelvorming: a-priori veronderstellingen Geen a-priori veronderstellingen MeerkanaalsSignaal-afhankelijk Blinde kanaalschatting dereverberatie Robuuste breedband- bundelvorming Meerkanaals optimale filtering Inleiding Basisprincipes Bundelvorming Meerkanaals optimale filtering Kanaalschatting en dereverberatie Besluit
39 Bijdragen Robuuste breedband-bundelvorming: nieuwe kostfuncties voor breedband ‘far-field’-ontwerp (niet-lineair, eigenfilter) uitbreiding naar ‘near-field’ en ‘mixed near-far field’ 2 procedures voor robuust ontwerp tegen afwijkingen in versterking en fase GSVD-gebaseerde optimaal-filtertechniek voor meerkanaals-ruisonderdrukking: uitbreiding éénkanaals deelruimte-gebaseerde technieken meerdere microfoons integratie in GSC-structuur betere performantie en robuustheid dan bundelvorming Akoestische-kanaalschatting en dereverberatie: stochastisch-gradiëntalgoritme voor schatten van tijdsvertraging en bronlokalisatie (gekleurde ruis) gecombineerde ruisonderdrukking en dereverberatie in frequentiedomein Inleiding Basisprincipes Bundelvorming Meerkanaals optimale filtering Kanaalschatting en dereverberatie Besluit
40 Verder onderzoek Combinatie van meerkanaals Wiener-filter en vaste bundelvorming: Lage SNR: VAD faalt lage performantie Wiener-filter Gecombineerde techniek: robuuster wanneer VAD faalt, betere performantie dan vaste bundelvorming in andere scenario’s Akoestische-kanaalschatting en dereverberatie: Tijdsdomein: onderliggende reden gevoeligheid Frequentiedomein: onbekende schalingsfactor BSS ? andere blinde identificatietechnieken (LP, NL Kalman-filtering) Verdere vermindering van complexiteit van meerkanaals optimaal-filtertechniek: Stochastische-gradiëntalgoritmes Subband/frequentie-domein Inleiding Basisprincipes Bundelvorming Meerkanaals optimale filtering Kanaalschatting en dereverberatie Besluit
41 Publicaties en projecten Publicaties: Journals: 1 gepubliceerd, 4 aanvaard Conferenties: 11 artikels voorgesteld Hoofdstuk in Boek ‘Microphone Arrays: Signal Processing Techniques and Applications’ (Eds. M. Brandstein, D. Ward) Best Student Paper Award IWAENC-2001 Financiering: IWT (Instituut voor de aanmoediging van Innovatie door Wetenschap en Technologie in Vlaanderen) : Industriële projecten: Philips-ITCL: ‘Multi-microphone signal enhancement techniques for hands-free telephony and voice-controlled systems’ (MUSETTE I-II) Cochlear CTCE: `Performance improvement of cochlear implants by innovative speech processing algorithms’ Inleiding Basisprincipes Bundelvorming Meerkanaals optimale filtering Kanaalschatting en dereverberatie Besluit