MPEG-audio; compressie en standaarden ir. Patrick De Smet Dep. for Telecommunications and Information Processing
MPEG-audio; compressie en standaarden Inleiding MPEG-audio standaarden: MPEG 1, 2, 4, 7 MPEG-1 audio compressie: lagen 1-3 (mp3) Besluit en vragen
Inleiding (1) (“lossless” vs.) “lossy” gebruikt kennis van eigenschappen van menselijk oog/oor om perceptueel betere compressie te bekomen JPEG: Joint Pictures Expert Group: compressie van fotomateriaal Moving Pictures Expert Group : ISO/IEC JTC1/SC29/WG11 (MPEG vroeger vooral gekend/als doel:) compressie van bewegende beelden
Inleiding (2) video = beeld + audio MPEG-audio specifieer een syntax voor de codering; minimaliseer de implementatie gerelateerde restricties; specifieer “wat” niet “hoe” intelligentie/complexiteit centraliseren aan de codeerzijde t.o.v. snelle, goedkope en eenvoudige decoder MPEG nu: set van multi-media standaarden: MPEG-1, 2, 4, 7
MPEG-audio: MPEG-1(1) ISO/IEC standaard 11172: “Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s” compressie van max. 2 kanalen (stereo, mono) joint-stereo 32, 44.1 en 48 kHz signalen
MPEG-audio: MPEG-1 (2) compressie: drie “lagen”: hogere laag = –toenemende complexiteit –goede/betere subjectieve kwaliteit aan lagere bitrate toepassingen: laag 1: Digital Compact Cassette
MPEG-audio: MPEG-1 (3) laag 2: MUSICAM: Digital Audio Broadcasting laag 3: internet: “.mp3”
MPEG-audio: MPEG-2 (1) ISO/IEC 13818: “Generic coding of moving pictures and associated audio” bouwt verder op MPEG-1 lagere bemonsteringsfrequenties 8, 16, 22.5 kHz Multi-channel coding; –surround sound: matrixing –commentary channels Low Frequency Enhancement
MPEG-audio: MPEG-2 (2) Non Backwards Compatible modes: Advanced Audio Coding (AAC): 64 kbits/s hoge kwaliteit tot 48 kanalen; 16 kanalen voor effecten in lage frequenties, 16 overdub/multi-lingual kanalen, 16 datastreams 16 verschillende programma’s, verschillende profiles
MPEG-audio: MPEG-4 ISO/IEC 14496: “Multimedia Content Description Interface” (IS January 1999) oorspronkelijke doelstelling: –(zeer) lage bitrates en schaalbaar –codering van synthetische en natuurlijke data –hoge interactieve functionaliteiten –universele toegankelijkheid in foutgevoelige omgevingen
MPEG-audio: MPEG-4 (2) gecodeerde voorstelling van audiovisuele objecten; opnieuw beschrijft men niet “hoe” men dit moet doen, wel “wat” men kan coderen (b.v. voor beelden: segmentatie)
MPEG-audio: MPEG-4 schaalbare decodering vs. complexe decoder Synthetic and Natural Hybrid Coding Mpeg-4 Systems and Description Languages: virtuele machine met profiles om tools te specifieren/te kiezen MPEG-4 audio testing: coding efficiency, error resilience, scalability, speed change; (eerste) testresultaten/software beschikbaar
MPEG-4 1. Systems Normative Activities for MPEG-4 Version 1 – Systems Decoder Model (Time and Buffer Model), – Identification and Association of Elementary Streams (OD), – Scene Description : BIFS, – Synchronization of Elementary Streams (Sync. Layer), – Multiplexing of Elementary Streams (FlexMux), – Object Content Information (OCI), – Syntactic Description Language. 2. Systems Normative Activities for MPEG-4 Version 2 – Advanced Scene Description : BIFS++, – MPEG-4 and Java : MPEG-J, – MPEG-4 FileFormat : M4F, – Intellectual Property Management and Protection : IPMP.
MPEG-audio: MPEG-4 Natuurlijk geluid: –speech parametric coder (2-16 kbit/s) –CELP (6-24 kbit/s) –T/F coding ( kbits/s): TwinVQ, MPEG-2 AAC gesynthetiseerd geluid: – Text To Speech – Score Driven Synthesis; SAOL, MIDI mapping effecten: reverberators, spatializers, mixers, filters, dynamic range control,...
MPEG-audio: MPEG-7 (1) “Multimedia Content Description Interface”; extractie van meta-data: “the bits about the bits” a.h.w. compressie via meta-informatie op inhoud doorzoekbare databanken met multi- mediadata (fuzzy zoekacties) b.v.: –liedje neuriën of fluiten >> database doorzoeken –rode auto reed voorbij wit gebouw
MPEG-audio: MPEG-7 (2) standaardiseren van een set “descriptors”, manieren om andere “descriptors” en hun relaties te coderen/annoteren koppeling met elementen in MPEG-4 scene !!? Call For Proposals: October 1998, WD: dec. 1999, CD: oct. 2000, FCD: feb. 2001, DIS: july 2001, IS: nov. 2001
MPEG-1 audio: compressie verlieshebbende compressie; maakt gebruik van de eigenschappen van het menselijk oor bedoeling: verwijderen van niet hoorbare onderdelen van het audiosignaal –welke psycho-akoestische effecten kunnen we gebruiken ? –hoe toepassen ?
MPEG-1 audio: compressie: frequentie (on-)gevoeligheid van het menselijke gehoorsysteem; kritische banden en simultane maskering
MPEG-1 audio compressie maskering in de tijd
MPEG-1 audio compressie Hoe deze effecten toepassen ? –ga over van tijdsdomein naar frequentiedomein –kwantificeer de signalen afhankelijk v. e. berekende gevoeligheid >> getallen/maten en algoritmen nodig bereken een SMR (signal to mask ratio) waarde; a.d.h.v. de psycho-akoestische eigenschappen bereken een SNR (signal to noise ratio) waarde
MPEG-1 audio: compressie: bitallocatie: MNR = SNR - SMR (mask-to-noise ratio) verhoog nauwkeurigheid v.h. frequentiegebied met laagste maskering (kleinste MNR) herbereken (zoek opnieuw minimum over alle frequenties), en herhaal tot alle bits op zijn
MPEG-1 psycho-akoestische modellen model 1: –tonal/noise masking –global threshold model 2: –energy calculations –unpredictability calculations “cochlear masking”
MPEG-1 audio: lagen 1-3 Lagen 1 en 2: –subbandfilters –schaalfactore en bitallocatie –psycho-akoestisch model Laag 3: –dynamische window schakeling (time/frequency resolution trade-offs) –variabele bitrate –psycho-akoestisch model
Zie ingescande slides op webpagina
Zie ingescande slides (webpagina)
MPEG-1 compressie vs. kwaliteit laag 1: 384 kbit/s laag 2: 256 kbit/s –360 kbit/s for contribution (1:4), no audible defects with 5 chained codecs –256 kbit/s for distribution (1:5), no audible defects with 3 chained codecs –256 or 192 kbit/s in joint stereo for emission quality > 4.0 CCIR laag 3: 128 kbit/s gemiddeld (1:10): –120 kbit/s equivalent with 14 bits PCM
Besluit (1) MPEG heeft als doel het beschikbaar maken van een set van standaarden voor “louter compressie” tot geavanceerde op inhoud gebaseerde multi-media functionaliteiten toenemende complexiteit van de standaarden: –standaardisatie wordt moeilijker (technisch) –allerlei vakgebieden groeien naar elkaar toe –R&D vs. investeringen –andere problemen: patenten, DVD, AC3 vs MPEG
Besluit (2) Compressie –mp3 is populair op het internet, maar real-time is (nog) niet echt haalbaar >> laag 2 –AAC en andere MPEG-4 tools: technieken voor/van de nabije toekomst ??? –toekomst: MPEG-7: afh. v. huidige onderzoek