Digitaaliaudion perusteet

Tämä materiaali on tehty Kallion lukion äänitekniikan jatkokurssia (VÄT4) varten. Kurssin sisältönä on studiotyöskentely (tietokonepohjainen äänittäminen, editointi ja miksaus).

Analoginen / Digitaalinen

Kun audiosignaali on analogista, se vastaa periaatteessa yksi yhteen alkuperäistä ääntä sillä erotuksella, että ”ilmaääni” eli ilmanpaineen värähtely on muutettu sähköiseksi aaltoliikkeeksi. Analoginen signaali on kuitenkin altis häiriöille, etenkin kohinalle. Analogista signaalia muokataan ja vahvistetaan sähköisillä virtapiireillä, ja mitä usemman laitteen läpi signaali kulkee sitä enemmän se vääristyy ja kerää mukaansa kohinaa. Vasta hyvin hintavilla ammattilaitteilla kohina saadaan pidettyä kurissa niin, ettei sitä kuule. Toisaalta analoginen signaali mahdollistaa hyvin luonnollisen kuuloisen äänen toistamisen ja muokkaamisen suhteellisen yksinkertaisilla laitteilla.

Analogiselle magneettinauhalle tallennettaessa voidaan myös hyödyntää ns. ”nauhakompressiota”, jossa signaalia äänitetään nauhalle liian voimakkaasti, jolloin se säröytyy miellyttävästi ja kompressoituu samalla.

Digitaalinen audiosignaali on numeraalinen mallinnus alkuperäisestä äänestä tai analogisesta audiosignaalista. Kun signaali digitoidaan, se muutetaan numeroarvoiksi. Mitä tarkemmin signaali voidaan mitata ja mitä enemmän ”numeroita” on käytössä sitä tarkempi mallinnus voidaan tehdä.

Lisääntyvä tarkkuus vie luonnollisesti enemmän tallenuskapasiteettia ja vaatii laitteistolta enemmän tehoa. Digitaalisuuden etu on se, että kun signaali on kerran muutettu numeraaliseen muotoon, siitä voi sen jälkeen tehdä rajattomasti kopioita äänenlaadun kärsimättä ja signaalia voi siirtää vaikka toiselle puolelle maapalloa ilman, että se muuttuu matkan varrella.

Numeraalista dataa on myös helppo muokata tietokoneen ja digitaalisten efektilaitteiden avulla.

AD- ja DA-muunnos

Soittimesta lähtevä, akustinen ”ilmaääni” muutetaan mikrofonin avulla sähköiseksi audiosignaaliksi. Tämä heikko, analoginen signaali vahvistetaan mikrofonietuasteessa eli etuvahvistimessa ns. normaalitasoiseksi (unity gain).

Vahvistettu sähkösignaali ohjataan nyt AD-muuntimeen (analog-to-digital converter eli ADC). AD-muunnin suodattaa aluksi pois sellaiset korkeat taajuudet (ns. alias-taajuudet), jotka ylittävät muuntimen konvertointikyvyn. Tämän jälkeen analogisen audiosignaalin jännitevaihtelut muunnetaan digitaaliseen muotoon ottamalla signaalista näytteitä (sample). Mitä enemmän näytteitä otetaan, sen paremmin digitaalisignaali vastaa alkuperäistä. Yleisimmin käytetty digitointitapa on PCM-koodaus (pulssikoodimodulaatio), johon tämäkin artikkeli keskittyy.

DA-muunnin (digital-to-analog converter eli DAC) vastaavasti muuttaa digitaalisen signaalin takaisin analogiseksi, jotta se voidaan esimerkiksi toistaa kaiuttimista tai kuulokkeista. DA-muunnin löytyy esim. mp3-soittimesta, tietokoneesta, digiboksista, pelikonsolista jne.

Näytteenotto

AD-muuntimessa analogisignaalista otetaan näytteitä tuhansia kertoja sekunnissa. Mitä tiheämmin näytteitä otetaan, sen parempi äänenlaatu saavutetaan etenkin korkeilla taajuuksilla. Näytteenoton tiheyttä kutsutaan näytetaajuudeksi (sample rate). Se kertoo, kuinka monta näytettä otetaan sekunnin aikana. CD-levyn näytetaajuus on 44,1 kHz eli 44 100 näytettä sekunnissa. Nykyään yleiset äänityksissä käytetyt näytetaajuudet ovat 44,1 kHz, 48 kHz ja 96 kHz. Joissain etenkin klassisen musiikin äänityksissä ja elokuvaäänityksissä käytetään jopa 192 kHz:n näytetaajuutta.

Vaikka soittimen perusääni ei soisikaan kovin korkealta, sointivärin muodostava harmoninen ylä-äänessarja (ks. luku Äänen ominaisuuksia) voi ulottua erittäin korkeisiin taajuuksiin. Niinpä näytteenottotaajuudella on vaikutusta soundiin.

Näytteenotossa korkein säilyvä taajuus on nimeltään Nyquistin taajuus, joka on puolet näytetaajuudesta. Näytetaajuuden on siis oltava vähintään kaksi kertaa niin suuri kuin alkuperäisen analogisignaalin korkein taajuus, jotta koko soiva taajuusalue tulee mallinnettua. Ihmisen teoreettinen kuuloalue on 20 Hz – 20 kHz. Näytteenottotaajuuden olisi hyvä olla siis vähintään 40 kHz, mieluiten enemmän, jotta ääni ei vääristy liikaa.

Bittisyvyys

Näytteenotossa mitataan itse asiassa audiosignaalin voimakkuutta. Jokaisen näytteen voimakkuusarvo pyöristetään mittauksessa käytettävän asteikon arvoiksi. Mitä enemmän arvoja on käytettävissä, eli mitä tarkempi mittari on, sitä lähemmäs alkuperäistä voimakkuusarvoa päästään. Mittaustarkkuuden sanelee käytettävissä oleva bittimäärä eli ”bittisyvyys”. Tähän vaikuttaa laitteiston nopeus ja tallennuskapasiteetti. Esimerkiksi 4 bitillä saadaan 16 eri arvoa, 16 bitillä saadaan 65 536 eri arvoa, ja 24 bitillä eri arvoja on jo 16 777 215, siis yli 16 miljoonaa. Myös termiä ”resoluutio” käytetään tässä yhteydessä, mikä onkin helppo ymmärtää jos vertaa vaikka tietokone- tai televisiokuvaan: mitä tarkempi resoluutio, sitä paremmin kuva muistuttaa alkuperäistä.

Analogisessa audiosignaalissa ääni on muutettu sähköjännitteen vaihteluiksi.

Digitoinnissa audiosignaalista otetaan voimakkuusnäytteitä tasaisin väliajoin (punaiset pystyviivat). Tässä esimerkissä asteikko on yksinkertaisuuden vuoksi ainoastaan 8-portainen, mutta normaalisti voimakkuusarvoja on käytössä tuhansia tai miljoonia. Huomaa, että signaalin voimakkaimmassa kohdassa digitoinnin asteikko loppuu kesken. Tällaista tilannetta pyritään välttämään hiljentämällä signaalia niin, että sen voimakkaimmatkin kohdat mahtuvat asteikon sisälle.

Digitaalinen signaali muistuttaa sitä enemmän alkuperäistä analogisignaalia, mitä tiheämmin näytteitä otetaan (näytetaajuus) ja mitä tarkempi mittausasteikko eli resoluutio on käytössä (bittisyvyys). Täysin alkuperäisen kaltaiseen mallinnukseen ei kuitenkaan teoriassa koskaan päästä.

CD-levyssä käytetään 16-bittistä resoluutiota. Äänityksissä käytetään nykyään yleensä 24 bittiä, mutta korkeampiakin bittimääriä on käytössä. Bittimäärä vaikuttaa äänitteen dynamiikka-alueeseen, eli hiljaisten ja voimakkaiden äänien väliseen eroon. Yksi bitti pystyy kuvaamaan n. 6 dB:n dynamiikkatietoa, jolloin äänitteen kokonaisdynamiikka on eri bittisyvyyksillä seuraava:

8 bittiä n. 48 dB
16 bittiä n. 96 dB
24 bittiä n. 144 dB

Mitä isompi bittimäärä, sitä parempi signaali-kohinasuhde, eli hiljaiset äänet eivät huku taustakohinaan. Koska kohina alkaa kuulua dynamiikka-alueen alapäästä, on mielekästä pyrkiä pitämään signaali mahdollisimman voimakkaana. Liian voimakas signaali kuitenkin säröytyy, joten signaalin huiput pyritään jättämään turvallisen matkan päähän maksimitasosta. Jos tätä ”headroomia” jätetään esimerkiksi 20 dB, niin 16 bitin resoluutiolla dynamiikka-alue kaventuu 96 dB:stä 76 dB:iin. Ihmisen teoreettinen dynamiikkataju on n. 90 dB, joten kohina on näin ollen kuultavissa. Vastaava tilanne 24 bitin resoluutiolla jättää kohinan kuulumattomiin.

Mittarointi ja nollataso

Audio-ohjelmien miksereissä käytetään yleensä huippuarvomittareita (PPM = Peak Performance Meter), jotka reagoivat signaalin huippuarvoihin, mutta eivät kerro signaalin keskimääräisestä tasosta. Analogipuolelta tutumpi on VU-mittari (Volume Unit) eli RMSmittari (Root Mean Square), joka ei reagoi huippuihin, vaan kertoo keskiarvon, mikä on lähempänä korvan aistimaa äänenvoimakkuutta.

Digitaalisten audiolaitteiden absoluuttinen maksimisignaalitaso on 0 dBFS (Decibel Full Scale). Koko mitta-asteikko on silloin käytössä (kaikki bitit ovat ykkösiä), mistä merkintä ”Full Scale”. 0-tasoa pienemmät signaalitasot ilmaistaan mittareissa miinusmerkkisellä desibeliasteikolla.

Jos alkuperäinen signaali on voimakkaampi kuin o dBFS, sille ei kuitenkaan enää löydy enempää numeroarvoja. Tällaisessa tilanteessa signaali leikkautuu eli ”klippaa” (engl. clip). Aaltomuodon kaari muuttuu teräväksi – ikään kuin siltä leikattaisiin hattu pois – ja kuulemme sen särönä. Myös analogisissa laitteissa 0 dB:n ylitys aiheuttaa säröä, mutta se on usein miellyttävän kuuloista, joskus jopa haluttu efekti. Digitaalisärö on lähes poikkeuksetta varsin ikävän kuuloista

Kuvassa signaalin (huilu) voimakkaimmat huiput klippaantuvat ProTools-ohjelmassa.

Vaikka signaali pyritäänkin äänittämään niin voimakkalla tasolla, ettei pohjakohinaa kuulu, digitaaliäänittämisessä jätetään aina hieman turvavaraa 0-tason ja signaalin kovimman huipun väliin. Tätä väliä kutsutaan nimellä headroom. Audio-ohjelmat näyttävät desibeleinä, kuinka kaukana yliohjautumisesta ollaan. Yliohjautumisen estämiseksi juuri PPM-mittarit ovat digitaaliäänittämisessä turvallinen valinta.

Lineaarinen tallennus vs. äänen pakkaaminen

Yllä selostettua PCM-koodausta eli tavallisinta äänen digitointitapaa kutsutaan joskus myös lineaariseksi tallennukseksi. Tavoitteena on siis muuntaa analogisignaali digitaaliseksi mahdollisimman tarkasti alkuperäisen mukaan (näytetaajuuden ja bittisyvyyden rajoissa). Signaalista ei poisteta mitään informaatiota, joten se kuluttaa paljon tallennustilaa.

WAV- ja AIFF-tiedostot ovat yleisimmät lineaariset eli PCM-tallennusmuodot. Myös CD:ssä käytetään tällaista pakkaamatonta tallennustapaa, vaikkakin CD:lle voi myös tallentaa pakattua ääntä. Ammattimainen äänenkäsittely perustuu lähes poikkeuksetta lineaariseen eli pakkaamattomaan signaaliin.

Signaalin pakkauksessa alkuperäinen ääni-informaatio muutetaan muotoon, jossa se vie vähemmän tallennustilaa ja siirtokapasiteettia. Pakkaustekniikoita on karkeasti jaoteltuna kahdenlaisia:

1) Häviöllinen pakkausmenetelmä (lossy compression), esim. MP3, AAC (m4a), WMA, Ogg Vorbis, MiniDisc, Dolby Digital

2) Häviötön pakkausmenetelmä (lossless compression), esim. FLAC, Apple Lossless, WMA Lossless, DTS-HD Master Audio, Dolby TrueHD

Häviöllisessä pakkaamisessa digitaalisesta informaatiosta poistetaan sellaiset elementit, joita korva ei välttämättä kuule. MP3-teknologiassa käytetään menetelmää, jossa voimakkaan taajuden vieressä oleva heikompi taajuus jätetään pois, koska korva ei sitä kuitenkaan pysty erottamaan (masking-ilmiö). Myös toistuvat informaatiopätkät niputetaan yhteen matemaattisilla  lausekkeilla, kuten esim. jpeg-kuvanpakkauksessa tehdään. Äänen häviöllisessä pakkauksessa päästään n. kymmenesosaan alkuperäisen tiedoston koosta ilman merkittävää äänenlaadun vääristymistä.

Häviöttömässä pakkaamisessa alkuperäinen materiaali koodataan matemaattisilla menetelmillä lyhyempään muotoon niin, että se voidaan myöhemmin palauttaa täysin alkuperäistä vastaavaksi. Pakkaustehokkuus ei tosin ole yhtä hyvä kuin esim. MP3:ssa, mutta tallennustilan ja tiedonsiirtonopeuksien jatkuvasti kasvaessa tämä ei liene enää suuri ongelma.

Pakkauksen laatu ilmoitetaan yleensä kbps-yksiköissä (kilobittiä per sekunti). Tällä kuvataan, kuinka paljon informaatiota uhrataan äänen mallintamiseen joka sekunti. Mitä isompi luku, sitä parempilaatuinen pakkaus. MP3-pakkauksessa 128 kbps on yleensä riittämätön laadukkaaseen musiikkikäyttöön, minkä kuulee vääristyminä etenkin ylätaajuuksissa (esim. rumpujen symbaalit), mutta 160 kbps ja 192 kbps alkavat jo riittää. Monissa pakkausmenetelmissä voidaan käytää myös vaihtelevaa bittimäärää (VBR = Variable Bit Rate), jolloin konvertointiohjelma analysoi materiaalin ja vaihtelee bittimäärää riippuen pakattavasta äänestä. Tämä säästää tallennustilaa, mutta ei ole välttämättä yhteensopiva kaikkien ohjelmien ja laitteiden kanssa.

Copyright 2012–2016 Matias Harju

Jätä kommentti