Cyfrowy dźwięk
Wprowadzenie W dzisiejszych czasach dźwięk zapisany w postaci cyfrowej towarzyszy nam niemalże na co dzień. Poczynając od płyt CD, odtwarzaczy mp3, przez komputery, na dzwonkach w komórkach kończąc. Wielu z nas nawet nie zawraca uwagi na to, w jaki sposób tak naprawdę odbywa się zapisanie i odtworzenie dźwięku w postaci cyfrowej. W poniższym tekście chciałbym przedstawić czytelnikom kilka podstawowych pojęć związanych z tym tematem.
44,1 kHz i 16 bitów Zapewne każdy, kto choć odrobinę interesuje się technologią słyszał o tych dwóch, odrobinę magicznych, liczbach. Kiedyś występowały one w kontekście płyty CD‑Audio, dziś także i plików dźwiękowych. Co właściwie oznaczają? Aby uświadomić sobie ich znaczenie spójrzmy na poniższy rysunek (1).
Oś pionowa określa rozdzielczość, to właśnie ona wyrażona jest w liczbie szesnastu bitów dla płyty CD. Liczba ta pozwala na zapisanie 65 536 poziomów. Oś pozioma zaś oznacza kolejne próbki w czasie. To ich ilość wyznacza wartość 44,1 kHz - 44 100 próbek w ciągu jednej sekundy. Wartości te są ważne w procesie kwantyzacji, który polega na przetwarzaniu ciągłego sygnału analogowego, dostarczanego np. przez mikrofon, na sygnał dyskretny, czyli taki o skończonej wielkości. Przy podanych wyżej parametrach przetwornik analogowo-cyfrowy co 1/44100 sekundy pobiera chwilową wartość sygnału, odwzorowuje ją w 65 536 poziomowej skali i zapisuje jako jedną, 16‑bitową próbkę. Warto zauważyć, że w czasie tego procesu tak naprawdę tracimy nieskończenie wielką ilość danych, ponieważ pomiędzy jedną próbką a drugą moglibyśmy zmieścić bardzo dużo kolejnych. Jednak całe szczęście nasze zmysły łatwo oszukać i nasz słuch nie dostrzega drobnych „schodków” jakie powstają z niedokładnych danych cyfrowych po powrotnej konwersji na sygnał analogowy.
Dlaczego wybrano akurat takie wartości? Jeżeli chodzi o rozdzielczość bitową, to odpowiedź jest dość prosta. Taka liczba możliwych poziomów pozwala na dobre odtworzenie dynamiki sygnału. Oznacza to, że odstęp pomiędzy sygnałem cichym a głośnym będzie na tyle duży, iż przy odtworzeniu będzie można je bez problemu rozróżnić, a nagrane instrumenty będą brzmiały realistycznie. Częstotliwość próbkowania uwarunkowana jest twierdzeniem Kotielnikowa-Shannona. Zgodnie z nim, aby móc wiernie odtworzyć sygnał ciągły (analogowy) z sygnału dyskretnego (cyfrowego), musiał on być próbkowany z częstotliwością co najmniej dwa razy większą niż najwyższa składowa widma tego sygnału. Ludzki słuch jest w stanie usłyszeć dźwięki o częstotliwościach od 16 Hz do 20000 Hz. W przypadku płyty CD‑Audio najwyższa częstotliwość (2) jaką można bez problemu przy jej pomocy odtworzyć wynosi połowę 44,1 kHz czyli 22,05 kHz. Jest to zdecydowanie poza zasięgiem ludzkiego ucha, więc taka granica powinna jak najbardziej wystarczyć. Oczywiście te dwa parametry nie są stałe i ulegają zmianie w zależności od zastosowań, np. telefonia GSM koduje sygnał w częstotliwości 8 kHz i na 13‑tu bitach. Przez to najwyższą częstotliwością jaką może przesłać bez zniekształceń są 4 kHz. Sygnał powyżej tej częstotliwości ucina się odpowiednim filtrem, ponieważ w przeciwnym wypadku słyszalne by były efekty aliasingu.
Na zakończenie Aby nie zanudzać czytelników i żeby wpisy czytało im się wygodniej, swoje spostrzeżenia związane z cyfrowym dźwiękiem zawrę w kolejnym wpisie. Prócz tego mam zamiar w najbliższym czasie choć w zarysie opisać zasadę działania kodeka mp3, bo myślę że wielu z nas pewnie używa go nawet nie wiedząc w jaki sposób pozwala na aż 10 krotne zmniejszenie objętości :)
Przypisy: (1) Przepraszam za słabą jakość obrazu. Jest to fragment książki „Komputerowe studio muzyczne w domu” pana Michała Ołowni, który zachowałem w postaci zdjęcia z telefonu, po to aby samemu zapamiętać jak to właściwie jest z tym dźwiękiem :) (2) Zwie się ją częstotliwością Nyquista
----------------------------------------------------------- Część drugą powyższego wpisu znajdziecie tutaj.