Ho iniziato ad approfondire la profondità e la frequenza di campionamento nel mio ultimo mix / mastering tut e sebbene non siamo necessariamente ingegneri dell'audio digitale, alcune informazioni di base su cosa esattamente la profondità di bit e la frequenza di campionamento sono buone informazioni per chiunque sia coinvolto nel digitale musica. È qualcosa con cui lavori sempre, che tu lo sappia o no, ed è una grande informazione di base per capire se sia fondamentale comprendere i componenti basilari dell'audio digitale per il guadagno personale o semplicemente per essere in grado di sembrare intelligente nel caso in cui la conversazione mai sorgere.
Quindi la prima cosa da capire è che la profondità di bit e la frequenza di campionamento esistono solo nell'audio digitale. Nell'audio digitale, la profondità di bit descrive l'ampiezza (asse verticale) e la frequenza di campionamento descrive la frequenza (asse orizzontale). Quindi quando aumentiamo il numero di bit che stiamo usando, stiamo aumentando la risoluzione dell'ampiezza del nostro suono e aumentando il numero di campioni al secondo che stiamo usando, stiamo aumentando la risoluzione in frequenza del nostro suono.
In un sistema analogico (e in natura) l'audio è continuo e scorrevole. In un sistema digitale, la forma d'onda analogica liscia viene solo approssimata dai campioni e deve essere fissata a un numero limitato di valori di ampiezza. Quando si campiona un suono, l'audio viene suddiviso in piccole sezioni (campioni) e questi campioni vengono quindi fissati a uno dei livelli di ampiezza disponibili. Il processo di fissaggio del segnale a un livello di ampiezza è chiamato quantizzazione e il processo di creazione delle fette campione è, ovviamente, chiamato campionamento.
Nel diagramma sottostante, puoi vedere una visualizzazione di questo dove c'è un'onda sinusoidale organica che suona per un secondo. Inizia a 0 secondi e termina a 1 secondo. Le barre blu rappresentano l'approssimazione digitale dell'onda sinusoidale in cui ogni barra è un campione ed è stata fissata a uno dei livelli di ampiezza disponibili. (Questo diagramma è ovviamente molto più grossolano che nella vita reale).
Questo secondo di audio avrebbe campioni da 44.1K, 48K, ecc. Andando da sinistra a destra a seconda della frequenza di campionamento selezionata durante la registrazione e coprirà -144 dB a 0 dB a 24 bit (o -96 dB a 0 dB a 16 bit po). La risoluzione dell'intervallo dinamico (il numero di possibili livelli di ampiezza per il campione su cui riposare) sarebbe 65.536 a 16 bit e -get questo- 16,777,216 se registrato a 24 bit.
Quindi aumentare la profondità di bit aumenta notevolmente la nostra risoluzione di ampiezza e la gamma dinamica. Ciò che non è così ovvio è dove si verifica l'aumento della gamma dinamica. I dB aggiunti vengono aggiunti al più morbido porzione del suono poiché l'ampiezza non può mai superare gli 0 dB. Ciò che fa è consentire di sentire suoni più delicati (ad esempio una coda di riverbero che trascorre a -130 dB) per essere ascoltati, che potrebbe essere altrimenti tagliato a un campione di 16 bit e -96 dB.
Nell'audio digitale, ogni campione viene analizzato, elaborato, riconvertito in audio e spinto attraverso gli altoparlanti. Quando un campione viene elaborato (modifica del guadagno, distorsione, ecc.) Nella DAW, viene inviato attraverso un algoritmo di moltiplicazione o divisione di base e il numero che rappresenta il campione viene modificato in accordo e sputato. Semplice se non fosse per il fatto che non abbiamo a che fare con numeri semplici o arrotondati (un aumento di guadagno di 1 dB richiede moltiplicazioni per 1.122018454) così anche un campione a 8 o 4 bit può essere facilmente esteso ben oltre il nostro spazio campione a 24 bit.
Dato che abbiamo solo 24 bit, questi numeri lunghi devono essere inseriti in quello spazio. Per fare ciò, i DSP impiegano o un arrotondamento o il troncamento del bit meno significativo (LSB - l'ultimo bit in una parola digitale - ad esempio il 16 ° numero in un campione a 16 bit). Arrotondare è abbastanza semplice e agisce come ci si può aspettare nell'aritmetica di base. Il troncamento lascia semplicemente le informazioni dopo l'LSB senza ulteriori analisi.
Questo è ovviamente problematico in quanto entrambi i processi introducono errori nell'equazione e questi errori si moltiplicano man mano che processo su processo viene accumulato attraverso la catena del segnale. Il lato positivo di questo è che l'LSB in una parola digitale è l'ampiezza più morbida di quella parola, quindi in un campione a 16 bit l'errore è a -96 dB ea -144 dB per un campione a 24 bit. Anche così, la differenza tra un DSP con una buona architettura e una che suona terribilmente dipende in gran parte dal modo in cui il DSP gestisce queste lunghe parole e i processi composti.
Quindi, ora sappiamo che i DSP sono necessariamente pieni di errori; che anche le grossolane approssimazioni che fanno di un fenomeno naturale sono anch'esse crivellate di errori. Questi errori non solo rendono l'audio meno intatto, ma possono introdurre artefatti udibili propri.
Per contrastare questi artefatti, al segnale viene applicato un tipo di ampiezza bassa, il rumore calcolato matematicamente (casualità) chiamato dither. Questa casualità rompe eventuali errori periodici nel segnale che possono creare nuove frequenze o altri artefatti. Il rumore del dither è un'ampiezza molto bassa e sebbene sia leggermente udibile ad alti livelli, crea ancora un prodotto finale molto meglio che senza.
Una forma d'onda che mostra gli effetti del dither. Il dithering è stato applicato alla forma d'onda superiore.
Una cosa da notare sul dither è che il rumore è cumulativo. Aggiungendo rumore al segnale, si riduce sostanzialmente il rapporto segnale / rumore (il rapporto tra segnale e rumore utilizzabili). Se fatto ripetutamente, questo rapporto continua a diminuire aggiungendo ulteriore randomizzazione a un segnale che non ne ha più bisogno. Questo è il motivo per cui il dither viene sempre applicato come ultimo passaggio del processo di masterizzazione e viene applicato solo una volta.
Dither ha una storia relativamente colorata:
Una delle prime [applicazioni] di vibrazione è arrivata nella seconda guerra mondiale. I bombardieri dell'aeroplano utilizzavano computer meccanici per eseguire calcoli di navigazione e di traiettoria delle bombe. Curiosamente, questi computer (scatole piene di ingranaggi e ingranaggi) hanno funzionato in modo più accurato quando volavano a bordo dell'aeromobile e meno bene a terra. Gli ingegneri si sono resi conto che la vibrazione dell'aereo ha ridotto l'errore dalle parti mobili appiccicose. Invece di muoversi a brevi scatti, si muovevano più ininterrottamente. I piccoli motori vibranti furono incorporati nei computer e la loro vibrazione fu chiamata dither dal verbo inglese medio "didderen", che significa "tremare". ... i dizionari moderni definiscono il dither come uno stato altamente nervoso, confuso o agitato. In quantità minuscole, il dither rende un sistema di digitalizzazione un po 'più analogico.
- Ken Pohlmann, Principi di Digital Audio
Secondo la teoria, 44.1K di campioni al secondo dovrebbero essere più che sufficienti per coprire ogni frequenza all'interno (e leggermente al di fuori) del raggio d'azione umano. Potresti esserti imbattuto nel teorema di Nyquist prima del quale afferma che per evitare l'aliasing (un tipo di distorsione) e ricreare accuratamente tutte le frequenze durante il campionamento, si deve campionare almeno il doppio della frequenza della più alta frequenza contenuta in un dato segnale (questo teorema si applica ai media al di fuori dell'audio, ma non entreremo in quello qui).
Si può supporre che l'orecchio umano ascolti fino a 20 K (la maggior parte degli studi indica che è di circa 17 K al massimo) cicli al secondo (Hz) quindi, di conseguenza, una frequenza di campionamento di 40 K al secondo dovrebbe essere sufficiente per sentire ogni frequenza possibile. 44.1K è lo standard del settore, è stato realizzato in questo modo per diversi motivi, e alla fine scelto dall'oligarchia nota come Sony.
Per fare una lunga storia breve (er), i campioni audio digitali devono necessariamente essere al di sopra della frequenza di Nyquist, poiché in pratica i campioni devono anche essere filtrati a basso passaggio durante la conversione A / D e D / A per evitare aliasing anche in quella fase. Più dolce è la pendenza del filtro passa-basso, più facile (leggi meno) è quello di fare. Pertanto, un segnale audio con un filtro passa basso con una leggera pendenza che copre 2 kHz, ad esempio, e inizia a 20 kHz per passare attraverso l'intero spettro di frequenza, deve essere campionato a 44.000 campioni al secondo (20 K (frequenza massima) + 2 K (pendenza di LPF) x 2 (Teorema di Nyquist) = 44K).
In definitiva, lo standard 44.1K è stato scelto dopo una lotta tra Sony e Philips (entrambi avevano proposte finali simili) ed è stato scelto in base alla matematica alla base della frequenza di campionamento audio e dell'anatomia del nastro video; in modo che l'audio e il video possano risiedere sulla stessa videocassetta in un buon rapporto qualità / prezzo. Tuttavia, 48K è attualmente lo standard per l'audio video correlato. L'audio del CD rimane 44.1K.
Questa immagine mostra il livello campione di una registrazione di cassa "organica" in Logic. È possibile vedere come il suono è stato campionato e quantizzato dalle approssimative approssimazioni rettangolari della forma d'onda. Il suono della batteria originale non avrebbe avuto tale distorsione.
Alcune persone sostengono di essere in grado di sentire una netta differenza tra una frequenza di campionamento di 44.1K e, ad esempio, una frequenza di campionamento di 96K. La maggior parte delle persone attribuisce questa differenza all'aumentata larghezza di banda prodotta (96 K rappresenterebbero frequenze fino a 48 kHz). Anche se anch'io ho notato sottili cambiamenti di chiarezza durante il sovracampionamento, non è corretto pensare che queste differenze siano presenti a causa delle frequenze più alte presenti (o almeno non sono direttamente correlate).
È stato dimostrato attraverso vari test che è in effetti il filtraggio passa-basso che crea differenze udibili e con frequenze di campionamento più elevate quegli artefatti LPF cadono al di fuori dello spettro udibile. Aumentando il cutoff del filtro da 22 kHz a 48 kHz durante il campionamento, diminuiamo la richiesta sul filtro di agire nell'intervallo udibile, assicurandoci di conseguenza se non tutti gli artefatti del filtro rimangono nello spettro degli ultrasuoni.
Questo chiarisce lo spettro udibile e dà l'illusione che una maggiore larghezza di banda / frequenza di campionamento crei un audio più incontaminato. Anche se viene creato un audio più incontaminato, è un effetto della frequenza di campionamento sufficientemente elevata da contrastare gli artefatti di un filtro passa basso mal progettato (sfortunatamente standard) durante la conversione A / D e D / A.
Quindi, questo riguarda lo copre. Mi rendo conto che potrebbe essere stata più una lezione che un tutorial, ma è una buona informazione avere non-meno. Conoscere gli strumenti con cui stai lavorando non è mai una cosa negativa e questo è tanto dettagliato quanto dovrai conoscere l'argomento per qualsiasi scopo pratico come produttore musicale. Maestri ingegneri e audiofili potrebbero aver bisogno di cercare altrove;)
Fino alla prossima volta.
-W