Introducción Al Audio Digital - Unidad 1

Diplomatura en Audio Digital
Centro de e-Learning SCEU UTN - BA.

Medrano 951 2do piso (1179) // Tel. +54 11 4867 7589 / Fax +54 11 4032 0148
www.sceu.frba.utn.edu.ar/e-learning
p. 2
Módulo 1: Introducción al Audio Digital.
Unidad 1: Acústica y Cadena de Audio.

p. 3
Presentación:
En esta Unidad nos introducimos en el mundo del audio, comenzando por la acústica y la
percepción, y analizando sistemas de audio comunes. Siguiendo un trayecto que
comienza en la generación de un sonido y su propagación, vemos cómo la información
sonora llega al cerebro y qué procesos psicoacústicos intervienen en la percepción.
Analizaremos, también, cómo se compone un sistema de audio que nos permita medir e
intervenir señales.

p. 4
Objetivo:
Que los participantes:
Se familiaricen con los procesos intervinientes en la generación y la percepción del
sonido, conocimientos fundamentales a la hora de realizar la mayoría de las tareas
relacionadas con el audio digital.

p. 5
Bloques temáticos:
1. Introducción a la Acústica.
 Sistemas físicos intervinientes.
 Atributos característicos de los sonidos musicales.
2. Percepción Auditiva.
 Percepción de intensidad.
 El oído humano.
 Percepción de características temporales.
 Percepción de frecuencia.
 Percepción de timbre.
 Enmascaramiento.
3. Cadena de Audio.
 Señales y transductores.
 Problemas en las señales.
 Rango dinámico.
4. Ejercicio.

p. 6
Consignas para el aprendizaje colaborativo
En esta Unidad los participantes se encontrarán con diferentes tipos de actividades que,
en el marco de los fundamentos del MEC*, los referenciarán a tres comunidades de
aprendizaje, que pondremos en funcionamiento en esta instancia de formación, a los
efectos de aprovecharlas pedagógicamente:
● Los foros proactivos asociados a cada una de las unidades.

● La Web 2.0.
● Los contextos de desempeño de los participantes.
Es importante que todos los participantes realicen algunas de las actividades sugeridas y
compartan en los foros los resultados obtenidos.
Además, también se propondrán reflexiones, notas especiales y vinculaciones a

bibliografía y sitios web.
El carácter constructivista y colaborativo del MEC nos exige que todas las actividades
realizadas por los participantes sean compartidas en los foros.
* El MEC es el modelo de E-learning colaborativo de nuestro Centro.

p. 7
Tomen nota:
Las actividades son opcionales y pueden realizarse en forma individual, pero siempre es
deseable que se las realice en equipo, con la finalidad de estimular y favorecer el trabajo
colaborativo y el aprendizaje entre pares. Tenga en cuenta que, si bien las actividades
son opcionales, su realización es de vital importancia para el logro de los objetivos de
aprendizaje de esta instancia de formación. Si su tiempo no le permite realizar todas las
actividades, por lo menos realice alguna, es fundamental que lo haga. Si cada uno de los
participantes realiza alguna, el foro, que es una instancia clave en este tipo de cursos,
tendrá una actividad muy enriquecedora.
Asimismo, también tengan en cuenta cuando trabajen en la Web, que en ella hay de todo,
cosas excelentes, muy buenas, buenas, regulares, malas y muy malas. Por eso, es
necesario aplicar filtros críticos para que las investigaciones y búsquedas se encaminen a
la excelencia. Si tienen dudas con alguno de los datos recolectados, no dejen de consultar
al profesor-tutor. También aprovechen en el foro proactivo las opiniones de sus
compañeros de curso y colegas.

p. 8
1, Introducción a la Acústica

p. 9
 Sistemas físicos intervinientes

Imaginemos que estamos en un teatro escuchando a un solista ejecutar su violín.
Identificando los sistemas relevantes a la música que oímos sonar, podemos primero
destacar al instrumento que genera el sonido, segundo al aire que transmite el sonido
hacia todas las direcciones y tercero a nosotros los oyentes. En otras palabras, tenemos
una cadena de sistemas: instrumento -> aire -> oyente. ¿Qué conecta a estos tres
sistemas mientras que se toca esta música? Cierto tipo y forma de vibraciones llamadas
sonido, que se propagan de un punto a otro en forma de ondas a las cuales nuestro oído
es sensible.
Analizando la fuente de sonido, en este caso el instrumento, podemos identificar varios

componentes físicos:
1. Un mecanismo principal de excitación que debe ser activado por el instrumentista,

como el frotado de un arco o el pellizcado (pizzicato) sobre una cuerda de violín, el flujo
de aire que se impulsa contra el bisel en una flauta, la caña en un clarinete, los labios del
instrumentista en un instrumento de bronce, o, en el caso de un cantante, las cuerdas
vocales en la laringe. Este mecanismo de excitación actúa como la fuente primaria de
energía acústica.
2. El elemento vibrante fundamental que, siendo excitado por lo descrito en el punto

anterior, es capaz de sostener modos de vibración bien definidos en frecuencias
específicas, como las cuerdas del violín, la columna de aire en un instrumento de viento o
en el tubo de un órgano. Este elemento vibrante determina la altura del tono y brinda los
armónicos superiores que se necesitan para conseguir ciertas características tímbricas al
sonido que produce el instrumento.
3. Varios instrumentos poseen un resonador (la caja de resonancia en el piano y en

instrumentos de cuerda, la campana en instrumentos de viento, la cavidad bucofaríngea),
cuya función es convertir más eficientemente las vibraciones del elemento vibrante a
vibraciones en el aire y brindar al instrumento de su timbre final.

p. 10
Con respecto al medio también debemos hacer una distinción: tenemos el medio
propiamente dicho que transmite el sonido y sus límites, por ejemplo, las paredes, el
techo, el piso, la gente de la audiencia, etcétera, que alteran la propagación del sonido por
reflexión y absorción de las ondas sonoras y cuya configuración determina las
características de la acústica de la sala (reverberación, eco).
Finalmente, en el oyente, podemos distinguir los siguientes componentes principales:
 El oído externo con el tímpano, que percibe las oscilaciones de presión de la onda
sonora que llega al oído, convirtiéndolas en vibraciones mecánicas que son
transmitidas mediante tres pequeños huesos enlazados a
 el oído interno o cóclea en el cual las vibraciones se distribuyen de acuerdo a

rangos de frecuencias, son recogidas por células receptoras y convertidas en
impulsos nerviosos.
 El sistema nervioso auditivo transmite las señales neurales al cerebro donde la

información acústica se procesa, se despliega como imagen neural de
características auditivas en ciertas áreas de la corteza cerebral, se identifica, se
almacena en la memoria y eventualmente se transfiere a otros centros del cerebro
para posterior procesamiento cognitivo y respuesta afectiva. Estos últimos estadíos
conducen a la percepción consciente de los sonidos musicales.

p. 11
Figura 1.1
 Atributos característicos de los sonidos musicales

Coincidimos culturalmente en que existen tres sensaciones primarias asociadas con un
tono musical simple y sostenido: altura, sonoridad y timbre. Altura es frecuentemente
definida como la sensación de "altitud" y sonoridad como la sensación de "intensidad" de
un tono musical. El timbre, o cualidad tonal, es lo que nos permite distinguir entre tonos de
diferentes instrumentos incluso cuando estos coinciden en altura y sonoridad. La
asociación inequívoca de estas tres características a un sonido es lo que distingue un
tono musical del "ruido"; aún pudiendo asociar sonoridad a un ruido dado, es mucho más
difícil asociar a éste un timbre o altura.

p. 12
La asociación de las sensaciones de altura, sonoridad y timbre a un tono musical es el

resultado de complejos mecanismos físicos en el oído y de operaciones de procesamiento
de información en el sistema nervioso, y es subjetiva e inaccesible a mediciones físicas
directas. De todas maneras, cada una de estas sensaciones pueden ser asociadas, en
principio, a una cantidad física bien definida del estímulo original, es decir, de la onda
sonora, que puede ser medida y expresada numéricamente por métodos físicos. De
hecho, la sensación de altura está primariamente asociada a la frecuencia fundamental (la
frecuencia de repetición del patrón vibratorio, descrita por el número de patrones por
segundo), la sonoridad con la intensidad (flujo de energía o amplitud de oscilación de
presión de la onda que llega al oído), y el timbre al espectro, o proporción con la cual
otras frecuencias más agudas, llamadas armónicos superiores, aparecen acompañando la
frecuencia fundamental.
De todas maneras esta es una descripción simple. En primer lugar, la altura de un tono
musical complejo puede ser oída claramente incluso estando ausente la fundamental;
ésta cambia levemente cuando cambia la sonoridad, y el mismo tono musical puede
percibirse con alturas distintas entre un oído y el otro. En segundo lugar, la sensación de
sonoridad de un tono de intensidad física constante parecerá variar si cambiamos la
frecuencia, y la sonoridad de una superposición de muchos tonos de diferentes alturas
(por ejemplo un acorde) no está relacionada de manera simple con la suma de energías
acústicas de cada componente; para una sucesión de sonidos de muy corta duración, por
otro lado (por ejemplo la ejecución en stacatto), la sonoridad percibida también depende
de cuánto dure cada sonido. En tercer lugar, la percepción refinada del timbre, tal como
es requerida para la identificación de instrumentos musicales, es un proceso que utiliza
mucha más información que la dada por el espectro de un sonido; el ataque transitorio y
el decaimiento son igualmente importantes, como podríamos verificar fácilmente tratando
de reconocer instrumentos musicales grabados reproducidos al revés.

p. 13
Además, existe una influencia "de arriba hacia abajo" de los procesos impulsados por el
conocimiento en el cerebro, lo que introduce un sesgo fuertemente dependiente del
contexto en la percepción de música. Por ejemplo, los sonidos de un instrumento dado
podrían poseer características espectrales que varían apreciablemente a lo largo del
instrumento y la composición espectral de un sonido podría variar considerablemente de
un punto a otro de una sala de conciertos, y aún así son reconocidos sin dudarlo como
pertenecientes al mismo instrumento.
Otra característica física relevante del sonido es la dirección espacial desde la cual la
onda está arribando. Lo importante en este caso es la diferencia de tiempo, instante a
instante, entre la detección de la señal acústica entre un oído y el otro, dependiente de la
dirección de incidencia. Esta diferencia temporal es mesurada y decodificada por el
sistema nervioso para brindar la sensación de direccionalidad, imagen estéreo o
lateralización.
Cuando dos tonos musicales suenan simultáneamente, nuestro cerebro, dentro de ciertos
límites, es capaz de diferenciarlos individualmente. Escuchando dos o más tonos
superpuestos aparecen nuevas sensaciones subjetivas, menos definidas pero igualmente
importantes a nivel musical que conducen al concepto de armonía. Entre éstas se
encuentran las sensaciones "estáticas" de consonancia y disonancia, que describen el
carácter "placentero" o "irritante" de ciertas superposiciones de tonos, respectivamente; la
sensación "dinámica" de la necesidad de resolver un intervalo o acorde disonante; el
efecto peculiar del pulso; y el carácter distintivo de los acordes mayores y menores. En
particular la octava, como el intervalo musical "más perfecto", posee una propiedad única:
las alturas de dos tonos que están separados por una o más octavas son percibidas como
pertenecientes a la misma "familia" de alturas. Como resultado, todos los tonos
distanciados una o más octavas se los denomina con el mismo nombre. A esta propiedad
circular de la altura se la denomina chroma.

p. 14
2. Percepción Auditiva

p. 15
 Percepción de intensidad
La intensidad está relacionada con la energía (o la variación en la presión del aire) en una
onda. Generalmente, cuando la intensidad (como un parámetro que describe una
magnitud física) de un sonido aumenta, notamos un aumento en su sonoridad. Pero no
existe una correspondencia lineal entre intensidad y sonoridad; la sonoridad depende,
además, de otros parámetros tales como el espectro, la duración del evento sonoro y los
sonidos que se encuentren de fondo. El oído humano es capaz de oír un rango muy
amplio de intensidades, y su sensibilidad a cambios en intensidad es proporcional a la
cantidad de intensidad. Dicho de otra manera, el mecanismo de percepción de sonoridad
responde a una curva exponencial. Entonces, al describir un sonido, suele convenir usar
el logaritmo de intensidad que usar el valor de intensidad directamente. La intensidad del
sonido se mide en términos del nivel de presión sonora (NPS), definido como
𝑝
𝑁𝑃𝑆 = 20 𝑙𝑜𝑔10 [𝑑𝐵]; 𝑑𝑜𝑛𝑑𝑒 𝑝𝑟𝑒𝑓 = 20 𝜇𝑃𝑎
𝑝𝑟𝑒𝑓
En esta relación, 𝑝 es la presión acústica en un punto del espacio y 𝑝𝑟𝑒𝑓 es una referencia
convencional estandarizada. El estándar internacional estipula que la referencia debe
coincidir con el umbral de audibilidad a 1000 Hz, que corresponde a una presión de
20𝜇𝑃𝑎. Así se consigue vincular de manera directa una unidad física, el decibel, con una
de las principales características de la audición humana.
Decibel
𝑛𝑖𝑣𝑒𝑙
𝑑𝐵 = 10 × 𝑙𝑜𝑔10 ( )
𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑟𝑒𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎
El decibel es una unidad logarítmica que se utiliza para expresar la relación entre dos valores de una
magnitud física. En mediciones acústicas, la escala de decibeles indica la relación de un valor con un valor
de referencia, donde el valor de referencia es generalmente el umbral de audibilidad (20𝜇𝑃𝑎 a 1000 Hz). La
base logarítmica del decibel implica que si dos sonidos suenan al mismo tiempo y cada uno mide 60dB, el
incremento en la medición es de solo 3dB. Un incremento de un millón de veces la intensidad resulta en un
aumento de 60dB. La figura 1.2 muestra la escala de decibeles y algunas mediciones acústicas estimadas
relativas a 0dB.

p. 16
Figura 1.2
La figura 1.3 presenta el rango de audición de un adulto promedio como un gráfico de

intensidad en decibeles versus frecuencia. El rango de frecuencias que se muestra es el
convencional, adaptado de Winckel (1967). En ciertos casos la sensibilidad de un
individuo podría llegar a extenderse más allá del rango seleccionado.

p. 17
Figura 1.3
Como muestra la figura 1.3, una sinusoide de 1000 Hz en el umbral de audibilidad posee
una presión 𝑝 igual a 𝑝𝑟𝑒𝑓, por lo que su NPS es de 0dB. Una sinusoide de un millón de
veces la intensidad de 𝑝𝑟𝑒𝑓 estaría en el umbral del dolor (el perímetro superior de la
silueta en la figura 1.3). Este tono poseería un NPS cercano a 120dB.
Curvas de igual sonoridad

El oído es más sensible a ciertas regiones de frecuencia que a otras. Las curvas de igual
sonoridad, o isófonas, mostradas en la figura 1.4, son una descripción de la variación de
la sonoridad en función de la frecuencia del sonido. Estas curvas se obtienen midiendo el
nivel de sonoridad en relación con una sinusoide de 1000 Hz, y resultan algo diferentes
según el laboratorio en el cual fueron determinadas (la forma exacta no debe tomarse
literalmente). Pueden ser reproducidas con sencillez al pedirle a un oyente que iguale la
sonoridad de una señal sinusoidal, de frecuencia e intensidad variable, con la de un tono
estándar de 1000 Hz a 𝑁 decibeles. El nivel de sonoridad (medido en fones), del sonido
p. 18
de prueba posee el mismo NPS (medido en dB) del tono de referencia de 1000 Hz. Así,
por ejemplo, todo sonido que posea la misma sonoridad que una sinusoide de 40 dB a
1000 Hz tendrá un nivel de sonoridad de 40 fones. Un contorno de igual sonoridad es una
línea que une los niveles de los estímulos, de diferentes frecuencias, que presentan el
mismo nivel de sonoridad en fones.
Figura 1.4
Estas curvas aportan una gran cantidad de información útil. Por ejemplo:
• La forma de las curvas muestra que la sensibilidad del oído decrece a medida que
nos alejamos de la zona central del espectro hacia las altas y bajas frecuencias. Es
necesario aplicar más energía en la región grave que en la media para obtener el
mismo resultado auditivo.
• Para sonoridades intermedias, entre 60 y 70 fones, es menor la diferencia de

sensibilidad auditiva en función de la frecuencia.

p. 19
• Las curvas de nivel, para altas sonoridades, son prácticamente planas: nuestro oído
responde de manera similar en todo el rango audible a consecuencia de la
atenuación provista por los mecanismos de protección auditiva.
• Existe una zona de máxima sensibilidad entre los 2500 y 3500 Hz. Los sonidos que
ocupen esta banda van a ser percibidos con mayor facilidad que los que ocupen otras
regiones del espectro.
• Si se genera una señal sinusoidal que recorra completamente una de las curvas de
igual sonoridad se oye un glissando perfecto, de sonoridad constante.
Una consecuencia de las curvas de igual sonoridad, muy común en el campo de la

música, es el control de sonoridad (o loudness) que poseen algunos preamplificadores de
audio. Las grabaciones de piezas de música se realizan por lo general a niveles altos,
donde la sensibilidad del oído es plana. Si se reproducen a niveles menores cambia el
balance espectral al cambiar nuestra sensibilidad auditiva: oímos debilitadas las regiones
más graves y agudas del espectro. Para corregir este efecto algunos equipos de audio
vienen equipados con un control de sonoridad que refuerza los extremos del espectro a
bajos niveles de amplificación. La salida del preamplificador con el control de sonoridad
activado sigue de modo más o menos fiel la curva umbral de audibilidad.
 El oído humano
Antes de adentrarnos en una discusión sobre la percepción temporal y frecuencial,
analizaremos muy brevemente cómo funciona el oído. La figura 1.5 muestra una
representación del oído y sus tres subdivisiones principales: el oído externo, el medio, y el
interno. El oído externo amplifica las vibraciones del aire. El oído medio transduce estas
vibraciones en vibraciones mecánicas. El oído interno procesa estas vibraciones,
filtrándolas y transduciéndolas mecánica, hidrodinámica, y electroquímicamente, y las
señales electroquímicas resultantes son transmitidas a través de nervios al cerebro. El
oído externo, medio, y el interno son clasificados grupalmente como el sistema auditivo
periférico.

p. 20
Figura 1.5
La cóclea es el punto focal del oído interno. Contiene la membrana basilar y el órgano de
Corti (no incluido en la figura 1.5), quienes forman los complicados mecanismos que
transducen vibraciones en señales o códigos neurales. Más allá de la cóclea, en el
cerebro, se realiza más procesamiento auditivo, usando la información contenida en estas
señales neurales. Este procesamiento central es importante en el sentido de que combina
las señales de ambos oídos.

p. 21
 Percepción de características temporales

Ciertos mecanismos en el oído interno codifican tiempo y altura tonal, y proveen
información a procesos perceptuales que ordenan esta información en notas, ritmos, y
estructuras musicales de orden superior. Es posible que los mecanismos de bajo nivel
que se encargan de la percepción temporal y de altura tonal operen sobre las vibraciones
entrantes en paralelo, y que su información sea combinada por los procesos de orden
superior al determinar la naturaleza del sonido. Dicho de otra manera, los mecanismos
periféricos no pueden ser divididos claramente entre los que proveen únicamente
información temporal y los que proveen únicamente información espectral. En esta
sección nos concentramos principalmente en cómo los mecanismos temporales operan
sobre el sonido entrante.
Un tipo de mecanismo es un detector de período. Opera sobre la delicada estructura de la

forma de onda codificada neuralmente. Este patrón neural es obtenido gracias a las
células nerviosas en el órgano de Corti disparando impulsos (individualmente o en
grupos) a una velocidad que corresponde con el período del sonido. Individualmente, las
células pueden operar de esta manera hasta cierta velocidad; si el período es muy
pequeño, no pueden recuperarse y re-disparar suficientemente rápido. De todas maneras,
grupos de células pueden rotar entre sí o retrasar su disparo respondiendo a submúltiplos
del período del sonido. Este mecanismo puede detectar frecuencias de hasta 4 KHz.
Existe evidencia para un tipo de mecanismo que codifica eventos. Este tipo de células
disparan durante el comienzo o final (onset y offset), y diferentes células operan en
diferentes secciones de las pendientes de ataque. Cuando un instrumento ejecuta una
nota, sus transitorios disparan este mecanismo, pero la porción estática del sonido no.
Otras células responden a ciertos intervalos temporales entre eventos. Esta información
puede llegar a ser usada al conectar eventos individuales para formar cadenas rítmicas
(por ejemplo, al identificar secuencias de eventos provenientes de diferentes fuentes,
cada una con su propio patrón rítmico).

p. 22
La resolución de la percepción rítmica está limitada por la integración temporal. Esto

significa que si ocurren dos o más eventos dentro de cierto marco de tiempo mínimo, el
oído "borronea" la separación temporal uniéndolos en una única sensación; di cho con
otras palabras, se pierde resolución temporal. De todas maneras, el tamaño de este
marco temporal puede variar dependiendo de la duración y el tipo de evento. En algunos
casos, el oído puede decidir que ciertos eventos están separados si la distancia entre
estos es de algunos pocos milisegundos; en otros casos se necesitaran de 20 a 50
milisegundos, o incluso más, para diferenciar eventos. Por esto, no podemos hablar de un
marco temporal simple, o una "constante temporal" para el oído.
 Percepción de frecuencia
Cuando una onda excita el oído, una región de la membrana basilar oscila en torno a su
posición de reposo. Esta región es amplia; sin embargo, posee un punto de
desplazamiento máximo bastante agudo. La distancia a este punto máximo del extremo
de la membrana basilar está directamente relacionada con la frecuencia. En otras
palabras, las diferentes frecuencias están mapeadas a distintos lugares a lo largo de la
membrana. Este es el mecanismo básico que provee de la detección de frecuencia
(parámetro físico), pero no es el único mecanismo que contribuye a la sensación de altura
tonal (parámetro perceptual). De hecho, ya hemos visto que existe un mecanismo
temporal para detectar el período de una onda, que es el inverso de la frecuencia, y éste
también puede contribuir a la sensación de altura tonal.
Aunque el oído de un adulto joven puede detectar frecuencias en un amplio espectro (de
20 Hz a 20 KHz, aproximadamente), la percepción de altura tonal está limitada a una
región mucho menor. Para propósitos musicales, la percepción de altura tonal no es
precisa, por ejemplo, para diferenciar octavas debajo de 60 Hz o por encima de 5 KHz.
Banda crítica
Como cada frecuencia estimula una región específica de la membrana basilar (y no un
punto), existe un límite para la resolución en frecuencia del oído. Este límite está
relacionado íntimamente a una característica importante del mecanismo perceptual
conocido como la banda crítica. La banda crítica fue descubierta primero durante

p. 23
experimentos sobre enmascaramiento, pero juega un rol en muchos aspectos de la
percepción. A continuación analizaremos cómo influye en ciertos casos.
Si tomamos dos sinusoides que están muy próximas en frecuencia, nos encontramos con
que la sonoridad total que percibimos es menor a la suma de las sonoridades de cada
sinusoide por separado. A medida que alejamos en frecuencia a estas sinusoides, la
sonoridad resultante permanece constante hasta cierto punto, pero luego, cuando se
alcanza cierta diferencia en frecuencia, la sonoridad empieza a aumentar. (En este punto,
la sonoridad es proporcional a la suma de las sonoridades individuales de las sinusoides.)
Esta diferencia en frecuencia corresponde con la banda crítica. Podemos pensar este
mecanismo como una integración en frecuencia análoga a la integración a nivel temporal
que tratamos anteriormente.
Se supone que la banda crítica juega un rol importante en la mayoría de las sensaciones
de disonancia (aunque en la literatura psicoacústica es preferido el término aspereza,
dado que disonancia posee connotaciones derivadas de la teoría musical tradicional). Si
dos sinusoides están cercanas en frecuencia, son percibidas como un tono con una
frecuencia que se encuentra entre las dos frecuencias específicas; junto con esta
percepción encontramos una sensación de batimento o pulsación. A medida que los tonos
comienzan a separarse, pero permanecen dentro de esta banda crítica, hay una
sensación de disonancia. Separando aún más estos tonos posibilita al oído de discriminar
entre las dos frecuencias; pero la sensación de disonancia permanece hasta que la
diferencia en frecuencia entre las sinusoides excede un ancho de banda crítico. Cuando
están presentes muchas frecuencias, el sistema auditivo opera simultáneamente sobre
todas ellas, sujeto a sus límites de resolución. Si las frecuencias están relacionadas por la
serie armónica, el espectro general se percibe como altura tonal y timbre, en un orden
superior de percepción. Sin embargo, también pueden vislumbrarse sensaciones de altura
tonal en espectros inarmónicos, incluyendo ruido.
 Percepción de timbre
Un espectro estático no representa el total de la identidad de un instrumento. La porción
de ataque y decaimiento de un sonido brindan información muy importante. De hecho, el
espectro de un instrumento cambia constantemente, y si esta actividad temporal, o
espectro dinámico, está ausente (como sucede a veces en sonidos generados por
computadora), percibimos el sonido como uno generado artificialmente. Entonces, cuando
hablamos de timbre, estamos hablando de algo que tiene más de una dimensión.
p. 24
Aquí consideraremos uno de los aspectos más notorios del timbre: el balance de los
parciales en un espectro armónico (la relación entre las intensidades relativas de cada
parcial). Una de las curiosidades sobre el mecanismo perceptual es que una onda de
sonido que abarca varias frecuencias puede ser percibida como con una única altura
tonal, y que el balance espectral entre sus armónicos los fusiona en una única sensación
de timbre. La fusión es, posiblemente, un fenómeno de orden superior que resulta de la
combinación de informaciones espectrales y temporales que provee el sistema auditivo
periférico. Es más fácil inducir un efecto de fusión si los parciales son armónicos; sin
embargo, espectros inarmónicos pueden fusionarse si la envolvente de amplitud
compartida es suficientemente repentina, como por ejemplo un ataque muy rápido y un
decaimiento exponencial. En efecto, muchos tonos de campana poseen espectro
inarmónico y este tipo de envolvente de amplitud.
Los parciales superiores de un espectro armónico se fusionan dando lugar a la percepción

de altura tonal en la frecuencia fundamental, incluso aunque esta frecuencia fundamental
no esté presente. Este fenómeno es llamado fundamental ausente, o fundamental
fantasma, y juega un rol interesante en la ópera. Cantantes profesionales (principalmente
hombres), desarrollan una sección de formantes adicional, llamada la formante de canto.
Esta formante está usualmente entre 2500 y 3000 Hz y no ocurre durante el habla natural.
Las intensidades más fuertes de la orquesta ocurren en frecuencias por debajo de esta
franja y tienden a enmascarar la energía que el cantante pone en la frecuencia
fundamental. Pero con un refuerzo de energía en la formante de canto, el oyente puede
escuchar la porción superior del espectro del cantante (justo en esta región es donde el
oído es más sensible). El oyente, entonces, puede seguir la frecuencia fundamental con la
combinación de parciales superiores, y así aislar al cantante de la orquesta.
 Enmascaramiento
La mayoría de la música incluye más de un sonido ocurriendo al mismo tiempo, o en un
punto cercano en el tiempo. Es útil entender cómo dos o más sonidos interactúan entre sí
en términos de cómo son percibidos (o incluso organizados) por el oído humano. En la
figura 1.6 se muestra un tono sinusoidal de 1200 Hz y 80 dB NPS. La intensidad de un
tono secundario es alterada para determinar su umbral de audibilidad (llamado umbral de
enmascaramiento). La curva sólida en la figura 1.6 muestra el umbral de
enmascaramiento para un amplio rango de frecuencias del tono secundario. Podemos ver
que las frecuencias por encima del tono principal son enmascaradas más eficazmente
que las que se encuentran por debajo. También podemos notar que la presencia de
p. 25
batimentos causa que el umbral de enmascaramiento caiga en las proximidades del tono
principal (1200 Hz).
Figura 1.6
Los batimentos que ocurren en 2400 y 3600 Hz indican la presencia de armónicos
aurales. Es decir, armónicos del tono principal que no están presentes en este tono están
siendo suministrados por el procesamiento no-lineal del oído dada la alta intensidad de los
tonos (80 dB NPS).
Cuando el tono secundario está por encima de los 40 dB NPS, toma lugar otro efecto no-
lineal del oído: aparece un tono de frecuencia igual a la diferencia entre el tono principal y
el secundario. Intensidades más fuertes producen el efecto perceptual de una mezcla de
tonos de diferentes frecuencias. Este efecto es llamado tono diferencia.
Aquí hemos tratado enmascaramiento en simultáneo, pero es posible que una ráfaga de
notas o sonidos enmascaren un tono que ocurre luego de que esta ráfaga de sonido se
haya apagado (enmascaramiento hacia delante o forward masking) o incluso un tono que
sucedió antes de que esta ráfaga de sonidos ocurra (enmascaramiento hacia atrás o
backwardsmasking).

p. 26
3. Cadena de Audio

p. 27
Para poder trabajar con el sonido debemos ser capaces de capturarlo, medirlo, procesarlo
y generarlo. Esto se hace posible gracias a una serie de dispositivos como micrófonos,
amplificadores, ecualizadores, parlantes, etc., que al ser interconectados dan origen a lo
que se denomina un sistema de sonido. A efectos de lograr un resultado óptimo, es
necesario tomar ciertos recaudos en la interconexión de los componentes de un
determinado sistema. Cuestiones como la adaptación de impedancias, ancho de banda,
rango dinámico, relación señal-ruido y otras, deben ser cuidadosamente analizadas en
cada caso particular si se desea sacar el máximo provecho del equipamiento disponible.
Al completar nuestro sistema obtendremos una cadena de audio capaz de capturar,
procesar y emitir señales sonoras. La cadena de audio básica comienza y termina con un
transductor, pero podremos utilizar otros dispositivos para intervenir la señal en cualquier
parte de la cadena para procesarla.
Figura 1.7
 Señales y transductores
Todos los equipos, dispositivos y sistemas trabajan con señales, es decir con magnitudes
variables que transmiten información. En el caso de los sistemas de sonido, la información
es la onda del sonido y, en nuestro sistema, aparece representada principalmente en dos
tipos de señales: la acústica y la eléctrica. La conversión entre estos tipos de señales está
a cargo de los transductores. Un transductor es un dispositivo diseñado para convertir
cambios en un tipo de energía en cambios en otro tipo de energía. En nuestro sistema de
audio podemos encontrar dos transductores principales, uno es el micrófono, que
convierte variaciones de presión sonora en variaciones de tensión eléctrica, y el otro es el
parlante, que realiza el trabajo opuesto, convertir una señal eléctrica en una acústica.
p. 28
La señal original es el sonido mismo tal y como llega al elemento transductor, es decir al
micrófono, y éste la convierte en una señal eléctrica. Idealmente, la señal eléctrica
resultante debería tener exactamente la misma forma de onda que la señal acústica, con
un mero cambio de unidades: la señal sonora es una presión sonora mientras que la
señal eléctrica es una tensión o voltaje. Este es el concepto de analogía, por eso se dice
que la señal eléctrica es una representación analógica de la señal sonora.
 Problemas en las señales

Hemos dicho que, idealmente, las formas de onda de dos señales analógicas (como la
acústica y su equivalente eléctrica tras la transducción) deberían coincidir. Sin embargo
en los casos reales estas señales no resultan exactamente idénticas, debido básicamente
a dos fenómenos: las distorsiones y el ruido. Las distorsiones son deformaciones en la
forma de onda y el ruido es una señal indeseada que se agrega a la señal de interés. La
calidad de un transductor será función de qué tan pequeños sean los efectos de estos
fenómenos. Un excelente transductor no carece de distorsión y ruido sino que es capaz
de reducirlos a un nivel despreciable para la percepción humana.
Distorsión
La distorsión es la deformación de la forma de onda de una señal. Los casos de distorsión
se dan naturalmente durante la transducción y procesamiento de señales, aunque se
intenta mantenerla al mínimo posible y dentro de lo imperceptible. Existen dos grandes
tipos de distorsión: distorsión no lineal y distorsión lineal.
Distorsión no lineal
La distorsión no lineal se debe a la falta de linealidad en la curva de amplitud de un

dispositivo, es decir, los incrementos de amplitud de entrada y de salida no son
proporcionales.
Este es el caso de la distorsión armónica. Si analizamos su actuación en una sinusoide
podemos observar que la forma de onda resultante es distinta, pero posee la misma
frecuencia fundamental. Ello implica que aparecen armónicos de la fundamental
agregados a la señal original, como se observa en la figura 1.8, y el resultado audible es
el de un sonido con más brillo.

p. 29
Figura 1.8
En los dispositivos se especifica la cantidad de distorsión armónica que producen

mediante el parámetro Distorsión Armónica Total o THD (del inglés Total
HarmonicDistortion), y expresa los armónicos generados como porcentaje de la señal
sinusoidal original:
𝑎𝑟𝑚ó𝑛𝑖𝑐𝑜𝑠
𝑇𝐻𝐷 = × 100
𝑓𝑢𝑛𝑑𝑎𝑚𝑒𝑛𝑡𝑎𝑙
Existe otro tipo de distorsión no lineal llamada distorsión por intermodulación que se
produce típicamente cuando la señal original posee más de una fundamental y éstas no
están relacionadas armónicamente. Si tenemos dos frecuencias 𝑓1 y 𝑓2, tras la distorsión
aparecerán frecuencias iguales a las sumas y restas de las originales, es decir
aparecerán las frecuencias dadas por la fórmula:
𝑓 = |𝑛 × 𝑓1 ± 𝑚 × 𝑓2 |
donde𝑛 y 𝑚 son números enteros (incluyendo el 0). Estos artefactos producidos son
disonantes con las frecuencias de la señal original, por lo tanto este tipo de distorsión
resulta mucho más perjudicial para la calidad del sonido que la distorsión armónica. En los
dispositivos se especifica la cantidad de distorsión por intermodulación producida
mediante el parámetro IMD (del inglés IntermodulationDistortion). Todos los dispositivos
producen ambos tipos de distorsión no lineal, aunque en niveles por debajo de lo
perceptible. Sin embargo, si exigimos a un equipo llevándolo al límite de amplitud que
puede soportar, esas distorsiones se intensifican abruptamente. Esto es lo que
denominamos saturación en un dispositivo.

p. 30
Distorsión lineal
La distorsión lineal es independiente de la amplitud y afecta a la transferencia de las

diferentes frecuencias de la señal en forma diferente. De hecho, una sinusoide no se ve
afectada por este tipo de distorsión. Este comportamiento se conoce como respuesta en
frecuencia y se especifica en los dispositivos como una curva que representa la relación
en dB entre la entrada y la salida para diversas frecuencias.
Figura 1.9
Ruido
Denominamos ruido a toda señal no deseada que se encuentre acompañando (sumada) a
la señal deseada. En los sistemas de sonido existen dos tipos de ruido: el ruido acústico y
el ruido eléctrico. El ruido acústico es el ruido ambiente propiamente dicho formado por
fuentes sonoras que no son la que nos interesa capturar con un micrófono, pero que
logran sumarse a la señal acústica antes de producirse la transducción. El ruido eléctrico
se origina en los fenómenos físicos que tienen lugar dentro de los circuitos eléctricos y
electrónicos, y si bien es posible reducirlo cuidando el diseño y fabricación de los
dispositivos, existen límites físicos que impiden eliminarlo por completo. Lo importante es
mantenerlo debajo del umbral de la audición. En los dispositivos se especifica el nivel de
ruido eléctrico como relación señal-ruido, definida como:
𝑠𝑒ñ𝑎𝑙
𝑆/𝑅 = 20 𝑙𝑜𝑔10
𝑟𝑢𝑖𝑑𝑜

p. 31
donde𝑠𝑒ñ𝑎𝑙 refiere al máximo valor de amplitud en el que el equipo trabaja correctamente
(sin distorsión).
 Rango dinámico
El rango dinámico es un parámetro asociado a una señal que representa la relación entre
el máximo y el mínimo nivel de la señal, expresada logarítmicamente en decibeles. Es
decir, el rango dinámico de una señal será mayor entre mayor sea la diferencia entre su
nivel máximo y su nivel mínimo. Por lo tanto, el rango dinámico puede obtenerse como
diferencia entre estos niveles:
𝑅𝐷 = 𝑁𝑃𝑆𝑚á𝑥𝑖𝑚𝑎 − 𝑁𝑃𝑆𝑚í𝑛𝑖𝑚𝑎
En nuestra cadena de audio, el ruido del sistema no permitirá que trabajemos con sonidos
de amplitudes muy bajas, mientras que las amplitudes demasiado altas llevarán a la
distorsión por saturación. Entonces, el sistema tiene un límite de rango dinámico en el que
puede trabajar sin afectar la señal de manera perjudicial, y este límite está dado por los
niveles de distorsión armónica, distorsión por intermodulación y relación señal-ruido de los
componentes de la cadena de audio.

p. 32
4, Ejercicio
Imaginar un escenario en el cual un sonido es generado en una fuente, atraviesa una
cadena de audio y culmina su trayecto en los procesos cognitivos de un oyente.
Realizar un diagrama de flujo donde se vean representados todos los sistemas, procesos
y fenómenos intervinientes.
Modo de entrega:
imagen PNG exportada de un programa de procesamiento de imágenes o

fotografía/escaneo en caso de haberlo realizado en papel.
Comparta sus resultados en el foro.

p. 33
Bibliografía utilizada y sugerida

 Basso, Gustavo. Percepción auditiva. Universidad Nacional de Quilmes; 2006.
 Farnell, Andy. Designing Sound. MIT Press; 2010.
 Miyara, Federico Miyara. Acústica y Sistemas de Sonido. Universidad Nacional de

Rosario; 1999.
 Roads, Curtis, The Computer Music Tutorial. MIT Press; 1996.
 Roederer, Juan G. The Physics and Psychophysics of Music. Springer; 2008.

p. 34
Lo que vimos:
En esta Unidad hemos tratado el sonido desde su generación, pasando por la forma en
que nuestro sistema auditivo lo percibe, y cómo lo transformamos en otro tipo de señal
para su posterior proceso y almacenamiento.
Lo que viene:
En la siguiente Unidad comenzaremos nuestro trabajo con señales digitales.


Introducción Al Audio Digital - Unidad 1

Cargado por

Copyright:

Formatos disponibles

Introducción Al Audio Digital - Unidad 1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Introducción Al Audio Digital - Unidad 1

Cargado por

Copyright:

Formatos disponibles

Diplomatura en Audio Digital

Centro de e-Learning SCEU UTN - BA.

Módulo 1: Introducción al Audio Digital.

Unidad 1: Acústica y Cadena de Audio.

Centro de e-Learning SCEU UTN - BA.

Centro de e-Learning SCEU UTN - BA.

Centro de e-Learning SCEU UTN - BA.

 Sistemas físicos intervinientes.

 Atributos característicos de los sonidos musicales.

 Percepción de características temporales.

 Problemas en las señales.

Centro de e-Learning SCEU UTN - BA.

Consignas para el aprendizaje colaborativo

● Los foros proactivos asociados a cada una de las unidades.

Además, también se propondrán reflexiones, notas especiales y vinculaciones a

* El MEC es el modelo de E-learning colaborativo de nuestro Centro.

Centro de e-Learning SCEU UTN - BA.

Centro de e-Learning SCEU UTN - BA.

Centro de e-Learning SCEU UTN - BA.

 Sistemas físicos intervinientes

Analizando la fuente de sonido, en este caso el instrumento, podemos identificar varios

1. Un mecanismo principal de excitación que debe ser activado por el instrumentista,

2. El elemento vibrante fundamental que, siendo excitado por lo descrito en el punto

3. Varios instrumentos poseen un resonador (la caja de resonancia en el piano y en

Centro de e-Learning SCEU UTN - BA.

Finalmente, en el oyente, podemos distinguir los siguientes componentes principales:

 el oído interno o cóclea en el cual las vibraciones se distribuyen de acuerdo a

 El sistema nervioso auditivo transmite las señales neurales al cerebro donde la

Centro de e-Learning SCEU UTN - BA.

 Atributos característicos de los sonidos musicales

Centro de e-Learning SCEU UTN - BA.

La asociación de las sensaciones de altura, sonoridad y timbre a un tono musical es el

Centro de e-Learning SCEU UTN - BA.

Centro de e-Learning SCEU UTN - BA.

Centro de e-Learning SCEU UTN - BA.

Centro de e-Learning SCEU UTN - BA.

La figura 1.3 presenta el rango de audición de un adulto promedio como un gráfico de

Centro de e-Learning SCEU UTN - BA.

Curvas de igual sonoridad

• Para sonoridades intermedias, entre 60 y 70 fones, es menor la diferencia de

Centro de e-Learning SCEU UTN - BA.

Una consecuencia de las curvas de igual sonoridad, muy común en el campo de la

Centro de e-Learning SCEU UTN - BA.

Centro de e-Learning SCEU UTN - BA.

 Percepción de características temporales

Un tipo de mecanismo es un detector de período. Opera sobre la delicada estructura de la

Centro de e-Learning SCEU UTN - BA.

La resolución de la percepción rítmica está limitada por la integración temporal. Esto

Centro de e-Learning SCEU UTN - BA.

Los parciales superiores de un espectro armónico se fusionan dando lugar a la percepción

Centro de e-Learning SCEU UTN - BA.

Centro de e-Learning SCEU UTN - BA.

 Problemas en las señales

La distorsión no lineal se debe a la falta de linealidad en la curva de amplitud de un

Centro de e-Learning SCEU UTN - BA.

En los dispositivos se especifica la cantidad de distorsión armónica que producen

Centro de e-Learning SCEU UTN - BA.

La distorsión lineal es independiente de la amplitud y afecta a la transferencia de las

Centro de e-Learning SCEU UTN - BA.