Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Codificadores de Voz

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 36

Codificadores de Voz

Karen Garca Pombo

Sumario
Desafos y motivaciones de la
digitalizacin de la voz.
Caractersticas de la seal de voz.
Clasificacin de los codificadores.
Codificadores de Forma de Onda.
Codificadores paramtricos.
Codificadores Hbridos.
Evaluacin de la Calidad (MOS).

Objetivos
Identificar las caractersticas de la voz
empleadas para la compresin.
Clasificar los cdec de voz a partir de
su principio de funcionamiento.
Describir el principio de funcionamiento
de algunos cdec de voz bsicos.
Asociar las caractersticas de la seal
de voz con el principio de compresin
empleado por los cdec estudiados.

Digitalizacin de la voz
Desafos relacionados con la digitalizacin de la
voz:
Uso eficiente del Ancho de Banda:
Comprimir para lograr mnima razn de bits mayor
nmero de usuarios.
Calidad de la seal de voz:
Lograr altos niveles de calidad, dependiendo del
entorno de aplicacin.
Complejidad del Hardware:
Se traduce en: Retardos introducidos por el proceso
codificacin/
decodificacin,
requerimientos
de
cmputo y consumo de energa.

Digitalizacin de la voz
Motivaciones:
Incrementar las capacidades de los sistemas:
Posibilidad de comprimir.
Posibilidad de lograrse un balance entre
Calidad/Ancho de Banda.
Mejorar la calidad de la seal de voz que se transmite o
almacena:
Posibilidad de aplicar tcnicas y cdigos para el
control de error, ecualizacin, etc.
Seguridad:
Implementar tcnicas de encriptacin para garantizar
la privacidad de la comunicacin o mensaje.

Sistema de Comunicacin
Inalmbrico
Para Cx de voz:

Cdec

Control de errores

Objetivos de las tcnicas de


codificacin
Reducir
el
volumen
de
informacin necesario para
Mnima prdida de calidad.
almacenar o transmitir una
seal de voz.
La seal de voz presenta caractersticas que pueden
aprovecharse para lograr dicho objetivo:
Ancho de Banda:
Mayor cantidad de energa entre los 20 Hz 7 kHz.
El odo humano presenta sensibilidad a la energa entre los 20
Hz 20 kHz.
Seal en el tiempo:
Distribucin de probabilidad de amplitud No uniforme.
Alta correlacin entre muestras sucesivas.
Quasi-estacionaria en pequeos intervalos de tiempo ( 20
ms, fonema): Caractersticas estadsticas (ej: frecuencia
fundamental) uniformes en el intervalo de tiempo.

Caractersticas de la seal de voz

eal de voz presenta caractersticas que pueden aprovecharse para com

Existencia de muestras en rfagas:


Clasificacin de los sonidos en 4 categoras:
1- Voclicos: creados cuando el aire pasa por las cuerda
vocales. La seal se caracteriza por ser pseudo-peridica
(se repite en el tiempo). Conocidos como tramos
sonoros.
2- Consonnticos: creados cuando el aire pasa a travs de
la boca y los labios. Comportamiento ruidoso. Conocidos
como tramos sordos.
3- Combinados o de transicin (entre un sonido voclico y
uno consonntico).

A m plitud

A m plitud

A m plitud

Caractersticas temporales de la
seal de voz
Seal de voz

TRES

0
-1

0.1

0.2

0.3

0.4

0.5
0.6
0.7
Tiempo(seg.)
Periocidad de la seal de voz

0.8

0.9

0
-1

/e/
0.34

0.35

0.36
0.37
0.38
Tiempo(seg.)
Comportamiento ruidoso de la seal de voz

0.39

0.5
0
-0.5

/s/
0.74

0.75

0.76
0.77
Tiempo(seg.)

0.78

0.79

Caractersticas espectrales de los


diferentes sonidos
Sonoros:
suelen
tener de 4 a 5
formantes
(armnicos). En el
tiempo
quasiperidica.
Sordos:
suelen
tener
un
comportamiento
aleatorio y ruidoso.

Caractersticas de la seal
de voz

ectrograma de las 5 vocales, los dos formantes principales estn marcad


1
0.9
0.8

F re q u e n c y

0.7
0.6
0.5
0.4
0.3
0.2
0.1
0

0.5

1.5
Time

2.5

x 10

Caractersticas de la seal
de voz

Espectrograma incluyendo vocales y consonantes.

Clasificacin de los
codificadores
Segn clasificacin general:
Codificadores de forma de onda: Se disean para reproducir
la forma de onda de la seal original. Convierten cualquier
tipo de seal analgica a digital.
Ejemplos:
En el dominio del tiempo: PCM, PCM Diferencial y Diferencial
Adaptativo.
En el dominio de la frecuencia: Transformada, Sub-bandas.
Codificadores paramtricos (VOCODERS): Tienen en cuenta la
manera en que se genera la seal de voz y sus principales
caractersticas en el tiempo y en la frecuencia. Se basan en
construir un modelo del habla en el receptor y solo transmitir
parmetros de la seal para la reconstruccin (Sntesis).
Codificadores Hbridos: (Anlisis por Sntesis) Combinan las
caractersticas de los anteriores. Ej: CELP, RELP, VSELP, RPELTP.

Codificadores: Calidad vs Razn de


Datos

Codificadores de Forma de
Onda
Principal exponente PCM (64 Kbps):
Se basa en la distribucin estadstica de las amplitudes de
la seal de voz, para implementar cuantificacin no
uniforme con mayor cantidad de niveles en las amplitudes
bajas, reduciendo el nmero de niveles mximo a emplear.

DPMC, ADPMC (16/24/32/40 Kbps):


Aprovechan la caracterstica de alta correlacin entre
muestras sucesivas de la seal de voz: (bajas frecuencias).
Cuantifican y transmiten la diferencia entre muestras
sucesivas.
DPCM (4 bits para cuantificar la diferencia).
ADPCM
(ajusta
el
paso
del
cuantificador
dinmicamente, mejora calidad) G.726.

Codificadores de Forma de
Onda
Esquema general de Codificador/Decodificador DPCM:
Funcionamiento General:

Xn

dn

Un
CUANTIFICADOR

CODIFICADOR

X^n
FILTRO DIGITAL

X~n = Un + X^n

Un
yn
FILTRO DIGITAL
X^n

1- Diferencia entre muestra


siguiente y muestra predicha.
dn = xn - x^n
2- Es lo q se cuantifica y
transmite.
un = dn - qn
3- Muestra original cuantificada a
partir de la cual se realiza la
prediccin con el filtro digital.
x~n = un + x^n

4- Prediccin mediante filtro


predictivo lineal basada en
Donde

son los coeficientes del filtro. muestras anteriores:

Codificadores de Forma de
Onda
Funcionamiento General DPCM (cont):
Como lo que se cuantifica y transmite es la diferencia, se necesitan
menos niveles de cuantificacin (si la prediccin es precisa, lo cual
implica una buena estimacin de los coeficientes del filtro), para
obtener la misma . En esto se basa la compresin.
5- Existe una Ganancia de Prediccin con respecto al MIC:
Que se traduce en que la varianza de la seal original es mayor que la
de la seal diferencia, que da la medida de en cunto se reduce el
rango de valores a cuantificar.
La relacin entre las de PCM y DPCM dependen de este valor:

Codificadores de Forma de
Onda

Prediccin Adaptativa:

Se basa en el hecho de que la seal de voz presenta altos niveles


de correlacin por perodos de 20 ms. Cada ese tiempo
aproximadamente es preciso realizar cambios a los coeficientes del
filtro para ajustar la prediccin.

La variante que ms se usa es la Prediccin Adaptativa hacia atrs,


el codificador y el decodificador tienen su lgica aparte y ambos se
basan en los valores de error actual y precedentes y en el valor de
las muestras reconstruidas. A partir de estos parmetros realizan el
ajuste de los coeficientes del filtro y del paso de cuantificacin.

Codificadores de Forma de
Onda

Codificador de Sub-bandas:

recuencia

de muestreo de cada sub-banda se determina mediante criterio de Ny

Codificadores Paramtricos
(Vocoders)

Modelan el proceso de generacin de la voz (Sntesis):


La voz se muestrea y analiza durante perodos de aprox 20-25ms
para estimar los parmetros.
En vez de transmitir la forma de onda:
Se emplea un modelo de la generacin de la voz.
Se transmiten los parmetros de dicho modelo.
Se realiza una sntesis aproximada de la seal de la voz en el
receptor.

Codificadores Predictivos Lineales (LPC) (modelo bsico de


los Vocoders), funcionan:
El tracto vocal se modela mediante un filtro.
La seal de excitacin del filtro puede ser:
Seal peridica (frecuencia fundamental pitch y armnicos)
para sonidos sonoros y ruido para sonidos sordos.
Parmetros que se transmiten:
Ganancia, decisin sonoro/sordo, frecuencia fundamental
(pitch) solo para sonidos sonoros, parmetros LPC (filtro).

Modelo de Codificadores
Paramtricos

-G: regula la potencia de la


seal.
-Coef Filto: Determina las
frecuencias a la salida y la
potencia
de
cada
componente.
-SW: decisin sonoro/sordo.
-Pitch:
frec
fundamental

Vocoder CPL
Tcnica que ofrece las menores velocidades: 1.2 - 4.8
Kbps. Problema: no tiene en cuenta las transiciones o
sonidos combinados.

Se almacenan para el anlisis 240 muestras 30ms


a (fs= 8 KHz).
Modelo del Filtro:

Donde M es el orden del filtro todo polos, G es ganancia,


son los coeficientes del filtro y la unidad de retardo.
G = 5bits, bits c/u, decisin sonoro/sordo = 1bit, pitch
= 6bits Si M=10, 92/30ms=3067 bps

Codificadores Hbridos (ABS)


La calidad lograda por los Vocoders es muy baja para
aplicaciones de Telecomunicaciones. Es por ello que se
emplean variantes hbridas.

Vocoders + Cdecs de Forma


de Onda
Ejemplos son:
Residual LPC (RELP)
Codebook excited LPC (CELP)

Buscan aumentar calidad, teniendo en cuenta los sonidos


combinados y las transiciones entre sonoro/sordo.

Codificadores Hbridos (ABS)


RELP:
Extrae los mismos parmetros de la seal que los Vocoders .
Realiza la sntesis de la seal en el transmisor.
Determina la diferencia entre la seal original y la sintetizada y
tambin la enva al receptor cuantificada y codificada.

Codificadores Hbridos (ABS)


Codebook Excited LPC:
Trata de obtener seales de excitacin ms
reales y parecidas a la original.
Existe un almacn de posibles seales de
excitacin, se realiza un anlisis por sntesis y
se determina el ndice dentro del almacn, de la
seal de excitacin ms parecida a la original.
Este ndice se transmite junto con los dems
parmetros empleados por los Vocoders.
De lo ms empleados en la actualidad.

Codificadores Hbridos (ABS)


Codebook Excited LPC:

Evaluacin de los Cdecs


MOS: Mean Opinion Score. Procedimientos en la Rec. UIT
P.830.
CMOS: Pruebas comparativas entre dos cdecs (ej: PCM y
el que se quiere evaluar) o vs la seal original.
MOS

MOS: Calidad SUBJETIVA de un determinado


codificador. Se realizan pruebas con sujetos
oyentes que puntan la calidad.

CLCULO DE ANCHO
DE BANDA VoIP

Clculo de ancho de banda


requerido para la VoIP:
llamada es un canal de voz, que
Cada

requiere un ancho de banda, el cual se


calcula teniendo en cuenta:

= 1/(duracin de la trama(s) de voz)


Tamao del pkt (bits)= (# bytes por
trama(s) de voz + bytes de cabecera)*8.
Comprobar los clculos empleando la
calculadora: http://www.bandcalc.com/

Clculo para G.711


Velocidad del flujo: 64 kbps.
8 bits por muestra
1 muestra cada 125 s.

Tramas de 10 ms: 80 muestras/trama = 80


B/trama.
2 tramas/paquete: Paquetes de 20 ms.
Calcular:
Velocidad de transmisin de los paquetes: 50 pkt/s.
Tamao de los paquetes: 1280 bits de carga til +
40 bytes de cabecera (IP/UDP/RTP) + 18 bytes de
Ethernet = 1744 bits.
AB = 87.2 kbps.

Clculo para G.726 (ADPCM)


Velocidad del flujo: 32 kbps.
4 bits por muestra.
1 muestra cada 125 s

Tramas de 5ms: 40 muestras/trama = 20


B/trama.
4 tramas/paquete: Paquetes de 20 ms.
Calcular:
Velocidad de transmisin de los paquetes: 50 pkt/s.
Tamao de los paquetes: 640 bits de carga til +
40 bytes de cabecera (IP/UDP/RTP) + 18 bytes de
Ethernet = 1104 bits.
AB = 55.2 kbps.

Clculo para G.728 (LDCELP)

Velocidad del flujo: 16 kbps.

Se muestrea a 125s.
Se codifica solo el ndice del codebook: 10 bits.
Cada 5 muestras se calcula un ndice.

Tramas de 5ms: se calcula 8 ndices, 80 bits,


10B/trama.
6 tramas/paquete: Paquetes de 30 ms.
Calcular:
Velocidad de transmisin de los paquetes: 33.3 pkt/s.
Tamao de los paquetes: 480 bits de carga til + 40
bytes de cabecera (IP/UDP/RTP) + 18 bytes de
Ethernet = 944 bits.
AB = 31.5 kbps.

Clculo para G.729 (CSACELP)

Velocidad del flujo: 8 kbps.

Se muestrea a 125s.
Cada 80 muestras se calcula: ndices de los libros
de cdigo (48 bits) + Coeficientes LP (18 bits) +
Ganancias (14 bits).

Tramas de 10 ms: 80 bits = 10 B.


2 tramas/paquete: Paquetes de 20 ms.
Calcular:
Velocidad de transmisin de los paquetes: 50 pkt/s.
Tamao de los paquetes: 160 bits de carga til +
40 bytes de cabecera (IP/UDP/RTP) + 18 bytes de
Ethernet = 624 bits.
AB = 31.2 kbps.

Clculo para G.723.1


Velocidad del flujo: 5.3 kbps.
Se muestrea a 125s.
Cada 240 muestras se obtienen: 158 bits (ver
Rec.). Se completan a 160 bits

Tramas de 30 ms: 160 bits = 20B.


1 tramas/paquete: Paquetes de 30 ms.
Calcular:
Velocidad de transmisin de los paquetes: 33,3
pkt/s.
Tamao de los paquetes: 160 bits de carga til +
40 bytes de cabecera (IP/UDP/RTP) + 18 bytes de
Ethernet = 624 bits.
AB = 20.8 kbps.

Clculo para G.723.1


Velocidad del flujo: 6.3 kbps.
Se muestrea a 125s.
Cada 240 muestras se obtienen: 189 bits (ver
Rec.). Se completan a 192 bits

Tramas de 30 ms: 192 bits = 24B.


1 tramas/paquete: Paquetes de 30 ms.
Calcular:
Velocidad de transmisin de los paquetes: 33,3
pkt/s.
Tamao de los paquetes: 192 bits de carga til +
40 bytes de cabecera (IP/UDP/RTP) + 18 bytes de
Ethernet = 656 bits.
AB = 21.9 kbps.

Tabla Simplificada para el Clculo del


Ancho de Banda
Codec

BW
(Cdec)
kbps

Tamao del
pkt de voz
(bytes)

Pkt/s

Header
UDP/IP/R
TP (bytes)

L2
byte
s

BW
Total
kbps

G.711

64

160

50

40

18

87.2

G.726
(r32)

32

80

50

40

18

55.2

G.728

16

60

33.3

40

18

31.5

G.729

20

50

40

18

31.2

G.723.1

6.3

24

33,3

40

18

21.9

G.723.1

5.3

20

33,3

40

18

20.8

También podría gustarte