Tese Zao 2013

INSTITUTO MILITAR DE ENGENHARIA
LEONARDO AUGUSTO Z O
REALCE DE SINAIS DE VOZ BASEADO NA

DECOMPOSIÇ O EMPÍRICA DE MODOS EM PRESENÇA
DE DISTORÇÕES ACÚSTICAS N O-ESTACIONÁRIAS
Tese de Doutorado apresentada ao Curso de Doutorado em

Engenharia de Defesa do Instituto Militar de Engenharia,
omo requisito par ial para obtenção do título de Doutor
em Ciên ias em Engenharia de Defesa.
Orientador: Rosângela Fernandes Coelho - Do teur ENST
Rio de Janeiro
2013
2013

Praça General Tibúr io, 80-Praia Vermelha
Rio de Janeiro-RJ CEP 22290-270
Este exemplar é de propriedade do Instituto Militar de Engenharia, que poderá in luí-lo

em base de dados, armazenar em omputador, mi rolmar ou adotar qualquer forma de
arquivamento.
É permitida a menção, reprodução par ial ou integral e a transmissão entre bibliote as

deste trabalho, sem modi ação de seu texto, em qualquer meio que esteja ou venha a
ser xado, para pesquisa a adêmi a, omentários e itações, desde que sem nalidade
omer ial e que seja feita a referên ia bibliográ a ompleta.
Os on eitos expressos neste trabalho são de responsabilidade do(s) autor(es) e do(s)

orientador(es).
Z34r Zão, L.
REALCE DE SINAIS DE VOZ BASEADO NA DE-
COMPOSIÇ O EMPÍRICA DE MODOS EM PRESENÇA
DE DISTORÇÕES ACÚSTICAS N O-ESTACIONÁRIAS /
Leonardo Augusto Zão. - Rio de Janeiro : Instituto Militar de
Engenharia, 2013.
107 p.: il.
Tese (doutorado) - Instituto Militar de Engenharia - Rio de

Janeiro, 2013.
1. Engenharia de defesa - teses. 2. Pro essamento de sinais. 3.

Real e de sinais de voz 4. Re onhe imento a ústi o de emoções I.
Título II. Instituto Militar de Engenharia.
CDD 621.3822
2
LEONARDO AUGUSTO Z O
REALCE DE SINAIS DE VOZ BASEADO NA DECOMPOSIÇ O
EMPÍRICA DE MODOS EM PRESENÇA DE DISTORÇÕES ACÚSTICAS
N O-ESTACIONÁRIAS
Tese de Doutorado apresentada ao Curso de Doutorado em Engenharia de Defesa do

Instituto Militar de Engenharia, omo requisito par ial para obtenção do título de Doutor
em Ciên ias em Engenharia de Defesa.
Orientador: Rosângela Fernandes Coelho - Do teur ENST
Aprovada em 18 de Dezembro de 2013 pela seguinte Ban a Examinadora:
Rosângela Fernandes Coelho - Do teur ENST do IME - Presidente
Vitor Heloiz Nas imento - Ph.D. da Poli/USP
Marley Maria Bernardes Rebuzzi Vellas o - Ph.D. da PUC/Rio
Luiz Wagner Pereira Bis ainho - D.S . da COPPE/UFRJ
Paulo Fernando Ferreira Rosa - Ph.D. do IME
Rio de Janeiro
2013
3
Àqueles que me a ompanharam nesta jornada.
4
AGRADECIMENTOS
À Prof. Rosângela Coelho, minha orientadora, por todo in entivo, obrança, pa iên ia
e amizade ao longo de todos estes anos, que foram essen iais para o desenvolvimento desta
Tese,
À minha esposa, Isabela, por todo o amor e pelo apoio in ondi ional para a realização
deste Doutorado,
Aos meus pais Fran is o e Lourdes, a meus irmãos Vini ius e Marianna, e a todos os
familiares que ompreenderam e me perdoaram pelo afastamento para dedi ação a este
urso,
Aos olegas Eloi, Rodrigo e demais membros do Laboratório de Pro essamento de
Sinais A ústi os, do IME, pela amizade que tornou a aminhada menos desgastante e
ainda mais prazerosa,
Ao Instituto Militar de Engenharia, instituição na qual já havia me graduado e obtido
o título de mestre, e que me propor ionou a realização deste urso de Doutorado,
A todos os professores e fun ionários do Instituto Militar de Engenharia, por ontri-
buirem direta e indiretamente para minha formação,
A Deus, por estar presente na minha vida, na minha família e nos meus estudos, e
por guiar sempre o meu aminho,
E à Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES), pelo
apoio nan eiro.
5
SUMÁRIO
LISTA DE ILUSTRAÇÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
LISTA DE TABELAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
RESUMO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
ABSTRACT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1 INTRODUÇ O . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1 Estado da Arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.1.1 Real e de Sinais de Voz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.1.2 Identi ação A ústi a de Emoções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.3 Resultados Obtidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4 Organização da Tese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2 REALCE DE SINAIS DE VOZ ................................ 24

2.1 Té ni as Espe trais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.1 Subtração Espe tral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.2 Té ni a de Cohen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.1.3 Filtragem de Wiener om Estimador UnB-MMSE . . . . . . . . . . . . . . . . . . . . . 32
2.2 Té ni as Baseadas no Método EMD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.2.1 O Método EMD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.2.2 EMD-DT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.2.3 EMDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.3 Proposta de Real e de Sinais de Voz EMDH . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.3.1 O expoente de Hurst . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.3.1.1 O estimador de Hurst . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3.2 Seleção de IMF e Re onstrução do Sinal de Voz . . . . . . . . . . . . . . . . . . . . . . . 43
2.4 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3 MEDIDAS DE QUALIDADE E INTELIGIBILIDADE ......... 45

3.1 Des rição dos Experimentos de Real e de Voz . . . . . . . . . . . . . . . . . . . . . . . . . 46
6
3.1.1 Índi e de Não-Esta ionariedade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2 Razão Sinal-Ruído Segmental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.2.1 Resultados de SegSNR para Real e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.2.2 Resultados de SegSNR para Pós-Real e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.3 Medida OQCM de Qualidade de Sinais de Voz . . . . . . . . . . . . . . . . . . . . . . . . 55
3.3.1 Resultados de OQCM para Real e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3.2 Resultados de OQCM para Pós-Real e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.4 SNR om Ponderação em Frequên ia para Inteligibilidade . . . . . . . . . . . . . . 60
3.4.1 Resultados de fwSegSNR para Real e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.4.2 Resultados de fwSegSNR para Pós-Real e . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.5 Medida Objetiva de Inteligibilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.6 Identi ação Automáti a de Lo utor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.6.1 Atributos A ústi os MFCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.6.2 Modelo GMM do Lo utor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.7 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4 MÁSCARA ACÚSTICA PARA IDENTIFICAÇ O DE VARI-

AÇÕES EMOCIONAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.1 O Vetor de Atributos pH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.1.1 Extração do Vetor pH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.2 Proposta para Más ara A ústi a de Emoções . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.2.1 Fase de Treinamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.2.1.1 Estimação dos Componentes AMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.2.2 Fase de Teste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.3 Experimentos Realizados e Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.3.1 Des rição dos Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.3.1.1 Bases A ústi as de Emoções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.3.1.2 Atributo TEO-CB-Auto-Env . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.3.2 Resultados om a Base EMO-DB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.3.3 Resultados om a Base SUSAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.4 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5 CONCLUS O E TRABALHOS FUTUROS .................... 94

5.1 Sugestões para Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
7
5.2 Comentários Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
6 REFERÊNCIAS BIBLIOGRÁFICAS . . . . . . . . . . . . . . . . . . . . . . . . . . 98
APÊNDICE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
8
LISTA DE ILUSTRAÇÕES
FIG.2.1 Diagrama de blo os dos prin ipais omponentes das té ni as de
real e de sinais de voz espe trais, baseados na transformada de
Fourier. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
FIG.2.2 Relação entre o fator de subtração α e os valores de SNR a posteriori
γ , em dB (BEROUTI, 1979). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
FIG.2.3 Diagrama de blo os da de omposição empíri a de modos para ex-
tração das IMFs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
FIG.2.4 Forma de onda das in o primeiras IMFs extraídas da de omposição
de um segmento de um sinal de voz limpo de 0,5 s da base de voz
TIMIT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
FIG.2.5 Magnitude das IMFs obtidas pelo método EMD sobre um sinal fGn
om H = 0, 5 (ruído bran o) (FLANDRIN, 2004b). . . . . . . . . . . . . . . . . . 38
FIG.2.6 A linha ontínua indi a os valores de variân ia estimados das
amostras das IMFs de um sinal de voz limpo oletado da base
TIMIT. Na linha tra ejada, são apresentados os valores referentes
ao mesmo sinal de voz orrompido pelo ruído fábri a om SNR de
0 dB. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
FIG.2.7 Exemplo da estimação do expoente de Hurst utilizando J = 3 es-
alas de de omposição. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
FIG.2.8 A linha ontínua indi a os valores de H estimados das IMFs do
mesmo sinal de voz limpo da FIG. 2.6. Na linha tra ejada, são
apresentados os valores referentes ao mesmo sinal de voz or-
rompido pelo ruído fábri a om SNR de 0 dB. . . . . . . . . . . . . . . . . . . . . . . 42
FIG.3.1 Espe trogramas de segmentos de 3 segundos de duração dos ruídos

(a) balbúrdia, (b) britadeira, ( ) fábri a, (d) heli óptero (e) serra
elétri a, e (f) trem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
FIG.3.2 Os valores de INS obtidos de segmentos de 3 s de duração dos ruídos
a ústi os (a) balbúrdia, (b) britadeira, ( ) fábri a, (d) heli óptero,
(e) serra elétri a, e (f) trem. As linhas tra ejadas indi am os valo-
res orrespondentes do limiar γ para os testes de esta ionariedade. . . . . 50
9
FIG.3.3 In rementos de SegSNR (dB) obtidos om as té ni as de real e de
voz SS, Cohen, Wiener, EMDF, EMD-DT e a proposta EMDH. . . . . . . 52
FIG.3.4 In rementos de SegSNR (dB) obtidos om EMDF e EMDH omo
pós-real e das té ni as espe trais SS, Cohen e Wiener. . . . . . . . . . . . . . . 54
FIG.3.5 Comparação entre os in rementos médios de SegSNR (dB) obtidos
por diferentes té ni as de real e e pós-real e. . . . . . . . . . . . . . . . . . . . . . . . 55
FIG.3.6 In rementos na medida OQCM obtidos om as té ni as de real e
de voz SS, Cohen, Wiener, EMDF, EMD-DT e a proposta EMDH. . . . . 57
FIG.3.7 Comparação entre os in rementos médios de OQCM obtidos pelas
té ni as de real e. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
FIG.3.8 In rementos na medida OQCM obtidos om EMDF e EMDH omo
pós-real e das té ni as espe trais SS, Cohen e Wiener. . . . . . . . . . . . . . . 59
FIG.3.9 In rementos de fwSegSNR (em dB) obtidos om as té ni as de re-
al e de voz SS, Cohen, Wiener, EMDF, EMD-DT e a proposta
EMDH. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
FIG.3.10 In rementos de fwSegSNR (em dB) obtidos om EMDF e EMDH
omo pós-real e das té ni as espe trais SS, Cohen e Wiener. . . . . . . . . . 62
FIG.3.11 Comparação entre os in rementos médios de fwSegSNR obtidos
pelas té ni as de real e e pós-real e. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
FIG.3.12 Extração dos oe ientes MFCC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
FIG.4.1 Separação das emoções nos eixos de valên ia, potên ia e ativação
(YANG, 2010). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
FIG.4.2 Sinais de voz originados sob diferentes estados emo ionais: (a) neu-
tro, (b) feli idade, ( ) raiva e (d) tristeza (ILIEV, 2011). . . . . . . . . . . . . 74
FIG.4.3 Distribuição dos valores do expoente H para sinais de voz sob qua-
tro ondições emo ionais distintas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
FIG.4.4 Exemplo da extração de um vetor pH utilizando o estimador M-
dim-wav om J = 3 estágios de de omposição. . . . . . . . . . . . . . . . . . . . . . 80
FIG.4.5 Exemplo de diagrama em blo os da identi ação de 4 emoções (fe-
li idade, neutro, raiva e tristeza) utilizando a más ara a ústi a
binária. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
FIG.4.6 Diagrama de blo os da extração do atributo TEO-CB-Auto-Env. . . . . . . 87
10
LISTA DE TABELAS
TAB.3.1 Predição de taxas de a ertos (%) de inteligibilidade obtidos om os
resultados de STOI om o mapeamento determinado pela EQ. 3.26. . . . 66
TAB.3.2 Taxas de a ertos (%) nos experimentos de identi ação de lo utor
om as diferentes té ni as de real e. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
TAB.4.1 Cara terísti as das bases de voz adotadas nos experimentos de las-
si ação a ústi a de emoções. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
TAB.4.2 A urá ia na identi ação a ústi a de emoções (%) para a base
EMO-DB utilizando o vetor pH, sem más ara a ústi a. . . . . . . . . . . . . . . 88
EMO-DB utilizando os oe ientes MFCC, sem más ara a ústi a. . . . . . 88
EMO-DB utilizando o atributo TEO-CB-Auto-Env, sem más ara
a ústi a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
EMO-DB utilizando o vetor pH om a más ara a ústi a. . . . . . . . . . . . . . 89
TAB.4.6 A urá ia na identi ação de emoções (%) para a base EMO-DB
utilizando os oe ientes MFCC om a más ara a ústi a. . . . . . . . . . . . . 89
TAB.4.7 A urá ia na identi ação de emoções (%) para a base EMO-DB
utilizando atributo TEO-CB-Auto-Env om a más ara a ústi a. . . . . . . 89
TAB.4.8 Taxa de identi ação de situações de estresse (%) para a base
SUSAS utilizando o vetor pH, sem más ara a ústi a. . . . . . . . . . . . . . . . . 91
SUSAS utilizando os oe ientes MFCC, sem más ara a ústi a. . . . . . . . 91
SUSAS utilizando o atributo TEO-CB-Auto-Env, sem más ara
a ústi a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
SUSAS utilizando o vetor pH om a más ara a ústi a. . . . . . . . . . . . . . . . 92
SUSAS utilizando os oe ientes MFCC om a más ara a ústi a. . . . . . 92
11
SUSAS utilizando o atributo TEO-CB-Auto-Env om a más ara
a ústi a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
12
RESUMO
Nesta Tese, são estudadas soluções para reduzir o efeito de distorções e variações
a ústi as em sinais de voz. Para tratar as distorções ausadas por ruídos a ústi os am-
bientais, é introduzida a té ni a de real e de sinais de voz EMDH. Esta proposta adota
a de omposição empíri a de modos e o expoente de Hurst para melhorar a qualidade e
a inteligibilidade de sinais de voz orrompidos por ruídos não-esta ionários. Com relação
às variações a ústi as, a nalidade é identi ar o estado emo ional do lo utor a partir do
sinal de voz. Para isto, são apresentadas duas soluções para melhor lassi ar as emoções:
o vetor de atributos pH e uma más ara a ústi a binária.
Para avaliação da té ni a proposta de real e, são utilizados ruídos oletados de diver-
sas fontes a ústi as e om diferentes índi es de não-esta ionariedade. A té ni a EMDH
aprimorou os resultados de quatro medidas objetivas, sele ionadas para avaliar a quali-
dade e a inteligibilidade dos sinais de voz. Cin o té ni as de real e existentes na literatura
são adotadas omo referên ia. A proposta EMDH al ançou os melhores resultados para a
maioria dos experimentos realizados, prin ipalmente para aqueles om ruídos altamente
não-esta ionários. Adi ionalmente, a té ni a proposta aprimorou a a urá ia de um sis-
tema de identi ação de lo utor, adotada neste trabalho omo medida omplementar para
a inteligibilidade dos sinais de voz.
Para a lassi ação de estados emo ionais pelo sinal de voz, o vetor pH é utilizado
omo atributo a ústi o tempo-frequên ia para representar as diferentes emoções. Já a
más ara a ústi a binária é proposta para remover as omponentes do sinal de voz que
não estejam rela ionadas om o estado emo ional. A avaliação destas propostas é realizada
om experimentos de identi ação a ústi a de emoções e de ondições reais de estresse
om duas bases distintas. Os resultados demonstram que a adoção tanto do vetor pH
quanto da más ara a ústi a aumenta as taxas de a ertos na identi ação de emoções.
Além disso, os melhores resultados foram al ançados om a utilização em onjunto das
duas propostas.
13
ABSTRACT
The main issue of this work is to redu e the ee ts of noise orruption and emotional
variation in spee h signals. The EMDH spee h enhan ement te hnique is proposed to
redu e or suppress the signals distortion aused by a ousti noises. The proposed te h-
nique adopts the empiri al mode de omposition and the Hurst exponent to improve the
quality and intelligibility of the noisy spee h signals. Regarding the variation in emotional
spee h, the main goal is to identify whi h emotion ae ts the speaker. The pH feature
ve tor and a binary a ousti mask are proposed for the spee h emotion lassi ation.
The spee h enhan ement evaluation experiments are ondu ted with spee h signals
orrupted with a ousti noises from dierent sour es and with dierent indi es of nonsta-
tionarity. The EMDH te hnique improves the results of four obje tive measures, adopted
to evaluate the spee h signals in terms of both quality and intelligibility. For omparison,
ve other te hniques are also onsidered in the experiments. The proposed te hnique
leads to the best results for most of the noise s enarios onsidered in the experiments,
mainly for the highly nonstationary noises. Additionally, the EMD also a hieves the best
a ura y in a speaker identi ation system.
Con erning the spee h emotion lassi ation, the pH ve tor is adopted as a time-
frequen y feature to represent the variations in emotional spee h. The binary a ousti
mask is proposed to remove the spe tro-temporal regions of the spee h signals that are
not related to the speaker's emotional state. The pH and the a ousti mask are evaluated
in spee h emotion identi ation experiments ondu ted in two dierent databases. The
results show that both proposals are interesting to improve the emotion identi ation
rates. Moreover, the best results are a hieved with the adoption of both proposals.
14
1 INTRODUÇ O
A voz tem sido objeto de diversos estudos na área de pro essamento de sinais. Além de
ser onsiderado o meio mais natural de omuni ação entre seres humanos, o sinal de voz é
aptado de maneira relativamente simples e não-intrusiva om a te nologia atual. Por ser
o sinal a ústi o resultante do sistema de produção da fala (OSHAUGHNESSY, 1987), a
voz ontém informações que in luem a identidade, o sexo, o idioma e as ondições físi o-
emo ionais do lo utor. O avanço desta área de pesquisa impulsionou o desenvolvimento
de diversas apli ações, tais omo a odi ação e a síntese da voz (KLEIJN, 1995), e
o re onhe imento de voz (RABINER, 1989, 1993) e de indivíduos (OSHAUGHNESSY,
1987; CAMPBELL, 1997). Um dos prin ipais desaos da área de pro essamento de voz
é evitar a degradação destes sistemas quando os sinais de voz são submetidos a efeitos
de distorções por ruídos ou de variações a ústi as pelo estado emo ional do lo utor. As
distorções, por exemplo, podem levar à redução de mais de 80 pontos per entuais na taxa
média de a ertos de um sistema de identi ação de lo utor (MING, 2007; Z O, 2011).
Os resultados de identi ação também sofrem degradação devido às variações a ústi as
de orrentes das emoções (CAVALCANTE, 2011; SHAHIN, 2013).
A bus a por soluções para reduzir o efeito das distorções e variações a ústi as em sinais
de voz é de fundamental importân ia para a área de pesquisa. Para tratar as distorções
ausadas pelos ruídos a ústi os, o real e de sinais de voz é estudado desde a dé ada de
1970 (BOLL, 1979). O objetivo das té ni as de real e é aprimorar os aspe tos per eptuais
do sinal de voz (LOIZOU, 2007b), tais omo a qualidade1 e a inteligibilidade2. Um dos
desaos é que os ruídos são oriundos de diferentes fontes a ústi as (avião, balbúrdia,
arro, trem) e possuem ara terísti as que variam ao longo do tempo, ou seja, são não-
esta ionários. Com relação às variações a ústi as, a nalidade é identi ar, a partir
do sinal de voz, qual o estado emo ional (feli idade, raiva, tédio, tristeza) do lo utor
(COWIE, 2001; AYADI, 2011). Cabe ressaltar que, omo as alterações no sistema de
1A qualidade do sinal de voz é normalmente avaliada em testes subjetivos para medir o des onforto
ausado pelo ruído a ústi o ao usuário.
2A inteligibilidade está rela ionada ao orreto entendimento da mensagem transmitida pelo sinal de
voz e, geralmente, é medida pela taxa de a ertos das palavras ou sentenças.
15
produção da fala, provo adas pelas emoções, variam ao longo do tempo, estas variações
emo ionais também são onsideradas não-esta ionárias.
1.1 ESTADO DA ARTE
Algumas das prin ipais ontribuições e propostas existentes na literatura para real e
de sinais de voz e identi ação a ústi a de emoções estão su intamente apresentadas nesta
Seção.
1.1.1 REALCE DE SINAIS DE VOZ
As té ni as de real e propostas na literatura podem ser divididas em dois grupos. O

primeiro é omposto por algoritmos que realizam a supressão das omponentes do ruído a
partir do espe tro3 do sinal de voz. Para isto, o sinal orrompido é geralmente dividido em
quadros de urta duração (20 ms - 32 ms). Logo após, ada quadro é analisado no domínio
da frequên ia via transformada de Fourier de tempo urto (STFT - short-time Fourier
transform ). No segundo onjunto, residem as propostas que adotam a análise tempo-
frequên ia4 (TF) (FLANDRIN, 1998; COHEN, 1995; AUGER, 2013) para de ompor o
sinal de voz ruidoso. Nestas abordagens, após a de omposição do sinal de voz, um ritério
de de isão é utilizado para identi ar quais omponentes são mais afetadas pelo ruído.
As té ni as espe trais são, em geral, implementadas em três etapas onse utivas. Logo
após a apli ação da SFTF, emprega-se um método de estimação para determinar as om-
ponentes espe trais do ruído presentes no sinal de voz. Estas omponentes são então
subtraídas ou suprimidas do espe tro do sinal orrompido. Finalmente, a versão realçada
do sinal de voz é re onstruída no domínio do tempo utilizando a transformada inversa
de Fourier. Na té ni a lássi a de subtração espe tral (SS - spe tral subtra tion ) (BOLL,
1979; BEROUTI, 1979), assume-se a hipótese do ruído aditivo para obter o espe tro
do sinal de voz subtraindo-se as omponentes do ruído do espe tro do sinal de voz or-
rompido. Em (EPHRAIM, 1984), modelos om distribuição Gaussiana foram utilizados
para estimar o espe tro do sinal de voz utilizando o método de minimização do erro médio
3 Por este motivo, estas té ni as serão denominadas espe trais.

4A análise tempo-frequên ia ompreende a de omposição de sinais no domínio do tempo, resultando
simultaneamente em uma separação no domínio da frequên ia. Esta análise é de fundamental importân ia
para o pro essamento de sinais não esta ionários (COHEN, 1995; FLANDRIN, 2003).
16
quadráti o (MMSE - minimum mean-square error ) da magnitude dos oe ientes espe -
trais. Na proposta apresentada em (EPHRAIM, 1985), o método MMSE foi apli ado
sobre o logaritmo da magnitude dos oe ientes espe trais (LSA - log-spe tral amplitude ).
Em (SCALART, 1996), o espe tro do sinal de voz foi estimado utilizando ltro de Wiener
om ganho multipli ativo denido pela razão sinal-ruído (SNR - signal-to-noise ratio )
a priori (MACAULAY, 1980). Já em (COHEN, 2001), a té ni a que minimiza o LSA
(EPHRAIM, 1985) foi modi ada para abranger o on eito de in erteza de presença de
voz, originando a proposta OMLSA (optimally-modied LSA). Além destes, outros algorit-
mos têm sido apresentados para estimação do espe tro do sinal de voz baseada no método
MMSE (MARTIN, 2005; ERKELENS, 2007; ANDRIANAKIS, 2009). Apesar do grande
número de té ni as de real e, a supressão e iente do ruído nestas propostas está sempre
ondi ionada à orreta estimação das omponentes do ruído. Os métodos lássi os de es-
timação são omumente baseados na hipótese de que os ruídos são esta ionários (BOLL,
1979). Contudo, um dos prin ipais desaos onsiste em estimar, de maneira pre isa, o es-
pe tro de ruídos não-esta ionários (EPHRAIM, 1984; COHEN, 2001; MANOHAR, 2006;
GERKMANN, 2012). Para ontornar tal di uldade, diversos algoritmos foram propostos
para estimação do ruído mesmo em longos segmentos onde há presença de voz (MARTIN,
2001; COHEN, 2003; HENDRIKS, 2010; GERKMANN, 2012). No entanto, mesmo as
propostas mais re entes não se mostraram apazes de estimar elmente as os ilações de
ruídos altamente não-esta ionários (GERKMANN, 2012).
No onjunto de té ni as de real e que utilizam a análise tempo-frequên ia, as mais
tradi ionais são aquelas baseadas em wavelets (DONOHO, 1994, 1995). Após a de om-
posição do sinal de voz, a ideia é eliminar os oe ientes wavelet se as suas amplitudes
estão abaixo de um determinado limiar (DONOHO, 1995). Um limitante para o uso de
wavelets é que as suas funções base, utilizadas na de omposição do sinal, são xas. Assim,
é ne essário avaliar se estas funções são apropriadas para a de omposição de ada tipo
de sinal, o que nem sempre é possível (KHALDI, 2008). Em (HUANG, 1998), a de om-
posição empíri a de modos (EMD - empiri al mode de omposition ) foi proposta omo uma
forma não-linear e adaptativa para análise de sinais não-esta ionários. Diferentemente das
wavelets, o método EMD resulta em um onjunto de funções intrínse as de modo (IMF
- intrinsi mode fun tions ) que são totalmente dependentes do próprio sinal, ou seja, as
bases não são xas. A de omposição via EMD foi avaliada em diversas propostas de real e
17
(FLANDRIN, 2004a; KHALDI, 2008) e pós-real e5 (HASAN, 2009; CHATLANI, 2012).
Ao ontrário das té ni as espe trais, o real e baseado no método EMD não ne essita de
uma estimativa explí ita para as omponentes do ruído.
Em (FLANDRIN, 2004a), foi apresentada uma das primeiras propostas baseadas no
método EMD para eliminar o ruído de sinais de naturezas diversas, a té ni a EMD-DT
(EMD-based detrending ). Para isto, o sinal ruidoso é ini ialmente analisado om o método
EMD, e as médias das IMFs resultantes são al uladas para sele ionar quais modos são
predominantemente ompostos por ruído. Os modos restantes são então somados para
re onstruir a versão realçada do sinal. Espe i amente para sinais de voz, duas propostas
de real e foram apresentadas em (KHALDI, 2008). Uma delas (EMD-MMSE) apli a l-
tros sobre ada uma das IMFs obtidas pela de omposição do sinal, que são posteriormente
somadas para re ompor o sinal de voz. Na segunda proposta (EMD-shrinkage ), limiares
são utilizados para sele ionar e eliminar as IMFs que estejam mais orrompidas por ruí-
dos. Apesar de apresentarem resultados mais interessantes que té ni as de real e baseadas
em wavelets (KHALDI, 2008), ambas as propostas EMD-MMSE e EMD-shrinkage são
limitadas a sinais de voz orrompidos por ruído Gaussiano bran o. Já as propostas de
pós-real e EMD-SRN (EMD-based suppression of residual noise ) (HASAN, 2009) e EMDF
(EMD-based ltering ) (CHATLANI, 2012) foram apli adas sobre sinais previamente re-
alçados por té ni as espe trais. Ambas identi am as IMFs mais orrompidas baseadas
em um estudo dos seus valores de variân ia. As té ni as de pós-real e EMDF e EMD-SRN
foram avaliadas om sinais orrompidos pelo ruído balbúrdia, sendo a EMDF aquela que
obteve os resultados de medidas de qualidade mais interessantes.
Para avaliar as té ni as de real e propostas na literatura, geralmente são onsidera-
das apenas medidas de qualidade da voz. Apesar de testes subjetivos per eptuais serem
a forma mais onável para avaliação da qualidade de um sinal de voz, estes são fre-
quentemente substituídos por medidas objetivas (QUACKENBUSH, 1988; RIX, 2001;
HU, 2008; BISPO, 2010). Uma medida é onsiderada satisfatória quando ela possui alta
orrelação om os resultados per eptuais de qualidade obtidos de testes subjetivos (HU,
2008). Entretanto, medidas utilizadas para avaliar a qualidade da voz não ne essaria-
mente apresentam boa representação do grau de inteligibilidade (LOIZOU, 2007b; HU,
2008). De fato, té ni as de real e podem melhorar a qualidade dos sinais de voz e, ao
5 Té ni as de pós-real e são aquelas utilizadas para eliminar ou reduzir o ruído residual de um sinal
de voz previamente pro essado por outra té ni a de real e.
18
mesmo tempo, degradar, por exemplo, as taxas de a ertos de palavras (LOIZOU, 2007b).
Assim, para avaliar as té ni as de real e om relação à inteligibilidade, são ne essárias me-
didas objetivas distintas daquelas originalmente propostas para representar a qualidade.
A bus a e denição por medidas om tais ara terísti as, assim omo (TAAL, 2011), ainda
é um dos prin ipais objetivos da área de pro essamento de voz.
Nesta Tese, é apresentada uma proposta de real e baseada no método EMD para su-
pressão de ruídos a ústi os ambientais om ara terísti as não-esta ionárias. Na presente
proposta, após a de omposição via EMD, utiliza-se o expoente de Hurst (HURST, 1951)
omo ritério para identi ar e sele ionar quais modos são mais orrompidos por ruídos.
A té ni a é avaliada em termos de qualidade e inteligibilidade utilizando quatro medidas
objetivas, nas ondições de real e e pós-real e. Os ruídos onsiderados nos experimen-
tos possuem diferentes índi es de não-esta ionariedade (INS - index of nonstationarity )
(BORGNAT, 2010). Além disso, experimentos de identi ação de lo utor são adotados
omo medida omplementar de inteligibilidade para avaliar o algoritmo proposto. Cin o
té ni as de real e existentes na literatura foram utilizadas omo referên ia na avaliação
da proposta EMDH. Três destas té ni as são espe trais: a subtração espe tral (BOLL,
1979), a té ni a de Cohen (COHEN, 2001, 2003) e a té ni a baseada na ltragem de
Wiener (SCALART, 1996; GERKMANN, 2012). As outras duas são baseadas no método
EMD: EMDF (CHATLANI, 2012) e EMD-DT (FLANDRIN, 2004a).
1.1.2 IDENTIFICAÇ O ACÚSTICA DE EMOÇÕES
Durante a última dé ada, diversos estudos foram onduzidos om o objetivo de iden-

ti ar as variações a ústi as dos sinais de voz devido ao estado emo ional do lo utor
(COWIE, 2001; ZHOU, 2001; SCHULLER, 2009; AYADI, 2011). Um dos prin ipais de-
saos é a denição de atributos a ústi os que sejam mais apropriados para representar as
emoções. Atributos prosódi os, tais omo energia e pit h, apresentam bom desempenho
na distinção entre emoções de alta e de baixa ativação, tais omo raiva e tristeza, por
exemplo (AYADI, 2011). No entanto, estes não são su ientes para distinguir uma entre
diversas emoções, ou em enário multi-estilo. A avaliação de atributos espe trais, tais
omo os oe ientes mel- epstrais (MFCC - mel-frequen y epstral oe ients ) (DAVIS,
1980) e os oe ientes de predição linear (LPC - linear predi tion oe ients ) (RABINER,
1978), mostra que eles são apazes de aptar as alterações no trato vo al. Todavia, os re-
sultados mostraram que tais atributos são bastante sensíveis às ondições de gravação da
19
base de voz, do idioma do lo utor e de outras de suas ara terísti as (SCHULLER, 2009).
Outras propostas de atributos a ústi os foram introduzidas em (ZHOU, 2001), baseadas
no operador Teager de energia (TEO - Teager energy operator ) (KAISER, 1990). O
TEO é um operador não-linear apaz de representar o perl de energia das interações
uxo-vórti es que seriam responsáveis pela formação do som no interior do trato vo al
(TEAGER, 1990). Assim, os atributos apresentados em (ZHOU, 2001) foram propostos
para representar as alterações no padrão de energia destas interações ausadas pelos es-
tados emo ionais. Um outro onjunto de atributos são aqueles que aptam a informação
da ex itação glotal (ROTHENBERG, 1973; BROOKES, 2006; ILIEV, 2011). Apesar de
aptarem a ontribuição das emoções sobre as vibrações das ordas vo ais (QUATIERI,
2001), estes atributos têm sido pou o utilizados na literatura (KOOLAGUDI, 2012).
Nesta Tese, o vetor de expoentes de Hurst (pH) (SANT'ANA, 2006) é proposto omo
atributo tempo-frequên ia para representar as diferentes emoções. O vetor pH apta as
orrelações de alta ordem entre as amostras do sinal de voz, e está rela ionado om as
informações de ex itação glotal. O objetivo da adoção do pH é aumentar as taxas de
a ertos na identi ação a ústi a de emoções em omparação a outros atributos existentes
na literatura (DAVIS, 1980; ZHOU, 2001). Com esta mesma nalidade, é proposta ainda
a utilização de uma más ara a ústi a binária para remover as omponentes do sinal de
voz que não são diretamente rela ionadas om as emoções. Desta forma, atinge-se maior
separabilidade entre os estados emo ionais, levando a um aumento nas taxas de a ertos,
e aprimoramento da qualidade do sinal de voz.
1.2 OBJETIVOS
Os prin ipais objetivos deste trabalho são:
• Propor uma té ni a para real e de sinais de voz orrompidos por ruídos a ústi os
ambientais. Para isto, a de omposição empíri a de modos é apli ada sobre os sinais
ruidosos. Em seguida, o expoente de Hurst (H ) é utilizado para identi ar as IMFs
ompostas predominantemente por ruídos. Nesta proposta, denominada EMDH,
os modos onsiderados livres de ruído são nalmente utilizados na re onstrução do
sinal de voz.
• Avaliar a té ni a EMDH para sinais de voz distor idos por ruídos de distintas
fontes a ústi as reais. Os ruídos a ústi os apresentam diferentes índi es de não-
20
esta ionariedade. Para a avaliação da té ni a proposta, são adotadas quatro medi-
das objetivas que apresentam alta orrelação om a qualidade e a inteligibilidade da
voz.
• Propor os resultados de identi ação automáti a de lo utor omo medida omple-

mentar para a inteligibilidade dos sinais de voz.
• Investigar o uso do atributo pH (SANT'ANA, 2006) para a representação a ústi a

de estados emo ionais e ondições de estresse. Os experimentos de identi ação
a ústi a de emoções são onduzidos om a base de emoções no idioma alemão EMO-
DB (Berlin Database of Emotional Spee h ) (BURKHARDT, 2005) e om a base de
ondições reais de estresse em língua inglesa SUSAS (spee h under simulated and
a tual stress ) (HANSEN, 1997).
• Propor uma más ara a ústi a binária para aprimorar a identi ação a ústi a de
emoções. Nesta proposta, as regiões espe tro-temporais que não estão rela ionadas
om a presença da emoção são identi adas e removidas do sinal de voz. Assim, os
sinais resultantes atingem maior grau de dis riminação entre os diferentes estados
emo ionais, aumentando as taxas de a ertos.
1.3 RESULTADOS OBTIDOS
Os prin ipais resultados e ontribuições obtidos no desenvolvimento desta Tese são:
• Proposta de uma té ni a de real e para sinais de voz orrompidos por ruídos a ús-
ti os reais não-esta ionários. Os resultados obtidos nos experimentos de real e
demonstraram que a té ni a proposta EMDH aprimorou quatro medidas objeti-
vas utilizadas para avaliar a qualidade e a inteligibilidade dos sinais de voz. Em
omparação às té ni as utilizadas omo referên ia, a proposta EMDH apresentou os
melhores resultados para a maioria dos experimentos, prin ipalmente para os ruídos
om maiores valores de INS, ou seja, ruídos altamente não-esta ionários.
• Avaliação das té ni as de real e na tarefa de identi ação automáti a de lo utor.

Para isto, os testes de identi ação foram realizados om sinais de voz previamente
realçados. A té ni a proposta onseguiu as maiores taxas de a ertos para a maioria
21
dos experimentos. Em geral, os resultados obtidos om os algoritmos baseados no
método EMD foram superiores àqueles al ançados om as abordagens espe trais.
• Utilização da proposta EMDH omo pós-real e para as té ni as espe trais

SS (BOLL, 1979; BEROUTI, 1979), Cohen (COHEN, 2001, 2003) e Wiener
(SCALART, 1996; GERKMANN, 2012). Neste enário de pós-real e, os resultados
das medidas objetivas foram superiores àqueles obtidos utilizando apenas as té ni-
as espe trais. Além disso, a té ni a EMDH foi superior a uma outra abordagem
de pós-real e utilizando a té ni a EMDF (CHATLANI, 2012).
• Proposta do vetor pH omo atributo para representação a ústi a de emoções. Para

ambas as bases onsideradas nos experimentos, o vetor pH apresentou os melhores
resultados quando omparado om os oe ientes mel- epstrais (DAVIS, 1980) e um
atributo baseado no operador Teager de energia (ZHOU, 2001).
• Adoção da más ara a ústi a binária para a lassi ação a ústi a de emoções. Os
resultados demonstraram que, om o vetor pH e om os oe ientes mel- epstrais,
a más ara a ústi a aprimorou as taxas de a ertos da identi ação de emoções para
ambas as bases adotadas nos experimentos.
1.4 ORGANIZAÇ O DA TESE
O restante deste trabalho está organizado da seguinte forma:
• Capítulo 2: Neste Capítulo, são primeiramente introduzidas três té ni as espe -

trais de real e de sinais de voz: a subtração espe tral (BOLL, 1979; BEROUTI,
1979), a proposta de Cohen (COHEN, 2001, 2003) e a té ni a baseada na ltragem
de Wiener (SCALART, 1996; GERKMANN, 2012). Ainda neste Capítulo, são in-
troduzidos os prin ipais on eitos sobre o método de de omposição EMD, seguido
da apresentação das té ni as EMDF (CHATLANI, 2012) e EMD-DT (FLANDRIN,
2004a). Finalmente, a té ni a de real e EMDH é des rita, juntamente om os on-
eitos do expoente de Hurst.
• Capítulo 3: Os experimentos para avaliação da té ni a de real e EMDH são apre-

sentados neste Capítulo. Os resultados são obtidos utilizando sinais de voz da
base TIMIT (GAROFOLO, 1993) orrompidas por 6 ruídos oletados de diferentes
22
fontes a ústi as reais. Ini ialmente, apresenta-se a denição e os resultados de INS
(BORGNAT, 2010) para os ruídos sele ionados. Em seguida, as té ni as de real e
são avaliadas om quatro medidas objetivas: razão sinal-ruído segmental (SegSNR -
segmental SNR ), uma medida omposta de qualidade de voz (LOIZOU, 2007b), SNR
segmental om ponderação em frequên ia (fwSegSNR - frequen y-weighted SNR )
(HU, 2008) e a medida objetiva de inteligibilidade em tempo urto (STOI - short-
time obje tive intelligibility ) (TAAL, 2011). Finalmente, as té ni as são avaliadas
também na tarefa de identi ação automáti a de lo utor.
• Capítulo 4: Neste Capítulo, são apresentados os on eitos bási os sobre o atri-

buto a ústi o pH, proposto para representar as emoções do lo utor. Em seguida, a
proposta de más ara a ústi a binária é introduzida. Finalmente, o desempenho das
propostas é avaliado em termos de taxas de a ertos nos experimentos de identi ação
de emoções.
• Capítulo 5: Finalmente, este Capítulo expõe as prin ipais on lusões e on-

tribuições desta Tese. Também são desta adas sugestões para trabalhos futuros.
23
2 REALCE DE SINAIS DE VOZ
A supressão das distorções ausadas por ruídos a ústi os ambientais é de grande in-
teresse para a área de pro essamento de sinais. Com o objetivo de remover ou reduzir
os efeitos ausados pelos ruídos aditivos, a maioria das soluções de real e utilizam a
STFT para estimar o espe tro do ruído. Nestas abordagens, as omponentes do ruído
são subtraídas ou ompensadas do espe tro do sinal de voz para, em seguida, utilizar-se
a transformada inversa de Fourier e re onstruir o sinal limpo no domínio do tempo. Um
dos prin ipais desaos da área onsiste em estimar as estatísti as dos ruídos a ústi os
reais quando suas ara terísti as variam ao longo do tempo, ou seja, quando os ruídos são
não-esta ionários (MANOHAR, 2006).
Os métodos lássi os para estimação do espe tro do ruído são geralmente baseados
em dete tores de atividade de voz (VAD - voi e a tivity dete tor ) (BOLL, 1979). Nestes
asos, as omponentes ruidosas são estimadas a partir de segmentos do sinal onde não há
presença da voz. Apesar de apresentarem resultados satisfatórios em situações de ruídos
esta ionários, estes métodos tornam-se impre isos quando as omponentes espe trais do
ruído variam ao longo do tempo. A di uldade em a ompanhar as variações das estatís-
ti as dos ruídos torna-se ainda mais grave em longos segmentos om atividade de voz, ou
para elevados valores de SNR (MANOHAR, 2006).
Durante a última dé ada, alguns algoritmos foram propostos para estimação do espe -
tro de ruídos mesmo durante a atividade da voz. Dentre estes estimadores, desta am-se o
de estatísti as mínimas (MS - minimum statisti s ) (MARTIN, 2001) e o método IMCRA
(improved minima ontrolled re ursive averaging ) (COHEN, 2003), ujas estimativas para
um determinado quadro são baseadas na observação de uma erta quantidade de quadros
anteriores. Conforme dis utido em (MANOHAR, 2006), esta ne essidade de observação de
momentos passados torna ambos os algoritmos lentos no a ompanhamento das variações
espe trais de ruídos não-esta ionários. Re entemente, o método de estimação UnB-MMSE
(unbiased minimum mean-square error ) (GERKMANN, 2012), baseado na minimização
de erro médio quadráti o, foi proposto para aptar om menor tempo de resposta as vari-
ações espe trais dos ruídos não-esta ionários. Contudo, os resultados apresentados em
(GERKMANN, 2012) mostraram que nenhum destes estimadores é apaz de a ompanhar
24
elmente estas os ilações.
Nos últimos anos, té ni as baseadas na análise tempo-frequên ia têm sido introduzidas
na literatura para o real e de sinais de voz utilizando a de omposição empíri a de modos
(HUANG, 1998). O método EMD foi proposto omo uma forma não-linear e adaptativa
para análise tempo-frequên ia de sinais não-esta ionários. Diferentemente dos métodos
espe trais, o real e baseado no EMD não ne essita da estimação explí ita das estatísti-
as dos ruídos a ústi os, nem que os sinais analisados sejam esta ionários. Além disso,
a utilização do EMD apresenta vantagens em relação a outro método tempo-frequên ia
tradi ional, a análise wavelets (DONOHO, 1995). Com wavelets, a de omposição é re-
alizada utilizando funções base xas, que não ne essariamente onseguem representar o
sinal de voz (KHALDI, 2008). Outra di uldade da de omposição wavelet é a es olha das
funções base que são mais apropriadas para um determinado tipo de sinal. Já no método
EMD, os modos ou IMFs obtidos da de omposição são totalmente dependentes do sinal.
Assim, a análise om EMD é adaptativa, o que garante a perfeita re onstrução do sinal
pela soma dos modos obtidos na de omposição.
Neste Capítulo, são apresentadas algumas das prin ipais té ni as para real e de sinais
de voz em situações de ruídos a ústi os não-esta ionários. Primeiramente, são abordadas
duas té ni as espe trais: a proposta de Cohen (COHEN, 2001, 2003) e a baseada na
ltragem de Wiener (SCALART, 1996). A té ni a lássi a de subtração espe tral (BOLL,
1979) também é apresentada pois será utilizada omo referên ia para os experimentos
de real e de sinais de voz desenvolvidos nesta Tese. Em seguida, são introduzidas as
té ni as tempo-frequên ia EMD-DT (FLANDRIN, 2004a) e EMDF (CHATLANI, 2012).
Finalmente, será apresentada a proposta de real e de sinais de voz EMDH. O prin ipal
objetivo da proposta é prover ganhos tanto de qualidade quanto de inteligibilidade aos
sinais de voz orrompidos por ruídos a ústi os não-esta ionários.
2.1 TÉCNICAS ESPECTRAIS
As té ni as de real e de sinais de voz apresentadas nesta Seção apli am a transformada

de Fourier de tempo urto para analisar quadro a quadro o sinal ruidoso no domínio da
frequên ia. O diagrama de blo os para a maioria das té ni as espe trais de real e está
ilustrado na FIG. 2.1.
Seja y(t) o sinal resultante de um sinal de voz limpo x(t) orrompido por um ruído
25
FIG. 2.1: Diagrama de blo os dos prin ipais omponentes das té ni as de real e de sinais
de voz espe trais, baseados na transformada de Fourier.
aditivo η(t). Então, pode-se es rever y(t) = x(t) + η(t). Se Y (κ, τ ), X(κ, τ ) e N (κ, τ )
representam a STFT de y(t), x(t) e η(t), respe tivamente, pode-se es rever
Y (κ, τ ) = X(κ, τ ) + N (κ, τ ) , (2.1)
onde τ e κ representam os índi es de quadro e frequên ia, respe tivamente (LOIZOU,

2007a). A ideia das té ni as apresentadas a seguir é primeiramente obter uma estimação
para |N̂ (κ, τ )|2 . Logo após, estima-se o espe tro de potên ia do sinal de voz limpo X̂(κ, τ )
para, nalmente, apli ar a transformada de Fourier inversa e re onstruir uma versão
realçada para o sinal x̂(t), no domínio do tempo.
2.1.1 SUBTRAÇ O ESPECTRAL
A subtração espe tral é baseada na hipótese de ruído aditivo, e propõe que a estimativa
do espe tro do sinal limpo pode ser obtida subtraindo-se a estimativa do espe tro do
ruído do espe tro do sinal de voz orrompido. Na proposta original (BOLL, 1979), o
autor onsidera que o ruído é esta ionário e propõe a estimação e atualização de suas
omponentes apenas nos momentos em que não há presença de voz. Finalmente, o espe tro
estimado para o sinal de voz limpo é utilizado juntamente om a informação de fase do
sinal orrompido para re onstruir o sinal de voz.
Considere a separação em magnitude e fase obtida pela forma polar da STFT do sinal
orrompido,
Y (κ, τ ) = |Y (κ, τ )| eφy (κ,τ ) . (2.2)
26
Na té ni a SS (BOLL, 1979), a magnitude do sinal limpo é obtida por
(
|Y (κ, τ )| − |N̂ (κ, τ )| , se |Y (κ, τ )| > |N̂ (κ, τ )|,
|X̂(κ, τ )| = (2.3)
0 , aso ontrário.
Em seguida, ada quadro τ do sinal realçado x̂(t) é re onstruído a partir da transfor-

mada inversa de Fourier apli ada no espe tro estimado de X̂(κ, τ ). Para isto, é utilizada
a informação de fase do sinal orrompido para obter X̂(κ, τ ), ou seja,
X̂(κ, τ ) = |X̂(κ, τ )| eφy (κ,τ ) . (2.4)
As EQS. 2.3 e 2.4 impli am que o espe tro do sinal realçado pode ser obtido a partir
do sinal orrompido por um ganho multipli ativo GSS (κ, τ ),
X̂(κ, τ ) = GSS (κ, τ ) Y (κ, τ ) , (2.5)
onde ( )
|N̂ (κ, τ )|
GSS (κ, τ ) = max 1 − ,0 . (2.6)
|Y (κ, τ )|
Na literatura (MACAULAY, 1980), as razões sinal-ruído a posteriori γ(κ, τ ) e a priori
ξ(κ, τ ) são denidas por
|Y (κ, τ )|2 E {|X(κ, τ )|2 }
γ(κ, τ ) = ; ξ(κ, τ ) = , (2.7)
E {|N (κ, τ )|2} E {|N (κ, τ )|2}
onde E {·} representa o operador esperança ou expe tân ia. Considerando a estimação
do ruído |N̂ (κ, τ )|2 = E {|N (κ, τ )|2 }, pode-se es rever o ganho de SS da EQ. 2.6 da
seguinte forma6
1
GSS = max 1 − √ , 0 . (2.8)
γ
Em (BEROUTI, 1979), os autores propuseram alterações na subtração espe tral
denida pela EQ. 2.3. No lugar da subtração em magnitude, foi onsiderada a subtração
em potên ia. Além disso, foi in luída a utilização de dois fatores, α e β , para diminuir o
ruído residual. O espe tro de potên ia do sinal realçado é dado por
n o
|X̂(κ, τ )|2 = max |Y (κ, τ )|2 − α(κ, τ ) |N̂ (κ, τ )|2 , β |N̂ (κ, τ )|2 . (2.9)
6 NaEQ. 2.8, os índi es de quadro e frequên ia foram omitidos para melhor visualização. O mesmo
pro edimento será adotado em outras equações ao longo deste trabalho, mas nun a quando houver na
equação a o orrên ia de índi es distintos, omo no exemplo da EQ. 2.11.
27
α
−5 5 10 15 20 γ (dB)
FIG. 2.2: Relação entre o fator de subtração α e os valores de SNR a posteriori γ , em dB

(BEROUTI, 1979).
O fator α(κ, τ ) ≥ 1 tem o objetivo de ompensar a subtração espe tral nas regiões de
frequên ia onde o espe tro do ruído é subestimado, diminuindo assim o ruído residual.
Já o parâmetro 0 < β ≪ 1 dene um limiar mínimo para a atenuação do ruído, evitando
distorções nas regiões onde a energia do ruído possui ordem de grandeza igual ou superior
à energia do sinal de voz. Em (BEROUTI, 1979), foi ainda denida uma relação para
o fator de subtração α(κ, τ ) dependendo do valor de SNR a posteriori : quanto menor
o valor de SNR maior será a ompensação. Desta forma, onsiderando o valor de SNR
a posteriori em dB e omitindo os índi es κ e τ , os valores de α(κ, τ ) são denidos em
(BEROUTI, 1979) por

 4, 75

 , γ(dB) < −5,
α= 4− 3
γ
20 (dB)
, −5 < γ(dB) < 20, (2.10)

, γ(dB) > 20.

 1
A FIG. 2.2 mostra a relação entre os valores do fator de subtração e os valores de SNR
a posteriori, denida na EQ. 2.10.
A partir da estimação do espe tro do sinal de voz limpo, dada pela EQ. 2.9, a re-
onstrução do sinal no domínio do tempo é novamente realizada utilizando a informação
de fase do sinal orrompido. Nos experimentos realizados ao longo desta Tese, foi onsi-
derada a subtração espe tral denida pelas EQS. 2.9 e 2.10, om β = 0, 01 (BEROUTI,
1979).
2.1.2 TÉCNICA DE COHEN
A segunda té ni a espe tral para real e de sinais de voz avaliada nesta Tese foi intro-
duzida por Cohen em (COHEN, 2001) e (COHEN, 2003). Nesta abordagem, o método
28
IMCRA (COHEN, 2003) é primeiramente utilizado para estimar o espe tro de potên ia do
ruído. Após esta estimação, o sinal de voz é re onstruído utilizando o algoritmo OMLSA
(COHEN, 2001), que minimiza o erro médio quadráti o do logaritmo da magnitude es-
pe tral.
O estimador IMCRA é omposto de duas iterações. Cada uma delas possui uma etapa
de suavização do espe tro de potên ia do sinal ruidoso seguida de uma bus a por suas
estatísti as mínimas7 (MARTIN, 2001). Ao nal da primeira iteração, um VAD é denido
para ada quadro e para ada índi e de frequên ia. Na segunda, este VAD é apli ado para
aprimorar a bus a pelas estatísti as mínimas e aumentar a robustez da estimação do ruído
nos segmentos onde há presença de voz.
A primeira iteração omeça om a apli ação da STFT sobre o sinal de voz orrompido.
Em seguida, uma versão suavizada de |Y (κ, τ )|2 na frequên ia (Sf (κ, τ )) e no tempo
(S(κ, τ )) é obtida por

 Sf (κ, τ ) = w 2
P
i=−w W (i)|Y (κ − i, τ )| ,
(2.11)
 S(κ, τ ) = δ S(κ, τ − 1) + (1 − δ )S (κ, τ ) ,
s s f
onde δs ∈ [0, 1] é o parâmetro de suavização e W (i) é uma janela normalizada, tendo

Pw
i=−w W (i) = 1. Utilizando o mesmo prin ípio adotado no método MS, uma estimativa
para o espe tro de potên ia do ruído pode ser obtida pelos valores mínimos de S(κ, τ ) em
um onjunto de Q quadros passados,
Smin (κ, τ ) = min {S(κ, τ ′ ) | τ − Q + 1 ≤ τ ′ ≤ τ } . (2.12)
Assim, onsidera-se que em pelo menos um dentre estes Q quadros passados, a voz
estará ausente, e
−1
E |N (κ, τ )|2 , (2.13)

E {Smin (κ, τ )} = Bmin
onde Bmin é um fator de orreção de tendên ia (bias ) que pode ser determinado de
maneira empíri a. Para determinar o VAD na primeira iteração, são denidas as seguintes
7A bus a por estatísti as mínimas foi proposta em (MARTIN, 2001) para estimar o espe tro de
potên ia do ruído a ústi o presente no sinal de voz. Esta estimação baseia-se na hipótese de que, quando
observado ao longo de um determinado período de tempo, o espe tro de potên ia do sinal orrompido
frequentemente de ai para valores próximos do espe tro do próprio ruído (LOIZOU, 2007a).
29
grandezas
∆ |Y (κ, τ )|2
γmin(κ, τ ) = ;
Bmin Smin (κ, τ )
(2.14)
∆ S(κ, τ )
ζ(κ, τ ) = .
Bmin Smin (κ, τ )
A de isão sobre a ausên ia ou presença de voz, em ada quadro e índi e de frequên ia,
é dada por

 γmin(κ, τ ) < γ0
1, se (voz está ausente)


I(κ, τ ) = e ζ(κ, τ ) < ζ0 (2.15)

aso ontrário (voz está presente)

 0,
Na segunda iteração, um novo espe tro suavizado S̃f (κ, τ ) é denido utilizando apenas
as regiões do sinal orrompido onde o algoritmo não dete tou atividade da voz, isto é,
I(κ, τ ) = 1,  Pw
W (i)I(κ − i, τ )|Y (κ − i, τ )|2
 S̃f (κ, τ ) = i=−wPw ,


i=−w W (i)I(κ − i, τ ) (2.16)

 S̃(κ, τ ) = δ S̃(κ, τ − 1) + (1 − δ )S̃ (κ, τ ) .

s s f
Caso o denominador da equação que al ula S̃f (κ, τ ) seja nulo, esta é substituída por
S̃f (κ, τ ) = S̃f (κ, τ − 1). A partir de S̃f (κ, τ ), as grandezas S̃min (κ, τ ), γ̃min(κ, τ ) e ζ̃(κ, τ )
são denidas de forma análoga às EQS. 2.12 e 2.14.
Sejam H0 (κ, τ ) e H1 (κ, τ ) as hipóteses de ausên ia e presença de voz, respe tivamente,
no quadro τ e no índi e de frequên ia κ. Em (COHEN, 2003), a probabilidade ondi ional
∆
de presença de voz p(κ, τ ) = P (H0 (κ, τ )|γ(κ, τ )) foi deduzida omo
−1
q(κ, τ )
p(κ, τ ) = 1 + (1 + ξ(κ, τ )) exp {v(κ, τ )} , (2.17)
1 − q(κ, τ )
∆
onde v = γξ/(ξ + 1) e a probabilidade a priori de ausên ia de voz, q(κ, τ ) =
P (H0 (κ, τ )), pode ser estimada por

 γ̂min(κ, τ ) ≤ 1
se


 1, ;
e




 ζ̂(κ, τ ) < ζ 0
q̂(κ, τ ) = γ1 − γ̃min(κ, τ ) 1 < γ̂min(κ, τ ) ≤ γ1 (2.18)

 , se ;
γ1 − 1 e




 ζ̂(κ, τ ) < ζ 0

 0, em outros asos.

30
A partir da probabilidade p(κ, τ ), o espe tro de potên ia do ruído do próximo quadro
(|N̄ (κ, τ + 1)|2) é re ursivamente estimado por
|N̄ (κ, τ + 1)|2 = δ̃η (κ, τ )|N̄ (κ, τ )|2 + [1 − δ̃η (κ, τ )]|Y (κ, τ )|2 , (2.19)
onde δ̃η (κ, τ ) é um parâmetro de suavização variável que depende de p(κ, τ ) (EQ. 2.14)
e de uma onstante δη ∈ [0, 1],
∆
δ̃η (κ, τ ) = δη + (1 − δη )p(κ, τ ) . (2.20)
Finalmente, um fator de ompensação multipli ativo é utilizado para estimar a versão

nal para o espe tro do ruído,
|N̂ (κ, τ )|2 = B |N̄ (κ, τ )|2 . (2.21)
Após a apli ação do estimador IMCRA (EQS. 2.11 a 2.21), o algoritmo OMLSA
é utilizado para obter o espe tro do sinal de voz |X̂(κ, τ )|. O OMLSA é uma versão
modi ada do estimador LSA (EPHRAIM, 1985), ujo objetivo é minimizar o erro médio
quadráti o entre o logaritmo das magnitudes espe trais dos sinais de voz limpo e realçado,
2
Emin log |X(κ, τ )| − log |X̂(κ, τ )| . (2.22)
O ganho GOMLSA (κ, τ ) a ser apli ado sobre o espe tro do sinal de entrada é dado por
(COHEN, 2001)
1−p(κ,τ )
GOMLSA (κ, τ ) = {GLSA (κ, τ )}p(κ,τ ) Gmin , (2.23)
onde a probabilidade ondi ional de presença de voz é al ulada pela EQ. 2.17 e o
limiar mínimo Gmin para o ganho orresponde a -25 dB. Já o ganho do estimador LSA foi
deduzido em (EPHRAIM, 1985) omo
Z ∞
e−t

ξ(κ, τ ) 1
GLSA (κ, τ ) = exp dt , (2.24)
1 + ξ(κ, τ ) 2 v(κ,τ ) t
onde o valor da SNR a priori é re ursivamente estimado por
ˆ τ ) = δLSA G2 (κ, τ − 1)γ(κ, τ − 1) + (1 − δLSA ) max {γ(κ, τ ) − 1, 0} .

ξ(κ, (2.25)
LSA
Em (COHEN, 2003), foram denidos os valores típi os para os diversos parâmetros

utilizados no estimador IMCRA e na té ni a OMLSA. Estes valores foram determinados
31
onsiderando taxa de amostragem de 16 kHz, a mesma utilizada nos experimentos apre-
sentados nesta Tese. Para os limiares das EQS. 2.15 e 2.18, foram sugeridos γ0 = 4, 6,
ζ0 = 1, 67 e γ1 = 3. O valor de γ1 está rela ionado om o fator de ompensação da EQ.
2.21 por
γ1 − 1 − e−1 + e−γ1
B= , (2.26)
γ1 − 1 − 3e−1 + (γ1 + 2)e−γ1
resultando em B = 1, 47. Já os oe ientes de suavização das EQS. 2.20 e 2.25 foram
determinados omo δη = 0, 85 e δLSA = 0, 92, respe tivamente.
2.1.3 FILTRAGEM DE WIENER COM ESTIMADOR UNB-MMSE
Outra té ni a de real e de sinais de voz abordada nesta Tese utiliza o estimador UnB-
MMSE (GERKMANN, 2012) para estimar as omponentes espe trais do ruído. Estas
omponentes são suprimidas do espe tro do sinal de voz utilizando a ltragem de Wiener
(WIENER, 1949) baseada na estimação da SNR a priori denida em (SCALART, 1996).
Diferentemente do IMCRA e de outros métodos baseados no MS, o estimador UnB-
MMSE não ne essita aptar informações de vários quadros passados para a estimação do
espe tro do ruído. Isto permite que o UnB-MMSE apresente menor atraso na aptação
das variações espe trais dos ruídos não-esta ionários.
O estimador UnB-MMSE é baseado na minimização de erros médios quadráti os pro-
posta em (HENDRIKS, 2010). Naquele trabalho, os autores assumiram a hipótese de
que os oe ientes espe trais tanto do ruído quanto do sinal de voz possuem distribuição
Gaussiana (HENDRIKS, 2010). Assim, foi deduzido o estimador MMSE para o valor do
o periodograma do ruído |N (κ, τ )|2 ,
2
ξˆ

1
2
|N̂ |2 ,
|Y |2 + (2.27)

E |N | |Y =
1+ξˆ 1+ξˆ
onde os índi es de quadro e frequên ia foram novamente omitidos. A estimação do espe tro
de potên ia do ruído então pode ser atualizada de um quadro para outro pela relação
re ursiva
|N̂ (κ, τ )|2 = αp |N̂ (κ, τ − 1)|2 + (1 − αp ) E |N (κ, τ )|2 |Y (κ, τ ) . (2.28)

Em (GERKMANN, 2012), os autores propuseram uma alteração ao estimador MMSE

apresentado em (HENDRIKS, 2010). Para isto, a estimação do periodograma da EQ.
2.27 foi reformulada utilizando as probabilidades de ausên ia e presença de voz:
E |N |2|Y = P (H0 |Y ) |Y |2 + P (H1 |Y ) |N̂ |2 . (2.29)

32
Para resolver a EQ. 2.29, as probabilidades ondi ionais são denidas omo
ξopt
−1
−γ̂(κ,τ ) 1+ξ
P (H1 |Y (κ, τ )) = 1 + (1 + ξopt )e opt (2.30)
e P (H0 |Y (κ, τ )) = 1 − P (H1 |Y (κ, τ )). Considerando que, em quadros onse utivos,
o espe tro do ruído possui variação menor que o da voz, os autores estimaram o valor
da SNR a posteriori γ̂(κ, τ ) adotando o espe tro de potên ia do ruído obtido no quadro
anterior,
|Y (κ, τ )|2
γ̂(κ, τ ) = . (2.31)
|N̂ (κ, τ − 1)|2
O valor onsiderado ótimo para a SNR a priori, ξopt na EQ. 2.30, foi denido omo
15 dB (GERKMANN, 2012). Diferentemente do estimador MMSE proposto em (HEN-
DRIKS, 2010), a utilização da in erteza de presença de voz em (GERKMANN, 2012)
tornou desne essário o fator de ompensação para a estimação do espe tro de potên ia
da ruído. Esta é ainda outra importante vantagem do UnB-MMSE sobre o estimador
IMCRA.
Logo após a estimação das omponentes espe trais do ruído, o espe tro do sinal de voz
é obtido pela té ni a baseada no ltro de Wiener apresentada em (SCALART, 1996). O
ltro de Wiener foi onsiderado um estimador ótimo8 que adota as mesmas hipóteses do
estimador UnB-MMSE. Ou seja, que os oe ientes espe trais do ruído e do sinal de voz
obede em a distribuições Gaussianas. Nesta abordagem, o ganho de Wiener GW (κ, τ ),
apli ado sobre o espe tro do sinal orrompido, é dado por (SCALART, 1996)
ξ(κ, τ )
GW (κ, τ ) = . (2.32)
1 + ξ(κ, τ )
Para a estimação da SNR a priori, ξ(κ,

ˆ τ ), é utilizada a de isão direta apresentada em
(EPHRAIM, 1984),
ˆ τ ) = αW G2 (κ, τ − 1) γ(κ, τ − 1) + (1 − αW ) max {γ(κ, τ ) − 1, 0} .

ξ(κ, (2.33)
W
Em (GERKMANN, 2012), os valores utilizados para as onstantes de suavização das

EQS. 2.28 e 2.33 foram αp = 0, 8 (HENDRIKS, 2010) e αW = 0, 98 (SCALART, 1996).
8O ltro de Wiener é ótimo no sentido de minimizar o erro médio quadráti o dos oe ientes espe trais
estimados para o sinal de voz limpo.
33
2.2 TÉCNICAS BASEADAS NO MÉTODO EMD
Conforme abordado na Seção anterior, o prin ipal desao das té ni as espe trais para
real e de sinais voz é a supressão de ruídos a ústi os om ara terísti as não-esta ionárias.
Como o método de de omposição empíri a de modos não possui qualquer restrição quanto
à esta ionariedade do sinal analisado, esta forma de de omposição tem sido utilizada
em diversas propostas para real e de sinais de voz. Além disso, a maioria das té ni as
baseadas no EMD não ne essita da estimação explí ita das estatísti as do ruído. Nesta
Seção, são apresentadas duas destas té ni as: EMD-DT (FLANDRIN, 2004a) e EMDF
(CHATLANI, 2012). Antes de dis utir os detalhes de ada uma delas, serão introduzidos
os on eitos referentes ao método de de omposição EMD.
2.2.1 O MÉTODO EMD
A de omposição empíri a de modos foi proposta em (HUANG, 1998) omo uma forma
não-linear para análise de sinais não-esta ionários. O método resulta em um onjunto de
funções intrínse as de modo (IMF), que são inteiramente dependentes do sinal analisado,
e um resíduo.
Considere um sinal y(t) ontendo dois máximos lo ais onse utivos nos pontos t− e
t+ . Para valores de t no intervalo t− ≤ t ≤ t+ , pode-se denir uma omponente de altas
frequên ias do sinal que passa por estes máximos e pelo mínimo lo al que existe entre eles.
Desta omponente, hamada de detalhe d(t), identi a-se uma omponente de tendên ia
lo al ou resíduo r(t), tal que
y(t) = d(t) + r(t) , t− ≤ t ≤ t+ . (2.34)
Uma IMF é denida pelo onjunto das omponentes de detalhes, quando a de om-
posição é apli ada sobre todo o sinal y(t). O sinal residual é denido pelo onjunto de
todas as omponentes de tendên ia lo al. Apli ando-se repetidamente o pro edimento so-
bre o sinal residual, hega-se a um onjunto de IMFs e a um resíduo de baixas frequên ias.
O algoritmo para o método EMD apli ado sobre um sinal y(t) pode ser dividido nos
seguintes passos (HUANG, 1998) (FLANDRIN, 2004b):
a) Identi ar todos os extremos de y(t), ou seja, os pontos de máximo ymax (t) e mínimo
ymin (t) lo ais;
34
b) Obter as envoltórias emax (t) e emin (t), apli ando interpolação9 nos pontos de máximo
e mínimo, respe tivamente;
) Cal ular o resíduo omo a média entre as envoltórias: r(t) = (emin (t) + emax (t)) /2;
d) Extrair as omponentes de detalhes: d(t) = y(t) − r(t);
e) Repetir a iteração sobre o sinal residual r(t).
Por denição (HUANG, 1998), toda IMF deve obede er às seguintes propriedades:
• O número de extremos e de ruzamentos em zero devem ser iguais ou se diferen iar

em uma unidade10 ;
• O valor médio denido pelas envoltórias dos seus máximos e mínimos deve ser nulo.
Se a omponente de detalhes d(t), extraída no passo (d) do algoritmo EMD, não

obede er às propriedades a ima, os passos (a-d) são novamente efetuados, om d(t) no
lugar de y(t). Este pro esso, denominado sifting, é repetido até garantir que a nova função
d(t) seja onsiderada uma IMF. O pro edimento para a extração das IMFs a partir de um
sinal y(t) está ilustrado na FIG. 2.3. Ao nal de um número nito (M ) de iterações, o
sinal pode ser es rito omo
M
X
y(t) = IMFm (t) + r(t) , (2.35)
m=1
onde IMFm (t), 1 ≤ m ≤ M, são as funções de detalhes d(t) obtidas no passo (d) de ada
iteração, e r(t) é o sinal residual obtido na última iteração.
A partir do algoritmo da de omposição, é possível veri ar que o número de extremos
(máximos e mínimos lo ais) diminui de uma IMF para a próxima. Isto signi a que,
lo almente, as primeiras IMFs possuem os ilações mais rápidas (altas frequên ias) que as
IMFs de maior índi e. Este fenmeno pode ser veri ado na Fig. 2.4, que mostra a forma
de onda das in o primeiras IMFs extraídas de um tre ho de 0,5 s de uma lo ução limpa
da base de voz TIMIT (GAROFOLO, 1993). Em (FLANDRIN, 2004b), foi demonstrado
9 Adota-se a interpolação polinomial de ter eiro grau utilizando o método de splines.

10 Estaprimeira propriedade é equivalente a dizer que uma IMF possui todos os seus máximos positivos
e todos os seus mínimos negativos.
35
FIG. 2.3: Diagrama de blo os da de omposição empíri a de modos para extração das
IMFs.
que, quando apli ado sobre sinais representados por um pro esso esto ásti o fGn (fra -
tional Gaussian noise ), o método EMD de ompõe o sinal em IMFs ujas omponentes
espe trais são equivalentes às saídas de um ban o de ltros diádi os11 om sobreposição
de bandas passantes. A FIG. 2.5 (FLANDRIN, 2004b) ilustra a resposta em frequên ia
das IMFs obtidas da de omposição de um sinal fGn om expoente de Hurst12 H = 0, 5,
que orresponde a um ruído Gaussiano bran o.
Em ada uma das té ni as de real e baseadas na análise tempo-frequên ia apresentadas
nesta Tese, o método EMD é primeiramente utilizado para de ompor o sinal de voz em
um número nito de IMFs. Em seguida, um ritério de seleção é utilizado para identi ar
quais IMFs são predominantemente ompostas por ruídos. Como os ruídos a ústi os
estão geralmente on entrados nas baixas frequên ias (VOSS, 1978; KESHNER, 1982;
Z O, 2012a), a re onstrução do sinal de voz é então realizada utilizando as N IMFs de
menor índi e,
N
X
ỹ(t) = IMFm (t), om N < M . (2.36)
m=1
Isto orresponde à remoção, em ada intervalo de tempo, das omponentes de baixas

frequên ias do sinal de voz y(t). Conforme dis utido em (CHATLANI, 2012), as quatro
primeiras IMFs on entram a maior parte da energia do sinal de voz. Assim, de forma a
evitar distorções no sinal de voz re onstruído, pelo menos as quatro primeiras IMFs devem
11 Num ban o de ltros diádi os, o primeiro ltro é passa-alta om banda passante igual à metade da
banda do sinal. Os demais são ltros passa-faixas, om banda passante orrespondente à metade superior
da banda rejeitada pelo ltro anterior.
12 O expoente de Hurst será formalmente des rito na Seção 2.3.
36
FIG. 2.4: Forma de onda das in o primeiras IMFs extraídas da de omposição de um
segmento de um sinal de voz limpo de 0,5 s da base de voz TIMIT.
ser onsideradas na re onstrução da EQ. 2.36. Ou seja, os valores de N são restritos a

N ≥ 4.
2.2.2 EMD-DT
A té ni a EMD-DT (EMD-based detrending ) foi apresentada em (FLANDRIN, 2004a)

omo uma forma relativamente simples de separar as omponentes de ruídos de baixas
frequên ias de um sinal. Neste aso, o algoritmo identi a o índi e N da última IMF a
ser onsiderada na re onstrução do sinal de voz (veja EQ. 2.36) pelo ritério da média
normalizada das IMFs. A média normalizada da IMF de índi e m é denida por
E{IMFm (t)}
Med(m) = p . (2.37)
E{IMF2m (t)}
37
FIG. 2.5: Magnitude das IMFs obtidas pelo método EMD sobre um sinal fGn om H = 0, 5
(ruído bran o) (FLANDRIN, 2004b).
A ideia é identi ar a primeira IMF, de índi e N + 1, uja média normalizada está

a ima de um determinado limiar. Na proposta original (FLANDRIN, 2004a), a té ni a
EMD-DT não foi apli ada sobre sinais de voz e, portanto, um limiar para o real e de voz
não foi estabele ido. Com o objetivo de determinar a primeira IMF (de índi e N + 1) a
ser retirada de um sinal de voz, nesta Tese a média normalizada é omparada om o valor
médio quadráti o (VMQ) dos primeiros quatro modos, multipli ado por um limiar ζEMD ,
v
u 4
u1 X
|Med(N + 1)| > ζEMD t Med2 (m) . (2.38)
4 m=1
Nos experimentos realizados ao longo deste trabalho, o valor do limiar foi empiri a-
mente denido omo ζEMD = 2.
2.2.3 EMDF
A té ni a EMDF (EMD-based ltering ) (CHATLANI, 2012) foi originalmente proposta

omo um algoritmo de pós-real e para suprimir o ruído residual de baixas frequên ias.
Para isto, a de omposição EMD foi apli ada sobre sinais de voz previamente realçados pela
té ni a de Cohen. Em seguida, as IMFs utilizadas na re onstrução do sinal de voz foram
identi adas por um ritério baseado nos valores de variân ia estimados das amostras das
próprias IMFs.
Em (CHATLANI, 2012), os autores veri aram que, para um sinal de voz limpo, a vari-
ân ia estimada da IMFm (t) de ai à medida que o índi e m aumenta. Este omportamento
pode ser observado na linha ontínua da FIG. 2.6, que mostra os valores das variân ias
E{IMF2m (t)} obtidas de um sinal de voz extraída da base TIMIT. Note que a variân ia só
não de ai da primeira para a segunda IMF. Por outro lado, os autores demonstraram que,
38
0,5
0,4
Variância
0,3
0,2
0,1
0
1 3 5 7 9
ordem da IMF
FIG. 2.6: A linha ontínua indi a os valores de variân ia estimados das amostras das IMFs
de um sinal de voz limpo oletado da base TIMIT. Na linha tra ejada, são apresentados
os valores referentes ao mesmo sinal de voz orrompido pelo ruído fábri a om SNR de 0
dB.
quando orrompidos por ruídos a ústi os de baixas frequên ias, nota-se um a rés imo nos
valores das variân ias para os modos ou IMFs om índi es mais altos. Na linha tra ejada
da FIG. 2.6, são apresentados os valores das variân ias obtidas do mesmo sinal de voz,
mas agora orrompido pelo ruído a ústi o fábri a, oletado da base NOISEX-92 (VARGA,
1993), para SNR de 0 dB. Como pode-se observar, a presença do ruído fábri a leva a um
pi o de variân ia na sétima IMF. Assim, o objetivo da té ni a EMDF é identi ar qual o
índi e (N ) de IMFs é mais apropriado para utilizar na re onstrução do sinal de voz (EQ.
2.36).
Em (CHATLANI, 2012), o algoritmo proposto para a es olha deste índi e N foi des-
rito om os seguintes passos:
a) Efetuar a de omposição do sinal de voz y(t) em M modos (IMFm (t), m = 1, . . . , M ),

onforme a EQ. 2.35;
b) Estimar a variân ia das amostras de ada modo, Var(m) = E{IMF2m (t)};
) Identi ar, se houver, o índi e do primeiro pi o (mp ) tal que Var(mp ) > Var(mp − 1)
e Var(mp ) > Var(mp + 1), tal que mp > 4;
d) Determinar o índi e (mv ) do vale imediatamente anterior ao pi o mp , isto é,

Var(mv ) < Var(mv − 1) e Var(mv ) < Var(mv + 1), para mv < mp ;
e) Re onstruir o sinal de voz de a ordo om a EQ. 2.36, onde N = max {mv , 4}.
39
Note que o índi e N es olhido pelo algoritmo da té ni a EMDF é aquele referente ao
último vale anterior ao primeiro pi o. Contudo, onforme dis utido na Seção anterior,
pelo menos quatro IMFs devem ser utilizadas na re onstrução, de forma a não suprimir
os omponentes do próprio sinal de voz. Em (CHATLANI, 2012), o EMDF aprimorou os
resultados de medidas objetivas para sinais de voz orrompidos por três ruídos a ústi os
reais. Contudo, o aprimoramento obtido om o ruído não-esta ionário balbúrdia foi sig-
ni ativamente inferior aos outros dois ruídos. Nesta Tese, a té ni a EMDF é avaliada
não apenas omo pós-real e, mas também é apli ada diretamente sobre os sinais de voz
orrompidos por ruídos.
2.3 PROPOSTA DE REALCE DE SINAIS DE VOZ EMDH
Na proposta EMDH de real e de sinais de voz apresentada nesta Tese, a prin ipal
ontribuição é o ritério de seleção para a identi ação das IMFs a serem removidas do
sinal orrompido por ruído. Este ritério é baseado na estimação do expoente de Hurst
(H )13 (HURST, 1951) de ada IMF. Além disso, tanto a seleção quanto a re onstrução
do sinal de voz, são realizadas quadro a quadro, de forma a identi ar as variações nas
ara terísti as do ruído ao longo do tempo. Antes da des rição da té ni a EMDH, são
apresentados os prin ipais on eitos do expoente H , bem omo o estimador baseado em
wavelets (VEITCH, 1999) adotado neste trabalho.
2.3.1 O EXPOENTE DE HURST
Seja o sinal de voz representado por um pro esso esto ásti o y(t), om função auto-
orrelação normalizada denida por
E {(y(t) − µy )(y(t + k) − µy )}
ρ(k) = , (2.39)
σy2
onde µy e σy2 são a média e a variân ia de y(t), respe tivamente. O expoente de Hurst
(0 ≤ H ≤ 1) é denido pela taxa de de aimento de ρ(k), que possui omportamento
assintóti o dado por
ρ(k) ∼ H(2H − 1)k 2(H−1) , quando k → ∞ . (2.40)
O valor de H está rela ionado om as ara terísti as espe trais de y(t). Conforme
demonstrado em (MANDELBROT, 1968), a densidade espe tral de potên ia (DEP, Sy (f ))
13 A sigla EMDH é devida ao uso do EMD e do expoente de Hurst (H ) na té ni a proposta.
40
de y(t), denida pela transformada de Fourier de ρ(k), é propor ional a f 1−2H quando
f → 0. Ou seja,
Sy (f ) = F {ρ(k)} ∝ f 1−2H , f → 0, (2.41)
onde F {·} indi a a transformada de Fourier.

Isto signi a que y(t) é predominantemente omposto por altas frequên ias para va-
lores H < 1/2. Para o aso H = 1/2, Sy (f ) é aproximadamente onstante ao longo de
todo o espe tro de frequên ias, orrespondendo ao ruído bran o. Já para os valores de
H ∈ (1/2 , 1], a maior parte da energia de y(t) está on entrada nas baixas frequên ias.
2.3.1.1 O ESTIMADOR DE HURST
A estimação do expoente H pelo método baseado em wavelets (VEITCH, 1999) pode

ser des rita nos três passos a seguir:
a) De omposição om wavelets : apli ar a transformada wavelet dis reta (DWT - dis-

rete wavelet transform ) para de ompor o sinal de entrada em oe ientes de deta-
lhes (d(j, n)) e aproximação (a(j, n)), onde j representa as es alas de de omposição
(j = 1, 2, . . . , J ) e n é o índi e de ada es ala.
b) Estimação da Variân ia: para ada es ala j , al ular a variân ia dos oe ientes de
detalhes por σj2 = (1/Nj ) n d(j, n)2 , onde Nj é o número de oe ientes disponíveis
P
para d(j, n). Em (VEITCH, 1999), foi demonstrado que E[σj2 ] = CH j 2H−1 , onde CH
é uma onstante.
) Estimação de H : al ular a in linação θ da reta obtida por regressão linear pon-

derada de yj = log2 (σj2 ) versus j . Finalmente, o expoente de Hurst é estimado por
Ĥ = (1 + θ)/2.
A FIG. 2.7 exempli a a estimação do expoente de Hurst onsiderando J = 3 es alas

de de omposição. Já na FIG. 2.8, estão representados os valores médios de Ĥ al ulados
das IMFs obtidas das mesmas lo uções limpa e orrompida da FIG. 2.6. O expoente de
Hurst é estimado de quadros de 512 amostras, que orresponde a 32 ms om taxa de
amostragem de 16 kHz, sem sobreposição, utilizando ltros Daube hies (DAUBECHIES,
1992) om 12 oe ientes e es alas 3-12. Note que as primeiras IMFs, que englobam as
omponentes de mais altas frequên ias do sinal de voz, possuem valores de Ĥ no intervalo
41
Filtro d (1,n )
2 σ2 σ12
Passa−Banda
Filtro a (1,n ) Filtro d (2,n )

2 2 σ2 σ22
Passa−Baixa Passa−Banda
Filtro a (2,n ) Filtro d (3,n )

2 2 σ2 σ32
2 = Decimador
Filtro
2 a (3,n )
Passa−Baixa
σ2 = Estimador de Variância
FIG. 2.7: Exemplo da estimação do expoente de Hurst utilizando J = 3 es alas de

de omposição.
0,8
Hurst
0,6
0,4
0,2
1 3 5 7 9
ordem da IMF
FIG. 2.8: A linha ontínua indi a os valores de H estimados das IMFs do mesmo sinal
de voz limpo da FIG. 2.6. Na linha tra ejada, são apresentados os valores referentes ao
mesmo sinal de voz orrompido pelo ruído fábri a om SNR de 0 dB.
(0, 1/2). Já os modos de maior índi e (IMFs de 7 a 9) possuem H ≈ 1, o que orresponde às

omponentes onde os ruídos a ústi os (baixas frequên ias) estão omumente on entrados
(VOSS, 1978; KESHNER, 1982; Z O, 2012a). Comparando-se os valores de Ĥ da FIG.
2.8 om as variân ias ilustradas na FIG. 2.6, nota-se que a presença do ruído fábri a leva
a um aumento nos valores de Ĥ para as IMFs de 4 a 6. Isto demonstra que o expoente
de Hurst possibilita a identi ação das IMFs que possuem a maior parte de sua energia
devido à presença de ruídos de baixas frequên ias.
42
2.3.2 SELEÇ O DE IMF E RECONSTRUÇ O DO SINAL DE VOZ
Após a de omposição do sinal de voz ruidoso y(t) em M modos, onforme a EQ. 2.35,
ada uma das IMFs é dividida em quadros, não sobrepostos, de urta duração,
(
IMFm (t + qTd ) , t ∈ [0, Td ] ,
w-IMFm,q (t) = (2.42)
0 , aso ontrário,
onde q ∈ {0, . . . , Q − 1} representa o índi e dos quadros e Td a duração (xa) de ada

quadro. Para ada quadro q , estima-se o valor do expoente de Hurst, Hm , da m-ésima
IMF janelada, w-IMFm,q (t). Isso leva à onstrução de um vetor Hq om M omponentes
(m = 1, . . . , M ). Ou seja,
Hq = [H1 , H2 , . . . , HM ]T . (2.43)
Em seguida, determina-se a última IMF janelada ujo valor estimado de H está abaixo
de um determinado limiar Hlim. Se Nq representa este índi e desta IMF janelada, pode-se
es rever que Hq (Nq ) < Hlim.
Cada quadro do sinal de voz realçado x̂q (t) é então re onstruído omo
Nq
X
x̂q (t) = w-IMFm,q (t), q = 0, . . . , Q − 1 , (2.44)
m=1
e o sinal de voz x̂(t) é nalmente dado por

Q−1
X
x̂(t) = x̂q (t − qTd ) . (2.45)
q=0
O valor do limiar Hlim determina uma relação de ompromisso entre a par ela do
ruído de baixas frequên ias que será removida e a distorção ausada pela supressão das
omponentes do próprio sinal de voz. Se Hlim é muito próximo de 1, apenas uma pequena
parte do ruído a ústi o será suprimido do sinal de voz. Em ontrapartida, para valores de
Hlim distantes de 1, digamos Hlim ≤ 0, 8, uma par ela onsiderável do sinal de voz passa a
ser retirada juntamente om o ruído. Embora outros valores de Hlim possam ser adotados,
em todos os experimentos onduzidos nesta Tese foi onsiderado o limiar Hlim = 0, 9. Este
valor foi adotado omo uma forma de remover uma par ela do ruído sem deteriorar o sinal
de voz.
Nesta Tese, a proposta EMDH é também apli ada omo uma solução de pós-real e
onsiderando as té ni as espe trais SS (BOLL, 1979), Cohen (COHEN, 2001, 2003) e
Wiener (SCALART, 1996; GERKMANN, 2012).
43
2.4 RESUMO
Este Capítulo des reveu um onjunto de té ni as apresentadas na literatura para real e

de sinais de voz orrompidos por ruídos a ústi os. Dentre as té ni as que utilizam a
transformada de Fourier para estimação e supressão das omponentes do ruído no domínio
da frequên ia, a subtração espe tral lássi a é a úni a que assume a esta ionariedade do
ruído. As demais utilizam métodos de estimação que onseguem atualizar o espe tro de
potên ia do ruído mesmo durante a atividade da voz. Em seguida, foram introduzidas
duas té ni as baseadas na análise tempo-frequên ia que utilizam a de omposição empíri a
de modos. Estas té ni as não assumem qualquer hipótese sobre as ara terísti as do sinal
de voz, e não ne essitam da estimação prévia e explí ita das omponentes do ruído.
Finalmente, foi proposta uma nova té ni a de real e baseada no método EMD. Nesta
abordagem denominada EMDH, a identi ação das IMFs mais orrompidas é realizada
quadro a quadro, utilizando omo ritério de seleção o expoente de Hurst.
44
3 MEDIDAS DE QUALIDADE E INTELIGIBILIDADE
A avaliação per eptual subjetiva ainda é onsiderada a melhor forma de examinar as

té ni as de real e de voz (HU, 2008). Embora a utilização de ouvintes seja a maneira mais
natural para o julgamento da qualidade do sinal de voz, esta abordagem onsome muito
tempo e é altamente ustosa. Devido a estas di uldades, diversas medidas objetivas têm
sido propostas para avaliar de maneira e iente os sinais de voz (QUACKENBUSH, 1988;
RIX, 2001; HU, 2008). As medidas existentes na literatura geralmente apresentam alto
oe iente de orrelação om os resultados al ançados por testes subjetivos.
Apesar da existên ia de um grande número de medidas objetivas para a qualidade
da voz, a maioria delas foi originalmente proposta para avaliar odi adores de voz ou
anais de omuni ações, e não propriamente té ni as de real e. Um exemplo é a medida
PESQ (per eptual evaluation of spee h quality ) (RIX, 2001), que foi re omendada pela ITU
(International Tele ommuni ations Union )14 para avaliação da qualidade em odi adores
de voz e anais telefni os de banda estreita. No entanto, a PESQ é largamente utilizada
para té ni as de real e (COHEN, 2004; MCCALLUM, 2013; MAINA, 2011). Como as
diferentes apli ações ( odi ação, transmissão por anal telefni o, real e) podem alterar
de maneiras distintas o sinal de voz, faz-se ne essário avaliar o desempenho destas medidas
antes de adotá-las nos experimentos de real e de voz. Em (HU, 2008), foi apresentado
um estudo de diversas medidas objetivas na avaliação da qualidade de sinais de voz para
treze diferentes té ni as de real e. Os resultados demonstraram que medidas omo a
razão sinal-ruído segmental (SegSNR) e a distân ia de Itakura-Saito (IS), apresentam
baixa orrelação om a qualidade do sinal indi ada por testes subjetivos.
Na literatura, as té ni as de real e são geralmente avaliadas apenas em termos da
qualidade do sinal de voz. No entanto, a melhora na qualidade não ne essariamente
impli a em aumento na inteligibilidade dos sinais de voz (LOIZOU, 2007b). De fato,
as té ni as de real e alteram o sinal de voz e podem levar à degradação das taxas de
a ertos das palavras e sentenças transmitidas pela voz. A inteligibilidade resultante de
oito té ni as de real e apli adas em sinais de voz orrompidos por quatro ruídos ambientais
14 Re omendação ITU-T P.862 (2000), "Per eptual evaluation of spee h quality (PESQ): An obje tive
method for end-to-end spee h quality assessment of narrow-band telephone networks and spee h ode s ".
45
de diferentes fontes a ústi as foi avaliada em (LOIZOU, 2007b). Nos experimentos om
testes subjetivos, apesar do aprimoramento da qualidade do sinal de voz, per ebeu-se que
as té ni as de real e degradaram as taxas de a ertos de palavras e sentenças. Por este
motivo, o uso de medidas objetivas, tais omo a medida objetiva de inteligibilidade em
tempo urto (STOI - short-time obje tive intelligibility ) (TAAL, 2011), é ne essário para
avaliar de maneira e iente a inteligibilidade dos sinais de voz.
No presente Capítulo, medidas objetivas rela ionadas à qualidade e à inteligibilidade
do sinal de voz são adotadas para avaliar a té ni a de real e EMDH introduzida nesta Tese.
A té ni a proposta é omparada om in o algoritmos de real e, sendo três espe trais (SS,
Cohen e Wiener), e outros dois métodos baseados na análise tempo-frequên ia (EMDF e
EMD-DT). A razão sinal-ruído segmental e a medida OQCM (overall quality omposite
measure ) (HU, 2006) são utilizadas para avaliar os sinais de voz em termos de qualidade.
Em relação à inteligibilidade, adota-se a razão sinal-ruído om ponderação em frequên ia
(fwSegSNR - frequen y-weighted SNR ) (HU, 2008) e a medida STOI (TAAL, 2011).
Na avaliação da té ni a EMDH proposta, os experimentos são realizados om seis
ruídos a ústi os ambientais, om diferentes índi es de não-esta ionariedade (BORGNAT,
2010). Os experimentos de real e são divididos em dois onjuntos. Primeiramente, as
té ni as de real e são apli adas diretamente nos sinais de voz orrompidos pelos ruídos
a ústi os. Em um segundo momento, as té ni as EMDH e EMDF são apli adas nos sinais
de voz previamente realçados pelos métodos espe trais SS, Cohen e Wiener. O objetivo
é avaliar o desempenho do EMDH também omo uma té ni a de pós-real e.
Ainda neste Capítulo, é proposto o uso de um sistema de identi ação automáti a de
lo utor para omplementar a avaliação das té ni as de real e em termos de inteligibilidade.
Para isto, os sinais de voz realçados são utilizados nos experimentos de identi ação de
lo utor. A ideia é averiguar se as té ni as de real e onseguem aprimorar os resultados
de identi ação em relação àqueles obtidos om os sinais ruidosos sem real e.
3.1 DESCRIÇ O DOS EXPERIMENTOS DE REALCE DE VOZ
Para examinar a té ni a de real e EMDH, foram realizados experimentos om 24

lo utores aleatoriamente sele ionados da base de voz TIMIT (GAROFOLO, 1993), sendo
8 mulheres e 16 homens. Assim, foram utilizados 240 sinais de voz, 10 por lo utor, om
duração média de 3 s e amostrados à taxa de 16 kHz. Para orromper os sinais de voz,
46
foram utilizados seis ruídos ambientais extraídos de diferentes fontes a ústi as: balbúrdia,
britadeira, fábri a, heli óptero, serra elétri a e trem. Estes ruídos foram es olhidos pois
possuem diferentes valores de INS e espe trogramas om formas distintas. Os ruídos
balbúrdia e fábri a foram oletados da base NOISEX-9215 (VARGA, 1993); heli óptero
e trem da base Freesound.org16 . Finalmente, os ruídos britadeira e serra elétri a foram
sele ionados da base Freesfx. o.uk17 . Para os experimentos de real e, os ruídos foram
adi ionados aos sinais limpos em in o valores distintos de razão sinal-ruído: 10 dB, 5
dB, 0 dB, -5 dB e -10 dB.
A FIG. 3.1 apresenta os espe trogramas de segmentos de 3 s dos ruídos adotados nos
experimentos. Note que os ruídos balbúrdia e fábri a possuem omponentes espe trais
ao longo de toda a faixa de frequên ias 0 - 4 kHz. Já o espe trograma do ruído trem
o upa, prin ipalmente, a faixa 0 - 2,5 kHz. Contudo, no intervalo entre 2 s e 3 s, tam-
bém é possivel notar alta energia para as mais altas frequên ias. Quanto ao ruído serra
elétri a, nota-se a o orrên ia de harmni os no espe tro de frequên ias. Estes harmni os
são denidos pelas rotações do motor do próprio equipamento. A mudança no perl do
espe trograma do ruído britadeira deve-se à diminuição brus a nas rotações do motor do
equipamento em um instante próximo de 1 s. Assim, enquanto no primeiro segundo do
ruído britadeira toda a banda do sinal de voz é o upada, para o restante do tempo a en-
ergia está on entrada apenas nas baixas frequên ias. Finalmente, observa-se que o ruído
heli óptero é predominantemente omposto por pulsos de urta duração, on entrados
nas frequên ias abaixo de 2 kHz.
3.1.1 ÍNDICE DE N O-ESTACIONARIEDADE
O índi e de não-esta ionariedade (INS - index of nonstationarity ) é um método tempo-

frequên ia proposto em (BORGNAT, 2010) para determinar, de forma objetiva, o grau
de não-esta ionariedade de sinais e ruídos.
Considere um sinal de entrada x(t), om observações em tempo dis reto. Seja X[k]
o resultado da apli ação da transformada dis reta de Fourier (DFT - dis rete Fourier
transform ) de x(t). A partir da de omposição de X[k] em magnitude (A[k]) e fase (φ[k]),
15 Disponível em http://www.spee h. s. mu.edu/ omp.spee h/Se tion1/Data/noisex.html.

16 Disponível em http://www.freesound.org.
17 Disponível em http://www.freesfx. o.uk.
47
(a) (b)
( ) (d)
(e) (f)
FIG. 3.1: Espe trogramas de segmentos de 3 segundos de duração dos ruídos (a) balbúrdia,
(b) britadeira, ( ) fábri a, (d) heli óptero (e) serra elétri a, e (f) trem.
pode-se es rever
X[k] = A[k] exp(i φ[k]) , (3.1)
onde i é a unidade imaginária. O primeiro passo para o ál ulo do INS é a onstrução

de referen iais esta ionários (surrogates ) de x(t). Para a onstrução de um referen ial,
uma versão "esta ionária" de x(t) é obtida pela transformada inversa de Fourier de
X̃[k] = A[k] exp(i ψ[k]) , (3.2)
onde ψ[k] é uma sequên ia aleatória om amostras independentes e uniformemente

distribuídas no intervalo [−π, π] que irá substituir a fase φ[k] do sinal original. Um on-
junto de referen iais esta ionários é então obtido repetindo-se este pro edimento. Logo, a
quantidade de referen iais é igual ao número de novas sequên ias aleatórias ψ[k] geradas
desta maneira. O onjunto de referen iais esta ionários onstruído para x(t) é designado
por {x̃j (t), j = 1, 2, . . . , J}.
O passo seguinte é omparar o sinal analisado om os seus referen iais esta ionários.
Para isto, onsidera-se o espe trograma obtido om um janelamento multi-ortogonal (mul-
48
titaper ) de x(t), que é denido por
K
1 X (hk )
Sx,K (t, f ) = S (t, f ) . (3.3)
K k=1 x
Para o janelamento, são utilizadas K funções de Hermite (hk ) denidas em janelas de

tempo urto por
√
hk (t) = (t − D)k g (t)/ π 1/2 2k k! (3.4)

onde
g(t) = exp −t2 /2 . (3.5)

n o
(h )
Na EQ. 3.3, Sx k , k = 1, 2, . . . , K são os K espe trogramas de x(t) obtidos por
Z 2
Sx(hk ) (t, f ) = x(s)hk (s − t)e −i2πf s
ds . (3.6)
Assim, se os espe trogramas (EQS. 3.3, 3.4 e 3.6) são avaliados em diversos pontos
t1 , t2 , . . . , tNp , a média dos espe trogramas de x(t) é onstruída segundo

Np
1 X
hSx,K (tn , f )in := Sx,K (tn , f ) . (3.7)
Np n=1
A distân ia de Kullba k-Leibler (DKL ) simétri a (BASSEVILLE, 1989) é utilizada

para omparar a média dos espe trogramas om os próprios espe trogramas obtidos em
ada um dos pontos t1 , t2 , . . . , tNp , de a ordo om

(3.8)
(x)
cn := DKL Sx,K (tn , .), hSx,K (tn , .)in , n = 1, . . . , N ,
onde a medida de distân ia DKL (·, ·) para duas funções G(f ), H(f ) é dada por
G(f )
Z
DKL (G, H) := (G(f ) − H(f )) log df . (3.9)
H(f )
Ω
De maneira análoga à EQ. 3.8, dene-se o onjunto de valores das distân ias DKL
obtidos de todos os referen iais esta ionários,
(3.10)
(x̃j )
cn := DKL Sx̃j ,K (tn , .), Sx̃j ,K (tn , .) n , n = 1, . . . , N , j = 1, 2, . . . , J .
Finalmente, o índi e de não-esta ionariedade é denido omo a razão entre a variân ia

das distân ias observadas do sinal em análise e a média das variân ias obtidas dos sinais
referen iais. Ou seja, s
Θ1
INS := , (3.11)
hΘ0 (j)ij
49
40 80
30 60
INS
INS
20 40
10 20
0 0
0,1 0,2 0,3 0,4 0,5 0.1 0.2 0.3 0.4 0.5
T /T Th / T
h
(a) (b)
8 2.5
6 2
INS
INS
4 1.5
2 1
0 0.5
0,1 0,2 0,3 0,4 0,5 0,1 0,2 0,3 0,4 0,5
Th / T Th / T
( ) (d)
150 30
100 20
INS
INS
50 10
0 0
0.1 0.2 0.3 0.4 0.5 0,1 0,2 0,3 0,4 0,5
Th / T Th / T
(e) (f)
FIG. 3.2: Os valores de INS obtidos de segmentos de 3 s de duração dos ruídos a ústi os
(a) balbúrdia, (b) britadeira, ( ) fábri a, (d) heli óptero, (e) serra elétri a, e (f) trem.
As linhas tra ejadas indi am os valores orrespondentes do limiar γ para os testes de
esta ionariedade.
onde Θ0 (j) e Θ1 são denidos por

(x̃j )

 Θ0 (j) = Var cn , j = 1, . . . , J.
n=1,...,N
(3.12)
 Θ1 = Var c(x)
n
n=1,...,N
Para o teste de não-esta ionariedade do sinal em análise, os autores deniram um

limiar γ onsiderando um valor de pre isão de 95%. Desta forma, o sinal é onsiderado
não-esta ionário se o valor de INS estiver a ima deste limiar. Ou seja,
(
≤ γ , x(t) é esta ionário;
INS (3.13)
> γ , x(t) não é esta ionário.
Os valores de INS obtidos de segmentos de 3 s referentes aos seis ruídos a ústi os

estão ilustrados na FIG. 3.2. As linhas tra ejadas orrespondem ao limiar γ de esta-
ionariedade. A es ala temporal Th /T representa a razão entre o tamanho da janela de
análise espe tral de tempo urto (Th ) e a duração total do segmento do ruído (T = 3
segundos). Os valores de INS foram obtidos om J = 50 referen iais esta ionários. Os
50
resultados de INS demonstram que os ruídos balbúrdia, britadeira, fábri a, serra elétri a e
trem são não-esta ionários para todas as es alas de tempo. Note que os ruídos balbúrdia,
britadeira, serra elétri a e trem apresentam valores de INS muito superiores ao limiar de
não-esta ionariedade. Assim, estes quatro ruídos são onsiderados omo altamente não-
esta ionários, segundo o ritério INS > 10 γ aqui adotado. Já os valores de INS do ruído
fábri a são sempre menores que 8, sendo portanto este ruído onsiderado omo moder-
adamente não-esta ionário. Finalmente, o ruído heli óptero possui valores de INS abaixo
do limiar para a maioria das es alas de tempo. Isto indi a que ele pode ser onsiderado
um ruído predominantemente esta ionário. É interessante notar também que os valores
de INS da FIG. 3.2(d) representam os impulsos de urta duração que ara terizam o ruído
heli óptero (vide FIG. 3.1).
3.2 RAZ O SINAL-RUÍDO SEGMENTAL
A primeira medida objetiva utilizada para estudo das té ni as de real e em termos

de qualidade é a razão sinal-ruído segmental. O valor de SegSNR é al ulado pela média
entre os valores de SNR, em dB, obtidos em quadros de urta duração do sinal de voz.
Seja x(t) um sinal de voz limpo, e x̂(t) uma versão orrompida ou distor ida deste mesmo
sinal, a SegSNR de x̂(t) é estimada por (HANSEN, 1998):
Q−1 Pτ Tsh +Td −1 2
10 X t=τ Tsh x (t)
SegSNR = log Pτ Tsh +Td −1 , (3.14)
Q τ =0 t=τ T sh
[x(t) − x̂(t)]2
onde Td representa a quantidade de amostras de ada quadro, Tsh é o deslo amento (em
amostras) entre quadros onse utivos e Q é o total de quadros. Um poten ial problema
de orrente da denição da EQ. 3.14 é que, para quadros onde não há atividade de voz,
o logaritmo al ulado dentro do somatório resulta em valores muito pequenos (≪ −10
dB), omprometendo o ál ulo nal do somatório. De maneira análoga, segmentos onde
a energia do sinal de voz é muito maior do que a energia do ruído podem resultar em
valores muito altos para o logaritmo (≫ 35 dB). Para evitar este problema, os valores
de ada par ela do somatório são limitados ao intervalo [−10dB, 35dB] (HANSEN, 1998).
Assim, evita-se a ne essidade de um dete tor de atividade da voz.
51
EMDH EMD−DT EMDF
Cohen Wiener SS
Incremento de SegSNR (dB)

3
serra elétrica 6 britadeira
2
4
1 2
0 0
-10 -5 0 5 10 -10 -5 0 5 10
SNR [dB] SNR [dB]

3 4
balbúrdia trem
3
2
2
1
1
0 0
-10 -5 0 5 10 -10 -5 0 5 10
SNR [dB] SNR [dB]
6
6 fábrica helicóptero
4
4
2 2
0 0
-10 -5 0 5 10 -10 -5 0 5 10
SNR [dB] SNR [dB]
FIG. 3.3: In rementos de SegSNR (dB) obtidos om as té ni as de real e de voz SS,

Cohen, Wiener, EMDF, EMD-DT e a proposta EMDH.
3.2.1 RESULTADOS DE SEGSNR PARA REALCE
A FIG. 3.3 mostra os in rementos de SegSNR al ançados om as té ni as de real e

examinadas nesta Tese. Os ruídos a ústi os estão dispostos em ordem de res ente de
INS. Cada valor de in remento é obtido subtraindo-se o valor de SegSNR do sinal de
voz ruidoso, daquele al ulado om o sinal após a apli ação da té ni a de real e18 . Para
estes resultados foram onsiderados quadros de 32 ms om 75% de sobreposição, o que
signi a Td = 512 e Tsh = 128 amostras para a taxa de amostragem de 16 kHz. Observe
que a té ni a EMDH obtém melhores resultados de SegSNR que os outros algoritmos
18 Denições análogas de in remento também são utilizadas nas demais medidas objetivas.
52
baseados no EMD para a maioria das ondições de ruídos. Mesmo omparado om as
té ni as espe trais (SS, Cohen e Wiener), o EMDH também obtém os maiores in rementos
de SegSNR em experimentos om três ruídos altamente não-esta ionários, ou seja, serra
elétri a, balbúrdia e trem. Em parti ular, o desempenho superior da té ni a EMDH pode
ser notado para SNR > 0 dB, onde ela atinge os maiores valores para todos os ruídos não-
esta ionários, ex eto o ruído britadeira. Na média, os melhores resultados das té ni as
estudadas foram al ançados om os ruídos britadeira e fábri a, onde as té ni as EMDH e
Cohen atingiram in remento médio de SegSNR a ima de 4 dB.
Considerando apenas as té ni as espe trais, nota-se que a de Cohen obteve os melho-
res resultados para a maioria dos experimentos. Para os resultados om esta té ni a, é
interessante ressaltar que, enquanto o aprimoramento médio para o ruído serra elétri a se
aproxima de 1 dB, este valor é de er a de 4 dB para os ruídos fábri a e heli óptero, om os
menores valores de INS. Esta diferença pode ser expli ada pela impre isão das estimativas
do estimador IMCRA para ruídos altamente não-esta ionários. Contudo, é interessante
ressaltar que mesmo a té ni a Wiener, que utiliza um estimador do espe tro do ruído
om menor tempo de resposta ou atraso, também apresenta valores menores de SegSNR
quando existem grandes variações no espe tro de potên ias dos ruídos. Adi ionalmente,
abe observar que as té ni as espe trais obtêm bom desempenho para o ruído altamente
não-esta ionário britadeira. Isto pode ser expli ado pela brus a variação no seu espe tro
(vide FIG. 3.1(b)) o orrer apenas em torno do instante 1 s. Assim, antes e depois deste
instante, os estimadores IMCRA (Cohen) e UnB-MMSE (Wiener) onseguem a ompa-
nhar om erta pre isão o espe tro do ruído, levando a um in remento médio de SegSNR
mais elevado que nos demais ruídos altamente não-esta ionários.
3.2.2 RESULTADOS DE SEGSNR PARA PÓS-REALCE
A FIG. 3.4 mostra os in rementos de SegSNR om EMDH e EMDF apli adas sobre os
sinais de voz previamente realçados om as té ni as SS, Cohen e Wiener. Neste enário
de pós-real e, é possível observar que a té ni a EMDH apresentou, em geral, maiores
in rementos de SegSNR que a EMDF para todos os ruídos nos diferentes enários de pós-
real e. Assim omo nos resultados apresentados na FIG. 3.3, em geral, a té ni a espe tral
de Cohen obteve melhores resultados quando omparada om a SS e a Wiener. Esta
on lusão pode ser mais laramente observada nos resultados om os ruídos britadeira,
balbúrdia, fábri a e heli óptero.
53
Incremento de SegSNR (dB) 4 7

serra eletrica 6 britadeira
3 5
4
2
3
1 2
1
0 0
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
5 4

balburdia trem
4 3
3
2
2
1 1
0 0
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
8 7
7 fabrica 6 helicoptero
6 5
5
4
4
3
3
2 2
1 1
0 0
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
FIG. 3.4: In rementos de SegSNR (dB) obtidos om EMDF e EMDH omo pós-real e
das té ni as espe trais SS, Cohen e Wiener.
A FIG. 3.5 ilustra os valores de in remento médio de SegSNR obtidos om o onjunto

Cohen+EMDH, que obteve os melhores resultados no pós-real e. Para omparação, são
também in luídos os valores médios obtidos om quatro té ni as de real e. Mais uma vez,
os ruídos são ordenados de a ordo om os valores de INS. Para fa ilitar a visualização, as
té ni as SS e EMD-DT não foram in luídas, já que elas obtiveram os menores in rementos
médios de SegSNR. Note que a prin ipal ontribuição do pós-real e o orreu para os ruídos
fábri a e balbúrdia, onde a diferença nos valores médios de SegSNR em relação à té ni a
Cohen ou próxima de 1 dB. Finalmente, abe ressaltar que a abordagem onjunta Co-
hen+EMDH obteve, para todos os ruídos, melhores resultados que ada uma das té ni as
Cohen e EMDH apli adas individualmente.
54
6
Cohen + EMDH
EMDH
5

Cohen
EMDF
4 Wiener
0
helicóptero fábrica trem balbúrdia britadeira serra
Ruído
FIG. 3.5: Comparação entre os in rementos médios de SegSNR (dB) obtidos por diferentes
té ni as de real e e pós-real e.
3.3 MEDIDA OQCM DE QUALIDADE DE SINAIS DE VOZ
A medida de qualidade OQCM (overall quality omposite measure ) foi introduzida

em (HU, 2006). A proposta foi motivada por estudos da orrelação entre in o medidas
objetivas e os resultados de testes subjetivos na avaliação de té ni as de real e de voz.
Naquele trabalho, os autores es olheram as medidas SegSNR, PESQ, WSS (weighted
spe tral slope ) (KLATT, 1982), LLR (log-likelihood ratio ) e IS (Itakura-Saito distan e )
(QUACKENBUSH, 1988) por serem frequentemente adotadas na avaliação de algoritmos
para supressão de ruídos. A orrelação entre as medidas objetivas e os testes subjetivos
foi abordada om sinais de voz realçados por treze té ni as de real e de voz distintas,
in luindo a SS, a de Cohen e a baseada no ltro de Wiener, todas utilizadas nesta Tese. Em
(HU, 2006), estas té ni as de real e foram apli adas em 16 sinais de voz da base NOIZEUS
(HU, 2007) orrompidos por quatro ruídos a ústi os ambientais (balbúrdia, arro, rua e
trem) e dois valores de SNR (5 dB e 10 dB). Três medidas subjetivas foram investigadas
nos experimentos: distorção do sinal de voz, distorção do ruído e qualidade total do sinal.
Com relação à qualidade total, os estudos demonstraram que as medidas PESQ, LLR e
WSS foram as que apresentaram maior oe iente de orrelação om os testes subjetivos.
Então, os autores propuseram uma ombinação de medidas para obter maior orrelação
om os resultados subjetivos de qualidade total dos sinais de voz. Portanto, a medida
55
OQCM é des rita omo uma ombinação linear entre PESQ, LLR e WSS,
OQCM = 1.594 + 0.805 PESQ − 0.512 LLR − 0.007 WSS . (3.15)
Os resultados demonstraram que, de fato, a medida de qualidade OQCM obteve maior

orrelação om os testes subjetivos que ada uma das in o medidas objetivas examinadas
separadamente. Por este motivo, ela é também adotada neste trabalho para avaliação da
proposta EMDH e das demais té ni as de real e em termos de qualidade do sinal de voz.
Para o ál ulo de OQCM denida na EQ. 3.15, a medida LLR é al ulada omo
(QUACKENBUSH, 1988)
!
~ap Rc~aTp
LLR(~ap , ~ac ) = log , (3.16)
~ac Rc~aTc
onde ~ac e ~ap são os vetores formados pelos oe ientes de predição linear do sinal de
voz limpo e do sinal realçado, respe tivamente, e Rc é a matriz de auto orrelação do sinal
limpo.
Para o ál ulo da medida WSS, os sinais de voz limpo e realçado são primeiramente
divididos em Q quadros de urta duração. A magnitude do espe tro de ada quadro τ do
sinal limpo (|X(j, τ )|) e realçado (|X̂(j, τ )|) é al ulada a partir da divisão da sua banda
de frequên ias em K = 25 sub-bandas utilizando ltros om formato Gaussiano, sendo
j o índi e das sub-bands (j = 1, . . . , 25). A medida WSS é obtida em ada quadro por
uma soma ponderada entre as diferenças das magnitudes do espe tro (em dB) do sinal
al uladas em bandas adja entes. Ou seja, se
(
Sx (j, τ ) = |X(j + 1, τ )|(dB) − |X(j, τ )|(dB) ; e
(3.17)
Sx̂ (j, τ ) = |X̂(j + 1, τ )|(dB) − |X̂(j, τ )|(dB) ,
a medida WSS é denida por (KLATT, 1982)

PK−1
1 X
Q−1
j=1 WWSS (j, τ ) (Sx (j, τ ) − Sx̂ (j, τ ))2
WSS = PK , (3.18)
Q τ =0 j=1 WWSS (j, τ )
onde os pesos WWSS (j, τ ) foram determinados em (KLATT, 1982). Finalmente, o

ál ulo da medida PESQ foi realizado utilizando a re omendação ITU-T P.862.2. Esta
versão foi proposta para substituir a PESQ denida em ITU-T P.862, que onsiderava
apenas sinais de banda estreita (3,2 kHz), que orresponde à largura de banda de um
anal telefni o.
56
EMDH EMD−DT EMDF
Cohen Wiener SS
Incremento de OQCM (x 10 )
3 7
-1
-1
2 6 britadeira
1 5
4
0
3
-1
2
-2 1
-3 0
serra elétrica
-4 -1
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
2 2
-1
-1
balbúrdia trem
1
0 1
-1
-2 0
-3
-4 -1
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
7 7
-1
-1
6 fábrica 6 helicóptero
5 5
4 4
3 3
2 2
1 1
0 0
-1 -1
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
FIG. 3.6: In rementos na medida OQCM obtidos om as té ni as de real e de voz SS,

Cohen, Wiener, EMDF, EMD-DT e a proposta EMDH.
3.3.1 RESULTADOS DE OQCM PARA REALCE
A FIG. 3.6 apresenta os in rementos de OQCM om a té ni a EMDH e as demais

té ni as de real e. Como pode-se observar, a proposta EMDH obtém maior ganho para
todos os ruídos, quando omparada om as demais té ni as baseadas no método EMD.
Em omparação om os algoritmos espe trais de real e, a proposta EMDH novamente
al ança os melhores resultados para três ruídos altamente não-esta ionários. É interes-
sante notar que, apesar do aumento de SegSNR apresentado na FIG. 3.3, os resultados de
OQCM mostram que as té ni as Cohen e Wiener degradam a qualidade dos sinais de voz
quando submetidos aos ruídos serra elétri a, balbúrdia e trem para alguns valores de SNR,
57
5
EMDH
4
Cohen
-1
EMDF
3 Wiener
-1
-2
Ruído
FIG. 3.7: Comparação entre os in rementos médios de OQCM obtidos pelas té ni as de

real e.
prin ipalmente para SNR < 0 dB. Para a té ni a SS, tal fenmeno o orre para todas as
fontes de ruído om SNR de -10 dB. Esta degradação não o orre om nenhuma das té ni-
as EMDF ou EMDH. Isto indi a que o EMD é de fato interessante para prover melhora
na qualidade do sinal de voz, mesmo em situações de ruídos altamente não-esta ionários.
Para os ruídos britadeira, fábri a e heli óptero, o melhores resultados foram obtidos om
a té ni a de Cohen para a maioria dos valores de SNR. Mais uma vez abe ressaltar que,
mesmo para estes ruídos, a proposta EMDH apresentou os maiores in rementos para as
ondições mais severas, ou seja, SNR < 0 dB.
Os resultados médios de in remento de OQCM obtidos om as té ni as SS, Cohen,
EMDF e EMDH estão ilustrados na FIG. 3.7. Note que, enquanto a té ni a de Cohen
apresenta o melhor resultado para os ruídos heli óptero, fábri a e britadeira, a mesma
leva aos menores in rementos para os ruídos trem, balbúrdia e serra elétri a. De maneira
semelhante ao resultado apresentado na FIG. 3.5, a té ni a EMDH apresenta o maior
ganho para os três ruídos altamente não-esta ionários: trem, balbúrdia e serra elétri a.
Além disso, o desempenho médio da proposta EMDH é superior às té ni as EMDF e
Wiener para quase todos os ruídos. A úni a ex eção é o ruído fábri a, no qual EMDH e
Wiener al ançam o mesmo in remento médio de OQCM.
58
-1 2 7
-1
6 britadeira
1
5
0 4
-1 3
-2 2
1
-3 serra eletrica 0
-4 -1
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
2 2
-1
-1
balburdia trem
1
1
0
-1
0
-2
-3 -1
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
6 7
-1
-1
5 fabrica 6 helicoptero
4 5
3 4
2 3
1 2
0 1
-1 0
-2 -1
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
FIG. 3.8: In rementos na medida OQCM obtidos om EMDF e EMDH omo pós-real e
das té ni as espe trais SS, Cohen e Wiener.
3.3.2 RESULTADOS DE OQCM PARA PÓS-REALCE
A FIG. 3.8 apresenta os in rementos da medida OQCM para EMDH e EMDF adotadas
omo pós-real e para as té ni as espe trais. O pós-real e om a té ni a Cohen atingiu
os melhores resultados apenas para os ruídos heli óptero, fábri a e britadeira. Para os
demais, o maior aprimoramento nos resultados de OQCM foi obtido om os onjuntos
Wiener+EMDH (serra elétri a e trem) e SS+EMDH (ruído balbúrdia). Mais uma vez,
os in rementos obtidos om EMDH foram, em geral, maiores que aqueles om a té ni a
EMDF para quase todos os ruídos. Os úni os experimentos nos quais EMDF e EMDH
obtiveram resultados semelhantes omo pós-real e foi para a té ni a de Cohen para os
59
ruídos balbúrdia e fábri a, além de SS+EMDH e SS+EMDF para o ruído balbúrdia.
3.4 SNR COM PONDERAÇ O EM FREQUÊNCIA PARA INTELIGIBILIDADE
A adoção da razão sinal-ruído om ponderação em frequên ia (fwSegSNR) é motivada

pelos resultados de inteligibilidade de voz des ritos em (MA, 2009). Naquele trabalho, os
autores demonstraram que os resultados de fwSegSNR possuem alta orrelação om as
taxas de a ertos de palavras obtidos em testes subjetivos. Além disso, foi omprovado que
medidas omo SegSNR, WSS e LLR, apesar de onseguir representar a qualidade, apre-
sentam baixo oe iente de orrelação om os resultados de inteligibilidade. Os resultados
al ançados em (MA, 2009) estão de a ordo om a on lusão apresentada em (LOIZOU,
2007b), que mostrou que diversos algoritmos propostos para melhorar a qualidade dos
sinais de voz podem degradar a sua inteligibilidade.
A medida fwSegSNR pode ser onsiderada om uma versão no domínio da frequên ia
da razão sinal-ruído segmental (EQ. 3.14), sendo denida omo
PK 2
|X(j,τ )|
Q−1 j=1 Wf (j, τ ) log 2
10 X (|X(j,τ )|−|X̂(j,τ )|)
fwSegSNR = PK , (3.19)
Q τ =0 j=1 W f (j, τ )
onde τ e j são os índi es de quadro e de sub-banda, respe tivamente, Q é o número

total de quadros e as magnitudes das sub-bandas dos sinais de voz (|X(j, τ )| e |X̂(j, τ )|)
são obtidas om ltros Gaussianos, onforme des rito na Seção 3.3. Em (LOIZOU, 2007b),
a função de ponderação Wf (j, τ ) que a arretou na maior orrelação om os resultados de
inteligibilidade foi dada por
Wf (j, τ ) = |X(j, τ )|(0.2) , (3.20)
e, por este motivo, esta denição também é adotada nos experimentos elaborados
nesta Tese. Assim omo na avaliação de SegSNR, os valores de SNR al ulados em ada
quadro e em ada sub-banda, são limitados ao intervalo [−10dB, 35dB].
3.4.1 RESULTADOS DE FWSEGSNR PARA REALCE
A FIG. 3.9 apresenta os resultados de ganho de fwSegSNR (em dB) om a proposta

EMDH e as demais té ni as de real e. Com relação às té ni as baseadas no método EMD,
a proposta EMDH al ançou os maiores in rementos para todos os ruídos não-esta ionários.
60
EMDH EMD−DT EMDF
Cohen Wiener SS
Incremento de fwSegSNR (dB)

1 3
serra elétrica
2
0 1
0
britadeira
-1 -1
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)

1 2
balbúrdia trem
0 1
-1 0
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
3 3
fábrica helicóptero
2 2
1 1
0 0
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
FIG. 3.9: In rementos de fwSegSNR (em dB) obtidos om as té ni as de real e de voz

SS, Cohen, Wiener, EMDF, EMD-DT e a proposta EMDH.
A úni a ex eção foi o ruído esta ionário heli óptero, onde EMDF apresentou melhores
resultados para três valores de SNR: -5 dB, 0 dB e 5 dB. Contudo, os resultados médios
foram similares para este ruído: 1,33 dB para EMDF e 1,31 dB para EMDH. Os melhores
resultados om estas té ni as foram obtidos para o ruído britadeira, ujo in remento de
fwSegSNR al ançou mais de 2 dB tanto para EMDF quanto para a proposta EMDH.
Quando omparada om as té ni as de real e espe trais, a proposta EMDH obteve
os maiores in rementos para três ruídos mais altamente não-esta ionários: balbúrdia,
britadeira e serra elétri a. Nestes asos, a proposta EMDH apresentou o maior aprimora-
mento para todos os valores de SNR. Para estas mesmas fontes ruidosas, e também para
61
Incremento de SegSNR (dB) 2 4

serra eletrica britadeira
3
1
2
0
1
-1 0
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
1 3

balburdia trem
2
0
1
-1 0
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
3 3
2 2
1 1
fabrica helicoptero
0 0
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
FIG. 3.10: In rementos de fwSegSNR (em dB) obtidos om EMDF e EMDH omo pós-
real e das té ni as espe trais SS, Cohen e Wiener.
o ruído fábri a, a té ni a Wiener obteve maior ganho de fwSegSNR que os demais algo-
ritmos espe trais. A té ni a de Cohen obteve os melhores resultados para a maioria dos
valores de SNR apenas om os ruídos heli óptero e trem. Adi ionalmente, é interessante
notar que a té ni a EMDH foi a úni a que melhorou os resultados de fwSegSNR para
todas as ondições de ruído.
3.4.2 RESULTADOS DE FWSEGSNR PARA PÓS-REALCE
Os resultados de in remento de fwSegSNR das té ni as EMDF e EMDH omo pós-

real e estão ilustrados na FIG. 3.10. Mais uma vez, para a maioria dos ruídos, a proposta
EMDH obteve melhores resultados quando omparados à té ni a EMDF para a maio-
62
Wiener + EMDH
3

EMDH
Wiener
EMDF
2 Cohen
-1
Ruído
FIG. 3.11: Comparação entre os in rementos médios de fwSegSNR obtidos pelas té ni as

de real e e pós-real e.
ria dos valores de SNR. Diferentemente das medidas objetivas de qualidade (SegSNR e
OQCM), o maior aprimoramento de fwSegSNR om pós-real e foi obtido om o onjunto
Wiener+EMDH. A FIG. 3.11 ilustra os resultados médios obtidos om Wiener+EMDH
e om outras quatro abordagens sem pós-real e. Note que o EMDH apli ado omo pós-
real e resulta nos melhores resultados para in o fontes de ruídos. A ex eção é o ruído
balbúrdia, para o qual a té ni a EMDH apli ada diretamente sobre os sinais de voz
ruidosos apresenta maior ganho do que quando apli ada omo pós-real e. Ou seja, os
resultados de fwSegSNR mostram que a té ni a EMDH é interessante para prover in re-
mento na inteligibilidade de sinais de voz orrompidos por ruídos a ústi os. Isto o orre
tanto no real e, quanto no enário de pós-real e.
3.5 MEDIDA OBJETIVA DE INTELIGIBILIDADE
A medida STOI foi proposta em (TAAL, 2011) para avaliar a degradação na inte-
ligibilidade de sinais de voz ausada por algoritmos de supressão de ruídos. A medida
STOI diferen ia-se do índi e de arti ulação (AI - arti ulation index ) (KRYTER, 1962) e
de outras medidas dele derivadas (STEENEKEN, 1980; RHEBERGEN, 2005; LOIZOU,
2011), pois não utiliza o ál ulo de SNR para avaliar a inteligibilidade dos sinais de voz.
De forma alternativa, é adotado o oe iente de orrelação entre os espe tros dos sinais
de voz limpo e realçado, evitando assim a ne essidade de estimação explí ita da distorção
presente no sinal de voz.
63
Para o ál ulo da STOI, o sinal de voz limpo x(t) é primeiramente re-amostrado à
taxa de 10 kHz e segmentado em quadros de 256 amostras utilizando janelas de Hanning
om 50% de sobreposição. A taxa de amostragem é xada em 10 kHz de forma a manter
a mesma resolução em frequên ia da análise realizada em (TAAL, 2011). Em seguida,
ada quadro é transformado para o domínio da frequên ia utilizando a DFT om 512
pontos. Seja X(κ, τ ) o κ-ésimo ponto resultante da apli ação da DFT sobre o quadro τ .
Os pontos X(κ, τ ) são agrupados em 15 bandas ujas frequên ias entrais variam de 150
Hz a 4300 Hz, om três bandas por oitava. A norma da j -ésima banda (j = 1, 2, . . . , 15)
é denida por v
uκu (j)−1
u X
X̄j (τ ) = t |X(κ, τ )|2 , (3.21)
κ=κl (j)
onde κl (j) e κu (j) são os seus limites inferior e superior, respe tivamente. Em ada
região de tempo e frequên ia, a envoltória temporal de ada banda do sinal limpo é
representada pelo vetor
h iT
x(j,τ ) = X̄j (τ − 29), X̄j (τ − 28), . . . , X̄j (τ ) . (3.22)
A adoção de 30 oe ientes para o vetor x(j,τ ) foi denida em (TAAL, 2011) através de
resultados experimentais. A análise temporal om 30 quadros onse utivos orresponde
a 384 ms, ou seja, um quadro a ada 12,8 ms.
De maneira análoga à estimação de x(j,τ ) , obtém-se o vetor y(j,τ ) a partir do sinal de voz
orrompido y(t). Em seguida, y(j,τ ) é normalizado para ompensar eventuais diferenças
de energia em relação a x(j,τ ) . Seja y(j,τ ) (n) o n-ésimo oe iente do vetor y(j,τ ) , a versão
normalizada de y(j,τ ) é obtida por
kx(j,τ ) k

ȳ(j,τ ) (n) = min y(j,τ ) (n) , (1 + 10 −β/20
)x(j,τ ) (n) , (3.23)
ky(j,τ ) k
onde k · k representa a norma ℓ2 e βSDR = −15 dB indi a o valor máximo para a

grandeza SDR (signal-to-distorion ratio ) denida em (TAAL, 2011). A medida inter-
mediária STOI(j,τ ) é denida omo o oe iente de orrelação entre os vetores ȳ(j,τ ) e
x(j,τ ) . Ou seja,
(x(j,τ ) − µx(j,τ ) )T (ȳ(j,τ ) − µȳ(j,τ ) )
STOI(j,τ ) = , (3.24)
kx(j,τ ) − µx(j,τ ) kkȳ(j,τ ) − µȳ(j,τ ) k
onde µ(·) indi a a média amostral do vetor orrespondente. Finalmente, a medida
STOI é dada pela média de todos os valores intermediários al ulados de ada quadro τ
64
e de ada banda j ,
15 Q
1 XX
STOI = STOI(j,τ ) , (3.25)
15 Q j=1 τ =1
onde Q é o número total de quadros.

Além da proposta da medida STOI, os autores apli aram uma função monótona não-
linear para mapear os resultados de STOI na predição de taxas de a ertos de palavras em
experimentos subjetivos de inteligibilidade. A função de mapeamento foi dada por
100
f (STOI) = , (3.26)
1 + exp(a STOI + b)
om a e b onstantes. Os resultados mostraram boa pre isão para sinais provenientes de
duas bases de voz, uma delas em língua inglesa. Como nos experimentos de real e de voz
realizados nesta Tese a base de voz TIMIT foi gravada neste mesmo idioma, o mapeamento
denido na EQ. 3.26 foi adotado om os mesmos valores de a e b en ontrados em (TAAL,
2011), isto é, a = −17, 4906 e b = 9, 6921. Contudo, é importante ressaltar que os valores
exatos de a e b não são ru iais para a omparação entre as té ni as de real e. Como a
função da EQ. 3.26 é estritamente res ente para a < 0, maiores valores de STOI resultam
em maiores valores de f (STOI), e vi e-versa. Assim, a adoção de f (STOI) no lugar da
própria medida STOI é apenas uma forma mais práti a de examinar o desempenho das
té ni as de real e em termos de inteligibilidade, sendo os valores omparáveis à taxa de
a ertos na identi ação de palavras.
Na TAB. 3.1, são apresentados os resultados de predição das taxas de a ertos na
identi ação de palavras om sinais de voz pro essados pelas seis té ni as de real e. Como
pode-se observar, os maiores e menores resultados médios de f (STOI) para todas as
té ni as são obtidos om os ruídos fábri a e serra elétri a, respe tivamente. Todas as
fontes de ruídos resultam em altos valores de predição (f (STOI) > 99%) para SNR de 10
dB. Para os ruídos heli óptero, fábri a e britadeira, os resultados om a té ni a Wiener
se mantêm a ima de 97% mesmo para SNR de 0 dB. É importante ressaltar que, para a
medida fwSegSNR, estes são os ruídos para os quais a té ni a de Cohen obteve o melhor
desempenho. Contudo, pode-se veri ar que, na predição das taxas de inteligibilidade, o
algoritmo de Wiener é a té ni a espe tral que obteve os melhores resultados médios de
predição para todas as seis fontes de ruídos.
Considerando as in o fontes de ruídos não-esta ionários, as té ni as baseadas no
método EMD apresentam, em geral, resultados melhores que as espe trais. Para o ruído
65
TAB. 3.1: Predição de taxas de a ertos (%) de inteligibilidade obtidos om os resultados
de STOI om o mapeamento determinado pela EQ. 3.26.
Ruído SNR SS Cohen Wiener EMDF EMD-DT EMDH
10 99,11 99,00 99,03 98,67 99,29 99,30
serra elétri a
5 91,74 91,87 91,81 92,86 93,96 93,84
0 58,34 57,28 63,43 70,78 71,91 72,34
-5 13,97 12,59 17,95 25,12 24,40 24,64
-10 2,66 2,42 4,47 6,15 6,41 6,41
Média 53,16 52,63 55,34 58,72 59,19 59,31
10 99,49 99,60 99,67 99,52 99,70 99,70
5 96,93 98,57 99,07 98,81 99,13 99,15
britadeira
0 84,61 94,89 97,21 97,44 97,10 97,20

-5 53,04 72,86 87,32 87,92 85,06 85,63
-10 25,01 34,20 58,86 60,27 54,60 57,07
Média 71,82 80,02 88,43 88,79 87,12 87,75
10 99,60 99,62 99,53 99,56 99,50 99,58
5 97,64 98,21 97,97 98,27 97,98 98,25
balbúrdia
0 78,72 86,60 87,15 89,90 88,82 89,73

-5 31,45 41,49 44,60 54,29 51,59 53,32
-10 6,27 7,73 10,22 14,76 14,31 15,50
Média 62,74 66,73 67,89 71,35 70,44 71,28
10 99,62 99,60 99,53 99,55 99,53 99,58
5 98,84 98,83 98,58 98,65 98,65 98,78
0 94,69 95,89 95,09 95,44 95,06 95,72
trem
-5 68,26 82,30 81,09 80,97 80,47 81,72

-10 21,48 38,47 41,70 41,60 40,98 42,40
Média 76,58 83,02 83,20 83,24 82,94 83,64
10 99,77 99,83 99,72 99,64 99,78 99,77
5 99,04 99,47 99,30 99,41 99,39 99,52
fábri a
0 92,72 97,99 97,65 98,42 97,84 98,27

-5 67,86 91,15 89,89 91,58 89,40 91,42
-10 31,51 56,19 59,74 58,76 56,25 59,10
Média 78,18 88,93 89,26 89,56 88,53 89,62
10 99,66 99,78 99,76 99,57 99,69 99,74
5 98,07 99,32 99,32 99,03 98,97 99,18
heli óptero
0 87,54 97,43 97,36 96,78 95,87 96,76

-5 52,77 87,00 87,85 84,14 81,41 83,86
-10 19,28 48,09 54,73 44,80 42,82 45,82
Média 71,46 86,33 87,80 84,87 83,75 85,07
serra elétri a, por exemplo, o valor médio de f (STOI) varia de 55,34% om a té ni a

Wiener para 59,31% om a proposta EMDH. A té ni a EMDH al ançou os maiores valores
de f (STOI) para três ruídos: serra elétri a, trem e fábri a. Por outro lado, a EMDF
obteve os melhores resultados para as fontes britadeira e balbúrdia. O úni o ruído onde
uma té ni a espe tral obteve o maior ganho médio foi o esta ionário heli óptero, aso do
algoritmo om a ltragem de Wiener. Os resultados de STOI orroboram om a medida
66
2
FFT
log DCT
FIG. 3.12: Extração dos oe ientes MFCC.
fwSegSNR. Estas duas medidas demonstram que a proposta EMDH onsegue melhor
aprimoramento na inteligibilidade dos sinais de voz, prin ipalmente quando orrompidos
por ruídos a ústi os altamente não-esta ionários.
3.6 IDENTIFICAÇ O AUTOMÁTICA DE LOCUTOR
Nesta Tese, a tarefa de identi ação automáti a de lo utor é proposta para avaliar a
inteligibilidade dos sinais de voz após a apli ação das té ni as de real e. Desta forma, as
taxas de a ertos de identi ação são utilizadas omo omplemento às medidas fwSegSNR
e STOI.
Um sistema de identi ação de lo utor (REYNOLDS, 1995a) é geralmente omposto
de duas fases: treinamento e testes. Durante a fase de treinamento, o sistema extrai um
onjunto de atributos a ústi os para obter os modelos para os lo utores. Na fase de testes,
os atributos extraídos da lo ução de teste são omparados om os modelos dos lo utores
para a tomada de de isão. Na tarefa de identi ação de lo utor, o prin ipal objetivo é
identi ar a qual dos lo utores perten e a lo ução de teste. Na literatura, sistemas de
identi ação baseados nos oe ientes mel- epstrais (MFCC - mel-frequen y epstral oef-
ients ) (DAVIS, 1980) e nos modelos de misturas Gaussianas (GMM - Gaussian mixture
models ) (REYNOLDS, 1995a) apresentam bom desempenho quando utilizam sinais de voz
limpos (REYNOLDS, 1995b). Estes resultados, ontudo, são muito degradados quando
a aptação o orre em ambientes a usti amente ruidosos (MING, 2007; Z O, 2011).
3.6.1 ATRIBUTOS ACÚSTICOS MFCC
A FIG. 3.12 ilustra o diagrama em blo os da extração dos atributos MFCC. Na etapa
de pré-pro essamento, após a aquisição o sinal de voz é dividido em quadros om urta
67
duração (20 ms - 32 ms). As amostras de ada quadro são transformadas para o domínio
da frequên ia utilizando FFT e, em seguida, passam por um ban o de ltros na es ala mel.
A es ala mel (RABINER, 1993) representa a per epção pela audição humana das variações
em frequên ia. As frequên ias desta es ala (fmel ) são rela ionadas om as frequên ias da
es ala linear (fHz ) por
fHz
fM el = 1127 ln 1 + . (3.27)
700
Os atributos MFCC (cj ) são obtidos de a ordo om (DAVIS, 1980; FURUI, 1981)
F
X 1 π
cj = (log Sk ) os j k − , j = 1, 2, . . . , D (3.28)
2 F
k=1
onde F é o número de ltros na es ala mel, Sk é a potên ia na saída do k -ésimo ltro

e D é o número de oe ientes MFCC. Assim, a ada quadro é obtido um vetor ~x om D
omponentes. Ou seja,
~x = [ c1 c2 · · · cD ]T . (3.29)
Os vetores MFCC extraídos de ada quadro são on atenados para formar uma matriz
de atributos da voz. Se um sinal de voz possui Q quadros, então a matriz de atributos X
possui dimensão D × Q. Logo,
X = [ x~1 x~2 · · · x~Q ] . (3.30)
3.6.2 MODELO GMM DO LOCUTOR
O modelo GMM (λ) (REYNOLDS, 1995a) é denido omo uma soma ponderada de
G omponentes Gaussianas,
G
X
p(~x|λ) = pg bg (~x) (3.31)
g=1
onde ~x é um vetor de atributos om D elementos, pg (g = 1, 2, . . . , G) são os pesos

das omponentes, e bg (~x) são omponentes Gaussianas om vetor média µ
~ g e matriz
ovariân ia Kg . Desta forma, ada omponente do GMM é representada por

1 1
bg (~x) = Dp exp − (~x − ~µg ) Kg (~x − µ
T −1
~ g) . (3.32)
(2π) 2 det Kg 2
O modelo GMM do lo utor é ompletamente ara terizado pelos pesos, vetor média e
matriz ovariân ia. Ou seja,
λ = {pg , ~µg , Kg } , g = 1, 2, . . . , G . (3.33)
68
Durante a fase de treinamento, os modelos de lo utores são gerados a partir da matriz
XD×Q de atributos, utilizando o algoritmo EM (expe tation-maximization ) (REYNOLDS,
1995a). O objetivo é obter o modelo λ (EQ. 3.33), que maximize a verossimilhança entre
seus parâmetros e a matriz de atributos,
Q
1 X
log p(X|λ) = log p(~xt |λ) . (3.34)
Q t=1
Na fase de testes, dada a matriz XD×Q extraída do sinal de voz de teste, o lo utor
identi ado é aquele ujo modelo λ maximiza a verossimilhança da EQ. 3.34.
Para os experimentos de identi ação de lo utor, são es olhidos 168 lo utores da base
TIMIT. Dos 10 sinais de voz disponíveis por lo utor, 8 são utilizados no treinamento dos
modelos e os outros 2 são separados para os testes. Cada lo ução de teste é orrompida
pelos seis ruídos a ústi os des ritos na Seção 3.1, onsiderando SNR de 0 dB, 5 dB, 10
dB, 15 dB e 20 dB. Para a formação dos vetores de atributos, de ada quadro de 32 ms e
50% de sobreposição, são extraídos 12 oe ientes mel- epstrais utilizando um ban o om
F = 26 ltros na es ala mel.
A TAB. 3.2 mostra as taxas de a ertos obtidas na identi ação de lo utor om as
diferentes té ni as de real e de voz. Como referên ia, foram in luídos os resultados orres-
pondentes aos sinais ruidosos sem qualquer pro essamento. Note a grande variabilidade
nas taxas de a ertos obtidas sem real e, dependendo da fonte a ústi a de ruídos. Por
exemplo, para SNR de 20 dB, a a urá ia na identi ação varia de 96,73% om o ruído
balbúrdia para 57,14% om o ruído britadeira. Com relação aos experimentos de iden-
ti ação de lo utor apli ados aos sinais de voz om real e, as maiores taxas médias de
a ertos, onsiderando todas as fontes de ruídos, foram al ançadas om a proposta EMDH.
A maior ontribuição da té ni a EMDH foi obtida para o ruído fábri a, onde a a urá ia
média aumentou de 42,20% para 69,40%, o que orresponde a uma diferença de 27,20
pontos per entuais (p.p.). Para este mesmo ruído, a proposta EMDH superou o resultado
médio da té ni a EMDF em 9,40 p.p. Com relação às té ni as espe trais, é interessante
notar que a té ni a de Cohen foi a que obteve o pior desempenho para a maioria dos
ruídos. Este algoritmo só aprimorou os resultados para a fonte de ruído britadeira. Na
média global, houve uma queda de 12,40 p.p., de 40,98% sem real e para 28,58% om a
té ni a de Cohen. Por outro lado, todas as té ni as baseadas no método EMD aumen-
taram as médias globais. A diferença atingiu 5,60 p.p. para EMD-DT, 9,00 p.p. para
EMDF e 13,48 p.p. para a proposta EMDH. Estes resultados orroboram om a predição
69
TAB. 3.2: Taxas de a ertos (%) nos experimentos de identi ação de lo utor om as
diferentes té ni as de real e.
Ruído SNR sem real e SS Cohen Wiener EMDF EMD-DT EMDH
20 85,71 63,10 37,50 58,04 80,35 85,12 83,93
15 54,17 45,24 21,43 41,96 53,87 54,76 60,12
10 22,04 26,19 10,71 22,62 22,92 23,81 26,79
serra elétri a
5 6,55 11,01 3,27 12,50 8,33 8,33 9,23
0 1,19 5,95 1,19 7,74 2,38 1,79 1,49
Média 33,93 30,30 14,82 28,57 33,57 34,76 36,31
20 57,14 54,46 45,83 56,25 72,92 68,75 79,76
15 35,42 36,90 39,29 38,99 48,21 43,75 54,17
10 21,13 20,54 30,65 25,89 36,31 24,70 36,61
britadeira
5 10,42 11,31 19,64 15,77 20,54 13,39 19,05
0 5,36 5,06 12,50 10,12 9,23 9,23 7,44
Média 25,89 25,65 29,58 29,40 37,44 31,96 39,41
20 96,73 67,26 49,70 72,02 94,35 95,24 97,32
15 89,29 59,23 41,96 62,50 87,50 91,07 91,67
10 59,23 44,64 26,19 44,05 63,69 65,18 76,19
balbúrdia
5 27,38 25,30 13,99 22,62 30,95 26,49 33,04
0 7,44 9,82 9,52 9,82 8,63 8,63 8,33
Média 56,01 41,25 28,27 42,20 57,02 57,32 61,31
20 86,01 62,80 45,54 64,88 92,56 93,45 97,32
15 71,43 55,06 36,31 51,79 86,01 84,23 94,05
10 49,11 42,26 28,57 39,58 69,64 61,31 78,27
trem
5 32,44 27,08 22,62 26,79 44,94 38,39 46,13
0 13,39 13,69 13,99 14,88 21,13 17,86 20,54
Média 50,48 40,18 29,40 39,58 62,86 59,05 67,26
20 77,98 62,50 52,08 67,26 91,67 92,86 97,02
15 60,12 49,11 51,19 59,52 84,52 80,06 94,94
10 43,75 33,33 40,77 46,13 69,64 56,25 85,42
fábri a
5 21,13 22,62 28,87 31,85 38,39 31,25 52,98
0 8,04 12,50 17,26 17,26 15,77 10,42 16,67
Média 42,20 36,01 38,04 44,40 60,00 54,17 69,40
20 74,70 61,61 49,11 65,77 89,88 87,20 95,54
15 56,25 45,24 41,96 52,68 76,49 66,67 83,63
10 33,63 25,89 33,93 35,12 50,89 38,69 58,33
heli óptero
5 15,18 14,58 22,02 19,35 20,83 13,39 23,81
0 7,14 5,95 9,82 9,23 6,85 5,06 3,87
Média 37,38 30,65 31,37 36,43 48,99 42,20 53,04
Média Global 40,98 34,00 28,58 36,76 49,98 46,58 54,46
de inteligibilidade apresentada na TAB. 3.1, onde o desempenho das té ni as espe trais

foi, em geral, inferior àquelas baseadas no EMD e, em espe ial, à proposta EMDH.
70
3.7 RESUMO
Este Capítulo apresentou experimentos para avaliação da proposta EMDH em ter-

mos de qualidade e inteligibilidade do sinal de voz. As medidas SegSNR e OQCM foram
utilizadas para averiguação da qualidade, enquanto a SegSNR om ponderação em fre-
quên ia e a medida STOI foram adotadas para a inteligibilidade. Cin o té ni as de real e
existentes na literatura foram adotadas omo referên ia para a avaliação da proposta
EMDH: SS, Cohen, Wiener, EMDF e EMD-DT. As té ni as foram apli adas sobre sinais
de voz orrompidos por seis ruídos a ústi os oletados de fontes reais, sendo in o deles
não-esta ionários. Os resultados de SegSNR e OQCM demonstraram que, em termos
de qualidade, a té ni a EMDH apresentou o melhor resultado para a maioria dos ruídos
não-esta ionários. As medidas fwSegSNR e STOI reforçaram o melhor desempenho da
té ni a proposta também para em termos de inteligibilidade. A proposta EMDH tam-
bém foi avaliada omo pós-real e em onjunto om as té ni as espe trais. Os resultados
demonstraram que a proposta EMDH aprimorou o desempenho de todas as três té ni-
as espe trais. Adi ionalmente, os resultados mostraram que o pós-real e om EMDH
apresentou resultados superiores àqueles om a té ni a EMDF, utilizada omo referên ia.
Finalmente, as taxas de a ertos de identi ação de lo utor foram ainda propostas para
reforçar o desempenho superior da té ni a EMDH em termos de inteligibilidade. As taxas
de identi ação demonstraram que as té ni as que utilizam o método EMD onseguem
aprimorar as taxas de a ertos, enquanto estas são em geral degradadas om as té ni as
de real e espe trais.
71
4 MÁSCARA ACÚSTICA PARA IDENTIFICAÇ O DE VARIAÇÕES
EMOCIONAIS
A presença de emoções no sinal de voz é importante na omuni ação entre seres hu-
manos pois omplementa a informação verbal e possibilita a interpretação da semânti a
da mensagem falada (COWIE, 2001; AYADI, 2011). Por exemplo, o entendimento do
onteúdo emo ional pode indi ar se o lo utor está feliz ou om raiva, omplementando a
mensagem transmitida. Nesta Tese, foram abordadas soluções para as distorções a ús-
ti as sofridas pelo sinal de voz. Diferentemente das distorções a ústi as ausadas por
ruídos, as alterações ou variações no sinal de voz de orrentes dos estados emo ionais são
intrínse as ao pro esso de produção da fala. Isto signi a que o efeito das emoções não
pode ser onsiderado de forma separada do sinal de voz, omo é normalmente realizado
nas té ni as de real e de voz, onde assume-se o ruído omo aditivo. No presente Capítulo,
o prin ipal fo o são as alterações a ústi as do sinal de voz quando o lo utor está sob o
efeito de emoções.
Durante a última dé ada, diversos estudos foram onduzidos om o objetivo de om-
preender os efeitos ausados por estados emo ionais sobre os sinais de voz (COWIE,
2001; ZHOU, 2001; SCHULLER, 2009; AYADI, 2011). A identi ação do estado emo-
ional pelo sinal de voz possui vantagens em relação a outras abordagens biométri as,
tais omo a medição da pressão arterial ou a frequên ia de batimentos ardía os. Isto
porque a aptação do sinal de voz é onsiderada não-intrusiva e pode ser realizada por
meio de equipamentos omuns ao dia-a-dia, tais omo omputadores, telefones elulares,
tablets, dentre outros. A identi ação a ústi a de emoções possibilita o aprimoramento de
diversas apli ações que requerem a iteração homem-máquina (COWIE, 2001). Ela é par-
ti ularmente importante para prover naturalidade a sistemas de síntese de fala, ou para
avaliar a fadiga ou estresse de um motorista através de um sistema embar ado no veí ulo
(AYADI, 2011; KOOLAGUDI, 2012). Em (HANSEN, 1995), foi veri ado que sistemas
de re onhe imento da fala para abines de aeronaves apresentam melhor desempenho
quando treinados om sinais produzidos sob ondições de estresse. O redire ionamento de
hamadas em sistemas de emergên ia e o emprego omo ferramenta de diagnósti o para
terapeutas são outros exemplos de apli ações da identi ação do estado emo ional pelo
72
FIG. 4.1: Separação das emoções nos eixos de valên ia, potên ia e ativação (YANG, 2010).
sinal de voz (COWIE, 2001).

Na literatura, não existe onsenso quanto à denição exata para o termo emoção
(KLEINGINNA JR., 1981). Por esta razão, os estudos geralmente ressaltam as prin i-
pais diferenças entre estados emo ionais. Uma das abordagens mais difundidas é a da
separação das emoções em duas ou mais dimensões (YANG, 2010). A FIG. 4.1 ilustra
a representação de algumas emoções em três eixos: valên ia, potên ia e ativação. Estes
eixos foram denidos segundo uma abordagem psi ológi a, e reetem mudanças no sis-
tema parassimpáti o em de orrên ia dos estados emo ionais. Emoções de alta ativação,
omo a alegria e a raiva, induzem alterações sobre o sistema nervoso (COWIE, 2001).
E, onsequentemente, podem provo ar aumento da pressão arterial e da frequên ia de
batimentos ardía os, mudanças na respiração, maior pressão nas ordas vo ais, dentre
outros sintomas. O sinal de voz resultante é ara terizado por maior energia em altas fre-
quên ias e maior variação na pit h, quando omparado àquele produzido sob um estado
emo ional neutro19 . Por outro lado, os sinais de voz produzidos sob emoções de baixa
ativação, omo a tristeza, são ara terizados por uma frequên ia fundamental mais baixa
e pou a energia nas altas frequên ias.
19 Oestado neutro orresponde à ausên ia de emoção ou ondição de estresse, resultando em um sinal

de voz onsiderado "limpo".
73
(a) (b)
( ) (d)
FIG. 4.2: Sinais de voz originados sob diferentes estados emo ionais: (a) neutro, (b)
feli idade, ( ) raiva e (d) tristeza (ILIEV, 2011).
Na FIG. 4.2 (ILIEV, 2011) é possível veri ar as alterações nas formas de onda dos
sinais de voz para distintas emoções. Os sinais orrespondem à vogal /E/ da lo ução em
inglês "over there ", falada por um mesmo lo utor do sexo mas ulino em quatro estados
emo ionais: neutro, feli idade, raiva e tristeza. Note que as emoções feli idade e, prin i-
palmente, raiva levam a maiores os ilações nas amplitudes do sinal, quando omparadas
om os estados neutro e tristeza. Estas propriedades estão de a ordo om a predominân-
ia de omponentes em alta frequên ia e a maior energia, ara terísti as das emoções de
alta ativação e alta potên ia (vide FIG. 4.1).
Um dos prin ipais desaos da área de pro essamento de voz é a denição de atributos
a ústi os que sejam mais apropriados para a lassi ação das emoções. Atributos prosódi-
os, tais omo energia e pit h, apresentam bom desempenho na distinção entre emoções de
alta e de baixa ativação. Contudo, omo as emoções não podem ser lassi adas apenas
quanto à ativação, estes atributos não são apropriados para a identi ação de emoções
multi-estilo.
Diversos trabalhos de identi ação a ústi a de emoções têm adotado atributos es-
pe trais, que são amplamente onsolidados para o re onhe imento de voz e de lo utor
(SCHULLER, 2009). Alguns exemplos são os oe ientes mel- epstrais (DAVIS, 1980) e
74
os oe ientes de predição linear (LPC - linear predi tion oe ients ) (RABINER, 1978).
Estes atributos onseguem apturar as ara terísti as espe trais do trato vo al através da
transformada de Fourier apli ada sobre urtos intervalos de tempo (20 ms - 30 ms) e,
assim, reetir os efeitos das emoções. Contudo, os resultados om tais atributos têm se
mostrado muito sensíveis às ondições de gravação da base de voz, tais omo a língua e
as origens ulturais dos lo utores, ou ainda o ambiente de gravação (SCHULLER, 2009).
Em (ZHOU, 2001), foram apresentadas propostas de atributos a ústi os baseados no
operador Teager de energia (KAISER, 1990). O desenvolvimento destes atributos foram
motivados pelos experimentos onduzidos em (TEAGER, 1990), que mostraram que a
voz é produzida pela interação não-linear entre o uxo de ar e vórti es formados dentro
do trato vo al. Sob ondições de emoção ou estresse, as mudanças siológi as produzem
mudanças na interação uxo-vórti e e, onsequentemente, altera as ara terísti as do sinal
de voz. O operador TEO foi proposto em (KAISER, 1990) para aptar as variações na
energia destas interações que o orrem dentro do trato vo al. Seja x(t) um sinal om
amostras em tempo dis reto, o operador TEO (Ψ [·]) é denido omo
Ψ [x(t)] = x2 (t) − x(t + 1)x(t − 1) . (4.1)
Na proposta do atributo TEO-CB-Auto-Env ( riti al band based TEO auto orrelation

envelope ) (ZHOU, 2001), adotado nesta Tese, o operador TEO é apli ado sobre diversas
sub-bandas do sinal de voz para aptar as variações na energia dos uxos não-lineares para
diferentes frequên ias de ressonân ia. Através deste pro edimento, a ideia é identi ar as
alterações siológi as o orridas no trato vo al quando o indivíduo é submetido aos estados
emo ionais ou ondições de estresse. Nos experimentos realizados em (ZHOU, 2001), o
atributo TEO-CB-Auto-Env foi utilizado para lassi ação de situações de estresse, mas
não para a identi ação de emoções multi-estilo.
Um outro onjunto de atributos a ústi os utilizados para a lassi ação a ústi a de
emoções são aqueles que reetem a informação da ex itação glotal. A ontribuição da
fonte de ex itação para a produção da fala é dependente do estado emo ional do lo-
utor (QUATIERI, 2001). Sinais de voz produzidos de maneira forçada e om maior
on entração nas altas frequên ias possuem densidade espe tral de potên ia (DEP) om
de aimento aproximado de 9 dB por oitava. Por outro lado, os sinais de voz om predo-
minân ia das baixas frequên ias apresentam de aimento de 15 dB por oitava, enquanto
que um de aimento médio de 12 dB por oitava é observado para o sinal neutro. Assim,
75
Tristeza
Felicidade
0,2 Neutro
Raiva
Frequência Relativa
0,1
0
0 0,2 0,4 0,6 0,8 1
H
FIG. 4.3: Distribuição dos valores do expoente H para sinais de voz sob quatro ondições
emo ionais distintas.
as informações sobre a frequên ia de vibração das ordas vo ais são importantes para
diferen iar as emoções. Os atributos de ex itação glotal são geralmente extraídos do sinal
de voz após a supressão das omponentes do trato vo al, representados pelos oe ientes
de predição linear. Isto é geralmente realizado pela análise do sinal residual do modelo
de predição linear da fala, omo por exemplo o modelo de Liljen rants-Fant (LF) (FANT,
1985). Como as orrelações de primeira e segunda ordem entre as amostras do sinal de voz
são previamente extraídas pelos oe ientes LPC, o sinal residual ontém prin ipalmente
as orrelações de alta ordem. Os atributos rela ionados à ex itação glotal são geralmente
extraídos da forma do pulso glotal (ROTHENBERG, 1973), dos instantes de abertura e
fe hamento das ordas vo ais (BROOKES, 2006), da simetria glotal (ILIEV, 2011), dentre
outros. Contudo, ainda são pou os os trabalhos existentes na literatura que utilizam as
informações da ex itação glotal para a lassi ação das emoções (KOOLAGUDI, 2012).
Este Capítulo propõe o uso do vetor de parâmetros de Hurst (pH) (SANT'ANA, 2006)
omo um atributo tempo-frequên ia para a lassi ação de estados emo ionais. O vetor
pH foi proposto ini ialmente para identi ação e veri ação de lo utor (SANT'ANA,
2006). A extração do vetor pH onsiste em uma análise multi-resolução que onsegue
aptar as orrelações de alta ordem entre as amostras do sinal de voz. Por este motivo,
o pH está diretamente rela ionado om a ex itação glotal, isto é, om a frequên ia de
vibração das ordas vo ais.
A FIG. 4.3 exempli a a ontribuição do expoente de Hurst (0 ≤ H ≤ 1) na diferen i-
76
ação entre as emoções feli idade, neutro, raiva e tristeza. Esta estimação foi realizada em
segmentos de 32 ms dos sinais de voz da base EMO-DB (BURKHARDT, 2005), utilizando
o estimador baseado na de omposição wavelet (VEITCH, 1999). Conforme denido ante-
riormente, o valor de H expressa a dependên ia ou es ala temporal entre as amostras de
um sinal e está rela ionado om as suas ara terísti as espe trais. Note que as emoções
onsideradas de alta ativação são identi adas omo as que possuem maiores omponentes
nas altas frequên ias. Ou seja, os valores de H para as emoções raiva e feli idade estão
predominantemente on entrados no intervalo 0 < H < 1/2. Já para a emoção tristeza, a
on entração nas baixas frequên ias induz alta dependên ia temporal entre as amostras,
obtendo-se valores de H no intervalo 1/2 < H < 1. Observe ainda que, quando o lo utor
está sob o estado emo ional neutro, a maioria dos valores estimados para o expoente de
Hurst estão na região H ≈ 1/2.
Outra ontribuição do presente Capítulo é a proposta de uma más ara binária para a
identi ação a ústi a de emoções. As más aras a ústi as têm sido utilizadas na literatura
prin ipalmente para real e de sinais de voz (BRUNGART, 2006; LI, 2008). O objetivo é
identi ar e suprimir as omponentes do sinal de voz que são mais fortemente orrompidas
por ruído (HU, 2008). Desta forma, o sinal de voz resultante é omposto apenas pelas
regiões onde o ruído é signi ativamente mais fra o que o próprio sinal. Em (BRUNGART,
2006; LI, 2008), por exemplo, os autores demonstraram que a apli ação de uma más ara
binária ideal (MBI)20 aumenta as taxas de inteligibilidade para sinais de voz orrompidos
por ruídos a ústi os, mesmo para valores de SNR < 0 dB. Já em (KIM, 2009), foi proposto
um algoritmo para real e de voz om uma más ara a ústi a binária para situações onde o
ruído é des onhe ido. Os resultados provaram que a más ara a ústi a aumentou as taxas
de a ertos em testes subjetivos de inteligibilidade.
Na utilização das más aras a ústi as para real e, o sinal de voz ruidoso é primeiramente
parti ionado em sub-bandas de frequên ia. Cada sub-banda é ainda dividida em quadros
de urta duração. Em seguida, dene-se um ritério de seleção para identi ar quais as
regiões de tempo e frequên ia são predominantemente ompostas por ruído. Finalmente,
estas omponentes mais ruidosas são anuladas e o sinal de voz é re onstruído utilizando
a transformada inversa de Fourier. Ou seja, para ada quadro τ e ada omponente em
frequên ia κ, os espe tros do sinal limpo (estimado) X̂(κ, τ ) e do sinal orrompido Y (κ, τ )
20 Más aras binárias ideais são aquelas que assumem o onhe imento prévio das omponentes do sinal
e do ruído.
77
são rela ionados por (WANG, 2006)
X̂(κ, τ ) = M(κ, τ ) Y (κ, τ ) , (4.2)
onde a más ara binária M(κ, τ ) é denida por

(
1 , se o sinal predomina sobre o ruído;
M(κ, τ ) = (4.3)
0 , aso ontrário.
Na proposta aqui apresentada, a más ara binária ME (κ, τ ) é denida para identi ar
as omponentes que mais estão rela ionadas om uma determinada emoção E . Assim, a
de isão quanto à manutenção ou à supressão de ada região de um sinal de voz produzido
sob a emoção E é adaptada para
(
1 , se a emoção E predomina sobre o estado neutro;
ME (κ, τ ) = (4.4)
0 , aso ontrário.
As regiões restantes são utilizadas para re onstruir os sinais de voz, antes destes serem
apli ados na identi ação de emoções. Desta forma, atinge-se um maior grau de distinção
entre os estados emo ionais e, portanto, uma melhor identi ação da emoção.
A avaliação do vetor pH e da más ara a ústi a apresentados neste Capítulo é realizada
em experimentos de identi ação a ústi a de emoções. Os experimentos são realizados
om duas bases de emoções: EMO-DB (BURKHARDT, 2005) e SUSAS (HANSEN, 1997).
Como referên ia, nos experimentos são também onsiderados os oe ientes MFCC e o
atributo TEO-CB-Auto-Env. Os mesmos atributos são ainda examinados nos experimen-
tos de avaliação da más ara a ústi a.
4.1 O VETOR DE ATRIBUTOS PH
O vetor pH foi proposto em (SANT'ANA, 2006) omo um atributo tempo-frequên ia

para sistemas de identi ação e veri ação de lo utor. Nesta Tese, o expoente de Hurst
foi anteriormente denido e utilizado numa proposta para real e de sinais de voz. Neste
Capítulo, os valores de H são utilizados para ompor o vetor pH, que é aqui proposto
omo atributo para a lassi ação dos estados emo ionais. A lassi ação dos estados
emo ionais pode ser realizada pelos valores de H , da seguinte forma (vide FIG. 4.3):
• Emoções de alta ativação (0 < H < 1/2): para estes estados emo ionais, predomi-
nam as omponentes nas altas frequên ias. A densidade espe tral de potên ia do
78
sinal de voz possui de aimento de aproximadamente 9 dB por oitava (QUATIERI,
2001). A função auto orrelação normalizada denida na EQ. 2.39 possui rápido
de aimento, levando a valores de H no intervalo 0 < H < 1/2.
• Estado emo ional neutro (H ≈ 1/2): a DEP possui de aimento aproximado de 12

dB por oitava. Isto resulta em uma FAC om de aimento exponen ial, levando o
expoente de Hurst a valores H ≈ 1/2.
• Emoções de baixa ativação (1/2 < H < 1): as omponentes de baixas frequên ias
do sinal de voz impli am em uma DEP om queda de 15 dB por oitava. Isto resulta
em um alto grau de dependên ia entre as amostras e uma FAC om de aimento
lento, o que leva a valores de H no intervalo 1/2 < H < 1.
4.1.1 EXTRAÇ O DO VETOR PH
Para os experimentos de identi ação a ústi a de emoções, que serão apresentados

na Seção 4.3, o vetor pH é extraído om o estimador multi-dimensional baseado em
wavelets (M-dim-wav - multi-dimensional wavelet-based estimator ) (SANT'ANA, 2006).
O pro edimento para esta extração pode ser des rito om os seguintes passos:
• De omposição om wavelets : apli ar a transformada wavelet dis reta para su essi-

vamente de ompor o sinal de voz em oe ientes de detalhe (d(j, n)) e aproximação
(a(j, n)), onde j representa as es alas da de omposição (j = 1, . . . , J ) e n é o índi e
de ada es ala. Assim omo na estimação do expoente de Hurst utilizando wavelets,
os ltros propostos em (DAUBECHIES, 1992) são utilizados na DWT.
• Estimação do expoente de Hurst (EH) (VEITCH, 1999): para ada es ala j , a

variân ia dos oe ientes de detalhes é al ulada por σj2 = (1/Nj ) n d(j, n)2 , onde
P
Nj é o número de oe ientes da es ala j . O expoente de Hurst do sinal de voz é

estimado por H0 = (1 + θ)/2, onde θ é a in linação da reta obtida por regressão
linear de log2 (σj2 ) versus j .
• Extração do vetor pH: o vetor pH é omposto por J +1 valores de H [H0 , H1 , . . . , HJ ].

O primeiro oe iente, H0 , é obtido diretamente pela de omposição wavelet do sinal
de voz, onforme des rito no item a ima. Os outros valores (H1 , H2, . . . , HJ ) são
obtidos apli ando-se novamente a de omposição wavelet a ada um das J sequên ias
79
EH H0
Filtro d (1,k ) H1
2 DWT EH
...
Passa−Banda
Filtro a (1,k ) Filtro d (2,k ) H2

2 2 DWT EH
...
Filtro a (2,k ) Filtro d (3,k ) H3

2 2 DWT EH
...
2 = Decimador
Filtro
EH = Estimador do expoente de Hurst 2 a (3,k )
Passa−Baixa
FIG. 4.4: Exemplo da extração de um vetor pH utilizando o estimador M-dim-wav om

J = 3 estágios de de omposição.
de detalhes e estimando novamente os valores de H . A Fig. 4.4 apresenta um

exemplo de extração do vetor pH onsiderando J = 3 estágios de de omposição, ou
seja, [H0 , H1 , H2 , H3 ].
4.2 PROPOSTA PARA MÁSCARA ACÚSTICA DE EMOÇÕES
Na proposta de más ara a ústi a aqui apresentada, as regiões a serem suprimidas

do sinal de voz são denidas de a ordo om as suas ontribuições para a identi ação
de emoções. O diagrama em blo os da omposição da más ara a ústi a binária está
apresentado na Fig. 4.5. Na ilustração, é onsiderado um exemplo om quatro estados
emo ionais: feli idade, neutro, raiva e tristeza. A identi ação de emoções om más ara
a ústi a é realizada em duas fases: treinamento e teste.
4.2.1 FASE DE TREINAMENTO
Seja um sinal de voz orrespondente a um determinado estado emo ional E . O primeiro

passo da fase de treinamento onsiste em parti ionar este sinal em 25 sub-bandas (KIM,
2009), representadas pelo índi e κ (κ = 1, 2, . . . , 25). O parti ionamento é realizado
utilizando um ban o de ltros Gammatone (WANG, 2006) om frequên ias entrais entre
0 e 4 kHz determinadas pela es ala Mel. Cada sub-banda κ é dividida em quadros de urta
duração, e espe trogramas de modulação em amplitude (AMS - amplitude modulation
spe trograms ) (KOLLMEIER, 1994) são estimados de forma a aptar as variações da sua
frequên ia de modulação. De ada quadro, representado pelo índi e τ , obtém-se um vetor
80
Sinais de voz com diferentes estados emocionais
Teste
Felicidade Neutro Raiva Tristeza
Sinal de voz
Filtragem em Sub−Bandas
e
Estimação AMS
Fel Neu Rai Tri Máscara
Modelos das Máscaras
Máscara 1 Extração de
Tri
Atributos
Extração de
Atributos
Máscara 2 Rai
Máscara 3 Neu
Cálculo da
Máscara 4 Fel Verossimilhança
Treinamento Decisão
Modelos para classificação das emoções
FIG. 4.5: Exemplo de diagrama em blo os da identi ação de 4 emoções (feli idade,
neutro, raiva e tristeza) utilizando a más ara a ústi a binária.
de omponentes AMS. Seja ~xκ,τ o vetor AMS estimado da sub-banda κ e do quadro τ .

Assim, um onjunto de 25 matrizes AMS Xκ (uma para ada sub-banda) são obtidas pela
on atenação de todos os vetores AMS estimados de uma mesma sub-banda. Ou seja,
Xκ = [~xκ,1 ~xκ,2 · · · ~xκ,Q ] , (4.5)
onde Q é o número total de quadros. Cada matriz é utilizada na onstrução de um

modelo GMM λEκ (REYNOLDS, 1995a), que será posteriormente adotado no ritério de
de isão da más ara a ústi a referente à sua sub-banda κ e à sua emoção E .
O pro edimento de divisão em sub-bandas, estimação das matrizes AMS e geração dos
modelos para a más ara a ústi a é realizado para ada uma das lo uções de treinamento,
orrespondentes a ada um dos estados emo ionais. O próximo passo é utilizar estes
modelos para determinar quais omponentes espe tro-temporais devem ser eliminadas
na re onstrução dos sinais de voz de treinamento. Nesta proposta, para ada emoção
81
E (diferente do estado neutro) a más ara binária ME (κ, τ ) para o quadro τ e para a
sub-banda κ é denida omo
(
1 , se p(~xκ,τ |λEκ )/p(~xκ,τ |λN
κ ) > θκ ;
ME (κ, τ ) = (4.6)
0 , aso ontrário.
onde p(~xκ,τ |λEκ ) e p(~xκ,τ |λN

κ ) são, respe tivamente, as funções de verossimilhança al-
uladas om o modelo GMM da emoção E e do estado neutro (denotado N ), e θκ é o

limiar da más ara para a sub-banda κ. A denição da EQ. 4.6 signi a que, na re ons-
trução do sinal de voz, a más ara remove as regiões que possuem maior probabilidade de
perten erem ao estado neutro ( ompensado por um fator θκ ), e assim, ressaltando aquelas
mais rela ionadas à emoção E .
Para o sinal de voz produzido sob o estado emo ional neutro, a más ara MN (κ, τ ) é
proposta omo
(
1 , se p(~xκ,τ |λN xκ,τ |λN̄
κ )/p(~ κ ) > θκ ;
MN (κ, τ ) = (4.7)
0 , aso ontrário ,
onde λN̄
κ é o modelo da más ara da sub-banda κ obtido a partir da on atenação dos
sinais de voz de todos os estados emo ionais, ex eto o neutro.

Após a geração dos modelos, as más aras a ústi as binárias denidas pelas EQS. 4.6
e 4.7 são apli adas a todos os sinais de voz disponíveis para treinamento. Em seguida,
matrizes de atributos a ústi os (pH, MFCC e TEO-CB-Auto-Env) são extraídas dos sinais
re onstruídos. Finalmente, as matrizes de atributos a ústi os são empregadas para obter
um úni o modelo ΛE para ada estado emo ional E . Assim omo nos modelos das más aras
λEκ , os modelos GMM também são adotados para as emoções (ΛE ).
4.2.1.1 ESTIMAÇ O DOS COMPONENTES AMS
Os omponentes AMS foram propostos em (KOLLMEIER, 1994) para representar a

per epção siológi a e psi oa ústi a da audição binaural21 . Os valores de AMS reetem
o padrão da frequên ia de modulação das diversas sub-bandas de sons sonoros. Isto
signi a que estes são apazes de aptar o efeito do estado emo ional do lo utor (ZHOU,
2001). A estimação dos omponentes AMS é apli ada om as mesmas ongurações do
pro edimento denido em (MA, 2009).
21 Audição pelos dois ouvidos.
82
Após o parti ionamento do sinal de voz, a envoltória de ada uma das sub-bandas
é obtida através de reti ação de onda ompleta22 e subamostragem, al ançando uma
taxa equivalente a 4 kHz. Em seguida, ada sub-banda é dividida em quadros om 128
amostras (ou 32 ms) e 50% de sobreposição. Após a apli ação da janela de Hanning, ada
um dos quadros é ompletado om zeros (zero-padding ) e transformado para o domínio
da frequên ia utilizando a transformada rápida de Fourier (FFT - fast Fourier transform )
om 256 pontos. A FFT resulta em uma resolução em frequên ia de 15,6 Hz para ada
quadro. Finalmente, o espe tro de ada sub-banda é dividido em 15 anais utilizando
ltros triangulares uniformemente distribuídos no intervalo de frequên ias 15,6 Hz - 400
Hz. As magnitudes das saídas de ada um dos 15 anais são on atenadas para obter os
15 omponentes do vetor AMS ~xκ,τ , referente à sub-banda κ e ao quadro τ .
4.2.2 FASE DE TESTE
Durante a fase de teste, o primeiro passo é parti ionar o sinal de voz em sub-bandas
e estimar as matrizes AMS. Os modelos λEκ obtidos na fase de treinamento são utilizados
para apli ar a más ara a ústi a binária sobre as lo uções de teste (EQS. 4.6 e 4.7). Como o
estado emo ional orrespondente à lo ução de teste é des onhe ido, as más aras a ústi as
binárias são apli adas para obter múltiplas versões "mas aradas" do sinal, sendo uma para
ada variação emo ional E . Em seguida, matrizes de atributos a ústi os são extraídas de
ada uma destas versões do sinal.
Seja y(t) um sinal de voz de teste, e seja YE a matriz de atributos (pH, MFCC ou
TEO-CB-Auto-Env) extraída do sinal y(t) re onstruído onsiderando a más ara para o
estado emo ional E . As matrizes YE são onfrontadas om os modelos ΛE das emoções,
obtidos durante a fase de treinamento. A emoção identi ada Ê para a lo ução de teste
é aquela que maximiza a função de verossimilhança p(YE |ΛE ), ou seja,
Eˆ = arg max p(YE |ΛE ) . (4.8)

E
Como ΛE é um modelo GMM, o valor de p(YE |ΛE ) é obtido pela soma ponderada de
distribuições Gaussianas, onforme des rito na Seção 3.6.2.
22 Cál ulo do quadrado de ada amostra.
83
4.3 EXPERIMENTOS REALIZADOS E RESULTADOS
A avaliação das propostas do vetor pH e da más ara a ústi a apresentadas neste

Capítulo é realizada em experimentos de identi ação a ústi a de emoções. Os primeiros
experimentos foram realizados para validar a ontribuição do atributo pH na dis riminação
das diferentes emoções. Em seguida, a más ara binária a ústi a é também avaliada para
a identi ação de emoções.
4.3.1 DESCRIÇ O DOS EXPERIMENTOS
De forma a obter resultados independentes da es olha dos lo utores para treinamento

e teste, foi adotada a metodologia LOSO (leave one speaker out ) (SCHULLER, 2009).
Neste pro edimento, os testes são ini ialmente realizados om os sinais de voz provenientes
de um úni o lo utor, enquanto todas as demais lo uções são utilizadas para treinamento.
Em seguida, outro lo utor é es olhido para os testes e os demais utilizados no treinamento.
O pro esso é assim repetido de maneira su essiva, até que todos os lo utores tenham sido
in luídos uma úni a vez para os testes. Ou seja, ao nal do experimento, o número de
testes realizados é exatamente igual ao número de lo uções disponíveis na base de voz.
Nos experimentos, os atributos pH são extraídos de segmentos dos sinais de voz om
dois tamanhos distintos: 20 ms e 50 ms. Para ada aso, foram utilizados J = 5 es-
tágios de de omposição (veja FIG. 4.4). Os dois vetores pH são obtidos a ada 10 ms
om J + 1 = 6 oe ientes ada. Finalmente, estes dois vetores são on atenados para
formar um úni o vetor pH om 12 omponentes. Como referên ia para o estudo do atri-
buto pH, os experimentos de identi ação a ústi a de emoções foram também realizados
utilizando os oe ientes mel- epstrais (MFCC) e o atributo TEO-CB-Auto-Env (ZHOU,
2001), baseado no operador TEO. Para o MFCC, onforme as ongurações adotadas em
(SCHULLER, 2009), os oe ientes são extraídos de quadros de 25 ms de duração, obtidos
a ada 10 ms utilizando a janela de Hamming. Um ban o de 26 ltros na es ala mel foi
onsiderado, levando a um total de 12 omponentes em ada vetor MFCC. A des rição e
as ongurações adotadas para o atributo TEO-CB-Auto-Env são apresentadas na Seção
4.3.1.2.
Com o objetivo de avaliar a ontribuição do atributo rela ionado à ex itação glotal, os
atributos a ústi os pH, MFCC e TEO-CB-Auto-Env foram extraídos apenas de quadros
de voz formados por sons sonoros. Para isto, utilizou-se um ritério de de isão baseado
84
na energia, na quantidade de ruzamentos em zero (zero- rossing ) e na estimação de
pit h do quadro. Após a extração das matrizes de atributos, as emoções a ústi as foram
modeladas utilizando o lassi ador GMM om 32 omponentes Gaussianas (SCHULLER,
2009), om matriz ovariân ia diagonal.
Os atributos pH, MFCC e TEO-CB-Auto-Env são também adotados nos experimentos
de identi ação a ústi a de emoções utilizando os sinais de voz obtidos om a apli ação da
más ara. Para a más ara, a estimação das omponentes AMS (veja FIG. 4.5) é realizada
onforme a des rição apresentada na Seção 4.2.1.1. Os limiares θκ utilizados nos ritérios
da más ara nas EQS. 4.6 e 4.7 foram denidos de forma a reter 80% das regiões de
ada sub-banda κ que estejam mais rela ionadas om as respe tivas emoções23 . Ou seja,
para ada sub-banda κ, são eliminadas as regiões ~xκ,τ om os menores valores da razão
de verossimilhança p(~xκ,τ |λN κ ) denida na EQ. 4.7 para o estado neutro, ou
xκ,τ |λN̄
κ )/p(~
κ ), onforme EQ. 4.6 para as demais emoções. Os modelos GMM λκ ,

p(~xκ,τ |λEκ )/p(~xκ,τ |λN E
utilizados na más ara de ada sub-banda κ e de ada emoção E , também foram obtidos
om 32 omponentes.
4.3.1.1 BASES ACÚSTICAS DE EMOÇÕES
Os primeiros experimentos foram realizados utilizando a base EMO-DB

(BURKHARDT, 2005), que é uma das bases de voz mais populares para o estudo
de emoções a ústi as. Além de ser de livre a esso24 , a base EMO-DB abrange sete dife-
rentes estados emo ionais: desgosto, feli idade, medo, raiva, tédio, tristeza e neutro. As
gravações foram realizadas em língua alemã por 10 atores prossionais, sendo 5 homens e
5 mulheres. Os sinais resultantes, originalmente amostrados a 48 kHz, foram onvertidos
para uma taxa de amostragem de 16 kHz. O onteúdo das lo uções foi previamente
es olhido de forma a não induzir qualquer interpretação quanto à emoção. De um total
de er a de 900 lo uções, 494 foram sele ionadas a partir de testes per eptuais subjetivos
para garantir a qualidade na representação das emoções.
A segunda base de voz utilizada nos experimentos é omposta por 3593 lo uções da
bases SUSAS (HANSEN, 1997), aptadas à taxa de 8 kHz, em ondições reais de estresse
23 Este
per entual foi denido em testes preliminares om a base EMO-DB. Para isto, foi onsiderada
omo ritério a taxa média de a ertos na identi ação a ústi a de emoções om o per entual de regiões
suprimidas dos sinais variando de 5% a 30%, om diferenças de 5 pontos per entuais.
24 A base EMO-DB está publi amente disponível em http://pas al.kgw.tu-berlin.de/emodb/.
85
e medo. Para isto, os sinais foram obtidos om 7 lo utores (4 homens e 3 mulheres)
submetidos a duas situações distintas: montanha-russa e queda livre. A base SUSAS
aborda as situações de alto estresse, médio estresse e grito, além do estado neutro. Di-
ferentemente da base EMO-DB, ujas lo uções orrespondem a sentenças de diferentes
tamanhos, a base SUSAS é restrita a 35 omandos de urta duração na língua inglesa,
tais omo "break " e "help ". A Tab. 4.1 resume as prin ipais ara terísti as de ada uma
das bases adotadas nos experimentos de lassi ação a ústi a de emoções.
TAB. 4.1: Cara terísti as das bases de voz adotadas nos experimentos de lassi ação
a ústi a de emoções.
Total de Total de Lo uções
Base Idioma Taxa Observação
Lo uções por Emoção
Desgosto 38
Feli idade 64
Medo 55
EMO-DB Alemão 494 Neutro 78 16 kHz Emoções simuladas
Raiva 127
Tédio 79
Tristeza 53
Alto estresse 1202
Médio estresse 1276
SUSAS Inglês 3593 8 kHz Condições reais de estresse
Neutro 701
Grito 414
4.3.1.2 ATRIBUTO TEO-CB-AUTO-ENV
O diagrama de blo os da extração do atributo TEO-CB-Auto-Env é apresentado na

FIG. 4.6. O primeiro passo onsiste em parti ionar o sinal de voz em diferentes sub-bandas.
Para isto, utiliza-se um ban o de ltros de Gabor (MARAGOS, 1993) ujas frequên ias
entrais e larguras de banda são denidas pelas bandas ríti as25 , onforme apresentado
em (ZHOU, 2001). Após a apli ação do operador TEO sobre ada uma das sub-bandas, o
sinal resultante é dividido em quadros de tamanho xo. Os máximos lo ais das urvas de
auto orrelação denem as suas envoltórias. Para ada quadro, a área sob a envoltória de
ada sub-banda é então al ulada e normalizada para o intervalo [−1, 1]. Finalmente, os
valores de área são on atenados para formar o vetor TEO-CB-Auto-Env, uja quantidade
25 Bandas ríti as são aquelas que orrespondem à per epção do aparelho auditivo humano omo um
ban o de ltros.
86
Filtragem em Divisão Cálculo da
Sinal de voz Auto−
Sub−Bandas
(Gabor)
... TEO ... em
Quadros
... correlação ... Área sob a
Envoltória
...
FIG. 4.6: Diagrama de blo os da extração do atributo TEO-CB-Auto-Env.
de oe ientes orresponde à quantidade de partições obtidas om o ban o de ltros.

Nos experimentos de identi ação a ústi a de emoções apresentados neste Capítulo, o
atributo TEO-CB-Auto-Env foi extraído om um ban o de 16 ltros distribuídos nas
bandas ríti as. As frequên ias entrais e larguras de banda orrespondentes foram as
mesmas adotadas em (ZHOU, 2001). A ada 10 ms, um vetor de 16 oe ientes foi
extraído a partir de quadros de 75 ms. O tamanho dos quadros foi determinado em testes
preliminares om ambas as bases onsideradas nos experimentos.
4.3.2 RESULTADOS COM A BASE EMO-DB
Os primeiros experimentos foram realizados om a base EMO-DB, subamostrada para

uma taxa de 8 kHz. As TABS. 4.2, 4.3 e 4.4 apresentam a a urá ia nos experimentos
de identi ação a ústi a de emoções obtida om os atributos pH, MFCC e TEO-CB-
Auto-Env, respe tivamente. Para melhor visualização, as emoções estão agrupadas de
a ordo om o seu grau de ativação. Enquanto as quatro primeiras (raiva, desgosto, medo
e feli idade) possuem alta ativação, as demais são onsideradas de baixa ativação (tédio,
neutro e tristeza). Note que o vetor pH atingiu as maiores taxas de a ertos para a maioria
dos estados emo ionais. A maior ontribuição dos vetores pH foi obtida para a emoção
medo, onde a a urá ia aumentou de 33% om o MFCC e 27% om TEO-CB-Auto-Env,
para 62% om pH. As ex eções são as emoções feli idade e tristeza, para as quais o melhor
resultado foi obtido om MFCC e TEO-CB-Auto-Env, respe tivamente.
A análise das TABS. 4.2 e 4.3 mostra ainda que o vetor pH, em omparação ao MFCC,
foi apaz de melhorar a dis riminação entre as emoções de alta e baixa ativação. Observe,
por exemplo, que nenhuma das lo uções geradas om a emoção tristeza foi onfundida
om uma emoção de alta ativação quando foi utilizado o vetor pH. Por outro lado, 11%
destes sinais foram in orretamente lassi ados omo de alta ativação om os oe ientes
MFCC. Estes resultados reforçam a ideia de que o vetor pH está altamente rela ionado
om a ex itação glotal, que por sua vez é apaz de diferen iar entre as emoções de baixa e
alta ativação. Na média, os resultados da identi ação a ústi a de emoções apresentaram
87
TAB. 4.2: A urá ia na identi ação a ústi a de emoções (%) para a base EMO-DB
utilizando o vetor pH, sem más ara a ústi a.
Emoção Emoção Identi ada
Real Desgosto Feli idade Medo Raiva Neutro Tédio Tristeza
Desgosto 67 10 6 0 10 7 0
Feli idade 6 48 8 25 11 2 0
Medo 5 16 62 0 11 3 3
Raiva 2 10 2 86 0 0 0
Neutro 2 0 8 0 71 17 2
Tédio 13 0 2 0 20 61 4
Tristeza 0 0 0 0 6 12 82
Taxa média de a ertos:68,1%
utilizando os oe ientes MFCC, sem más ara a ústi a.
Desgosto 61 11 5 5 18 0 0
Feli idade 8 58 11 19 3 2 0
Medo 11 22 33 7 15 13 0
Raiva 1 14 0 85 0 0 0
Neutro 5 0 5 0 65 23 1
Tédio 8 5 5 0 25 53 4
Tristeza 11 0 0 0 9 6 74
utilizando o atributo TEO-CB-Auto-Env, sem más ara a ústi a.
Desgosto 40 13 0 18 13 13 3
Feli idade 8 42 0 37 8 5 0
Medo 16 11 27 15 18 6 7
Raiva 4 27 1 60 5 3 0
Neutro 10 3 1 6 36 44 0
Tédio 9 4 1 5 19 58 4
Tristeza 4 0 0 0 4 2 90
taxa média de a ertos de 68,1%, levando o vetor pH a um resultado 6,8 pontos per entuais
(p.p.) superior aos oe ientes MFCC. Em termos de taxa média de a ertos, o atributo
TEO-CB-Auto-Env obteve o pior resultado de identi ação.
88
utilizando o vetor pH om a más ara a ústi a.
Desgosto 77 13 0 3 7 0 0
Feli idade 8 71 6 13 0 2 0
Medo 11 11 70 0 5 3 0
Raiva 1 7 2 89 0 1 0
Neutro 7 0 7 0 83 3 0
Tédio 4 0 2 0 6 83 5
Tristeza 0 0 0 0 3 9 88
Taxa média de a ertos: 80,1%
TAB. 4.6: A urá ia na identi ação de emoções (%) para a base EMO-DB utilizando os
oe ientes MFCC om a más ara a ústi a.
Desgosto 68 11 5 5 5 3 3
Feli idade 5 66 8 16 0 6 0
Medo 11 9 53 4 5 13 5
Raiva 1 9 1 87 0 2 0
Neutro 9 0 1 0 89 1 0
Tédio 3 1 1 3 5 78 9
Tristeza 9 0 0 0 2 6 85
TAB. 4.7: A urá ia na identi ação de emoções (%) para a base EMO-DB utilizando
atributo TEO-CB-Auto-Env om a más ara a ústi a.
Desgosto 39 16 3 10 16 11 5
Feli idade 9 30 2 50 9 0 0
Medo 16 20 27 6 24 0 7
Raiva 4 26 2 61 7 0 0
Neutro 9 3 0 5 47
36 0
Tédio 6 8 0 5 24 51
6
Tristeza 4 0 0 0 4 2 90
Os experimentos referentes às TABS. 4.2 a 4.4 foram repetidos utilizando sinais de voz
após a apli ação da más ara a ústi a binária. Os resultados om os atributos pH, MFCC
e TEO-CB-Auto-Env estão des ritos nas TABS. 4.5, 4.6 e 4.7, respe tivamente. Note
que a adoção da más ara aumentou as taxas de a ertos da identi ação para todas as
89
emoções, tanto para os oe ientes MFCC quanto para o vetor pH. Para a emoção tédio,
por exemplo,a más ara a ústi a levou a um aumento de mais de 20 pontos per entuais
para ambos os atributos. A taxa de identi ação subiu de 61% para 83% om o pH, e de
53% para 78% om o MFCC. Enquanto o aumento médio foi de 12,0 p.p. para o vetor
pH, este in remento atingiu 13,8 p.p. para os oe ientes MFCC.
Assim omo nos resultados sem más ara, o desempenho dos vetores pH foi superior
ao dos oe ientes MFCC. Desta vez, a úni a ex eção foi o estado neutro. É importante
notar que, novamente, o pH onseguiu melhor distinção entre as emoções de baixa e de
alta ativação. E, mais uma vez, os experimentos om o vetor pH não resultaram em
qualquer onfusão da emoção tristeza om as emoções de alta ativação.
Observe que as taxas de a ertos não foram aprimoradas para o atributo TEO-CB-Auto-
Env. Isto pode ser expli ado pelo fato de que, nas regiões removidas pela más ara a ústi a,
o operador TEO e a auto orrelação são al ulados sobre sub-bandas nulas, o asionando
indeterminações no ál ulo da área sob a envoltória da auto orrelação.
4.3.3 RESULTADOS COM A BASE SUSAS
No segundo onjunto de experimentos, a más ara a ústi a e o vetor pH são avaliados

em experimentos onduzidos om a base SUSAS. A prin ipal motivação é veri ar se
o desempenho obtido om estas propostas em emoções simuladas (base EMO-DB) são
mantidos em uma base que abrange variações emo ionais reais. A a urá ia obtida nos
experimentos de identi ação a ústi a de emoções om o vetor pH e om os atributos de
referên ia são apresentados nas TABS. 4.8 a 4.10. Note que, assim omo nos resultados
des ritos nas TABS. 4.2 e 4.3, o vetor pH aumentou a taxa média de a ertos em 3,0
pontos per entuais em relação ao MFCC, de 61,0% para 64,0%. A prin ipal ontribuição
do vetor pH foi na identi ação do alto estresse. Para os sinais de voz obtidos nesta
ondição, os erros na lassi ação omo estresse médio foi reduzida de 33% para 22% om
o pH, aumentando a taxa de a ertos de 53% para 62%. É importante ressaltar que o pH
aprimorou também a identi ação para a ondição de grito. Para este aso, os oe ientes
MFCC já apresentavam bons resultados, isto é, erros em apenas 3% dos asos. Mesmo
assim, o vetor pH onseguiu reduzir os erros para 1%. O atributo TEO-CB-Auto-Env
obteve as menores taxas de a ertos para todas as ondições de estresse.
As TABS. 4.11 a 4.13 mostram a a urá ia obtida om a apli ação da más ara a ústi a
binária na identi ação a ústi a das situações de estresse om a base SUSAS. Novamente,
90
TAB. 4.8: Taxa de identi ação de situações de estresse (%) para a base SUSAS utilizando
o vetor pH, sem más ara a ústi a.
Situação Situação de Estresse Identi ada
de Estresse Neutro Médio Alto Grito
Neutro 59 20 20 1
Médio 29 36 35 0
Alto 16 22 62 0
Grito 1 0 0 99
TAB. 4.9: Taxa de identi ação de situações de estresse (%) para a base SUSAS utilizando
os oe ientes MFCC, sem más ara a ústi a.
Neutro 58 19 23 0
Médio 25 36 39 0
Alto 14 33 53 0
Grito 3 0 0 97
TAB. 4.10: Taxa de identi ação de situações de estresse (%) para a base SUSAS uti-
lizando o atributo TEO-CB-Auto-Env, sem más ara a ústi a.
Neutro 46 30 16 8
Médio 30 35 31 4
Alto 20 28 47 5
Grito 5 3 3 89
o uso da más ara a ústi a aumentou as taxas médias de a ertos para ambos os asos: de
61,0% para 65,0% om o MFCC, e de 64,0% para 70,8% om o pH. Ou seja, mais uma
vez os melhores resultados foram obtidos om o vetor pH. Com ex eção da ondição de
grito, a más ara a ústi a aumentou as taxas de a ertos para todas as demais situações
om os atributos pH e MFCC. O resultado mais expressivo da más ara foi obtido para a
ondição médio estresse, na qual a a urá ia foi aprimorada de 36% om o pH para 51%
om o pH e a más ara a ústi a. Assim omo no aso da base EMO-DB, os resultados
om o atributo TEO-CB-Auto-Env não foram aprimorados pela más ara a ústi a.
91
lizando o vetor pH om a más ara a ústi a.
Neutro 67 18 11 4
Médio 26 51 18 5
Alto 13 17 67 3
Grito 1 1 0 98
lizando os oe ientes MFCC om a más ara a ústi a.
Neutro 60 19 17 4
Médio 27 41 27 5
Alto 18 17 62 3
Grito 2 1 0 97
lizando o atributo TEO-CB-Auto-Env om a más ara a ústi a.
Neutro 51 27 18 4
Médio 31 44 22 3
Alto 22 34 38 6
Grito 4 2 7 87
4.4 RESUMO
Este Capítulo apresentou duas propostas para aprimorar a a urá ia da identi ação
a ústi a de emoções. Na primeira, o vetor pH foi adotado omo um atributo tempo-
frequên ia para aptar as informações referentes à ex itação glotal. A outra proposta
foi a utilização de uma más ara a ústi a binária más ara para suprimir as omponentes
espe tro-temporais dos sinais de voz que não estejam rela ionados om o estado emo ional.
Os resultados demonstraram que tanto a más ara a ústi a quanto o vetor pH aprimoram
a identi ação de emoções para duas bases distintas, quando omparados à utilização dos
92
oe ientes MFCC e do atributo TEO-CB-Auto-Env. Em relação ao MFCC, a utilização
das duas propostas em onjunto aumentou a taxa média de a ertos da lassi ação de
emoções em 18,8 pontos per entuais para a base de emoções EMO-DB, ou seja, de 61,3%
om MFCC para 80,1% om pH e más ara a ústi a. Já para a base SUSAS, que abrange
situações reais de estresse, a melhora no desempenho das duas propostas atingiu 9,8 p.p.,
de 61,0% para 70,8%.
93
5 CONCLUS O E TRABALHOS FUTUROS
Nesta Tese, foram propostas soluções para problemas envolvendo distorções e variações
a ústi as não-esta ionárias nos sinais de voz. Para tratar as distorções a ústi as ausadas
por ruídos a ústi os não-esta ionários, foi proposta a té ni a tempo-frequên ia EMDH
para real e dos sinais de voz. Nesta abordagem, o método EMD foi ini ialmente utilizado
para de ompor o sinal de voz. Em seguida, o expoente de Hurst foi adotado omo ritério
de seleção para identi ar quais modos foram mais afetados pelos ruídos.
Para a avaliação da té ni a EMDH, os sinais de voz foram orrompidos por 6 ruí-
dos a ústi os om diferentes índi es de não-esta ionariedade. A proposta foi apli ada
diretamente sobre os sinais de voz distor idos, e também utilizada omo pós-real e para
algoritmos espe trais. Os resultados de quatro medidas objetivas demonstraram o bom
desempenho da té ni a proposta em termos de qualidade e inteligibilidade da voz. A
proposta de real e foi ainda omparada om outras in o té ni as de supressão de ruídos.
Os resultados omparativos onrmaram o bom desempenho da té ni a EMDH, prin i-
palmente para os ruídos om maiores valores de INS. No enário de pós-real e, a proposta
apresentada nesta Tese também obteve desempenho superior à abordagem om EMDF,
utilizada omo referên ia.
Ao longo do desenvolvimento da Tese, as té ni as de real e foram ainda utilizadas para
prover robustez a um sistema de identi ação automáti a de lo utor. As taxas de a ertos
de identi ação foram propostas omo medidas omplementares para avaliar o ganho na
inteligibilidade dos sinais de voz. Para isto, os testes de identi ação de lo utor foram
onduzidos om lo uções previamente realçadas pelas té ni as de supressão de ruídos. Os
resultados demonstraram que as maiores taxas de a ertos foram obtidas om a té ni a
EMDH.
Neste trabalho também foi onsiderada a tarefa de identi ação a ústi a das variações
emo ionais no sinal de voz. A primeira proposta onsistiu na utilização do vetor pH
omo atributo a ústi o para representar o efeito da emoção na ex itação glotal. Na
segunda abordagem, foi introduzida uma más ara a ústi a binária para eliminar as regiões
espe tro-temporais do sinal de voz que não estejam asso iadas ao estado emo ional do
lo utor. Os resultados demonstraram que ambas as propostas aprimoraram as taxas de
94
a ertos da identi ação a ústi a de emoções, om a base EMO-DB, e de ondições reais
de estresse, om a base SUSAS. As duas propostas utilizadas em onjunto levaram a um
aumento de até 18,8 pontos per entuais na taxa média de a ertos, para o aso da base
EMO-DB.
As prin ipais ontribuições apresentadas nesta Tese podem ser resumidas da seguinte
forma:
• Proposta de uma té ni a baseada no método EMD para real e de sinais de voz

orrompidos por ruídos a ústi os não-esta ionários. A proposta utilizou o expoente
de Hurst para identi ar os modos mais orrompidos por ruídos, e aprimorou as
medidas objetivas utilizadas para avaliar a qualidade e a inteligibilidade dos sinais
de voz. Em omparação às té ni as utilizadas omo referên ia, os resultados da
proposta EMDH foram parti ularmente interessantes para os ruídos om maiores
valores de INS.
• Avaliação das té ni as de real e na tarefa de identi ação automáti a de lo utor. Os

resultados foram utilizados omo omplemento às medidas objetivas rela ionadas à
inteligibilidade. A té ni a EMDH proposta nesta Tese obteve os maiores in remen-
tos nas taxas de a ertos da identi ação.
• Utilização da té ni a EMDH omo pós-real e para algoritmos espe trais de su-

pressão de ruídos. O objetivo foi suprimir o ruído residual dos sinais de voz pro-
essados por outras té ni as de real e. Os resultados om EMDH foram superiores
àqueles obtidos om a té ni a EMDF, utilizada omo referên ia.
• Adoção do vetor pH omo atributo a ústi o para representação das emoções. Os

experimentos realizados om as bases EMO-DB e SUSAS mostraram que o vetor
pH apresentou os melhores resultados quando omparado om os oe ientes mel-
epstrais (DAVIS, 1980) e om um atributo baseado no operador Teager de energia
(ZHOU, 2001).
• Proposta de utilização da más ara a ústi a binária para a lassi ação a ústi a
de emoções. Os resultados demonstraram que, para os atributos pH e MFCC, a
más ara a ústi a aprimorou as taxas de a ertos da identi ação de emoções (EMO-
DB) e ondições de estresse (SUSAS).
95
5.1 SUGESTÕES PARA TRABALHOS FUTUROS
Nesta Seção são desta adas algumas sugestões para trabalhos futuros.
• Na proposta de real e EMDH, investigar outras formas de sele ionar as IMFs que
são utilizadas na re onstrução do sinal de voz.
• Avaliar a proposta de real e om outros métodos de de omposição derivados do

EMD, tais omo o EEMD (ensemble empiri al mode de omposition ) (WU, 2009)
e o CEEMDAN ( omplete EEMD with adaptive noise ) (TORRES, 2011). Estes
métodos propõem uma melhor separabilidade entre as IMFs, diminuindo o fenmeno
de mistura entre modos (mode mixing ).
• Propor novas medidas objetivas para avaliar a inteligibilidade dos sinais de voz
pro essados pelas té ni as de real e.
• Investigar se o real e EMDH aprimora os resultados na tarefa de veri ação de

lo utor, apli ação parti ularmente interessante para sistemas de ontrole de a esso.
• Avaliar a ontribuição da té ni a de real e EMDH em onjunto om o treinamento

em múltiplas ondições (TMC) (MING, 2007; Z O, 2011) para o re onhe imento
de lo utor. O TMC foi proposto para melhorar os resultados tanto de identi ação
(Z O, 2011, 2013) quanto de veri ação de lo utor (Z O, 2012b) para sinais de voz
orrompidos por ruídos a ústi os.
• Estudar outros ritérios de de isão para a más ara a ústi a binária utilizada na las-
si ação de emoções. Em parti ular, avaliar quais sub-bandas do sinal onseguem
maior dis riminação entre emoções.
5.2 COMENTÁRIOS FINAIS
Nesta Tese, foram propostas soluções para o problema de distorções e variações a ús-
ti as nos sinais de voz. Para os sinais orrompidos por ruídos a ústi os, foi proposta uma
té ni a de real e tempo-frequên ia que utiliza o método de de omposição EMD e o ex-
poente de Hurst. Os experimentos de real e mostraram que a té ni a proposta apresentou
resultados promissores, prin ipalmente para os ruídos altamente não-esta ionários. Esta
Tese apresentou ainda duas propostas para aprimorar a lassi ação a ústi a de emoções:
96
o atributo tempo-frequên ia pH e uma más ara a ústi a binária. Ambas melhoraram as
taxas de a ertos de identi ação de emoções e de ondições de estresse. Adi ionalmente,
os melhores resultados de identi ação a ústi a de emoções foram obtidos om as duas
propostas utilizadas em onjunto.
97
6 REFERÊNCIAS BIBLIOGRÁFICAS
ANDRIANAKIS, I. e WHITE, P. Spee h spe tral amplitude estimators using optimally

shaped gamma and hi priors. Spee h Communi ation , 51(1):114, 2009.
AUGER, F., FLANDRIN, P., LIN, Y.-T., MCLAUGHLIN, S., MEIGNEN, S., OBERLIN,
T. e WU, H.-T. Time-frequen y reassignment and syn hrosqueezing: An overview.
IEEE Signal Pro essing Magazine , 30(6):3241, November 2013.
AYADI, M., KAMEL, M. e KARRAY, F. Survey on spee h emotion re ognition: Features,

lassi ation s hemes, and databases.Pattern Re ognition
, 44(3):572587, 2011.
BASSEVILLE, M. Distan e measures for signal pro essing and pattern re ognition. Sig-
nal Pro essing
, 18(4):349369, De ember 1989.
BEROUTI, M., SCHWARTZ, R. e MAKHOUL, J. Enhan ement of spee h orrupted by

a ousti noise.Pro eedings of the IEEE International Conferen e on A ous-
ti s, Spee h and Signal Pro essing (ICASSP 79)
, 4:208211, April 1979.
BISPO, B., ESQUEF, P., BISCAINHO, L., LIMA, A., FREELAND, F., JESUS, R., SAID,
A., LEE, B., SCHAFER, R. e KALKER, T. EW-PESQ: A Quality Assessment Method
for Spee h Signals Sampled at 48 kHz.Journal of the Audio Engineering So iety
,
58(4):251268, April 2010.
BOLL, S. Suppression of a ousti noise in spee h using spe tral subtra tion. IEEE
Transa tions on A ousti s, Spee h and Signal Pro essing , 27(2):113120, April
1979.
BORGNAT, P., FLANDRIN, P., HONEINE, P., RICHARD, C. e XIAO, J. Testing

stationarity with surrogates: A time-frequen y approa h. IEEE Transa tions on
Signal Pro essing , 58(7):34593470, July 2010.
BROOKES, M., NAYLOR, P. e GUDNASON, J. A quantitative assessment of group

IEEE Transa tions
delay methods for identifying glottal losures in voi ed spee h.
on A ousti s, Spee h and Language Pro essing , 14(2):456466, Mar h 2006.
BRUNGART, D., CHANG, P., SIMPSON, B. e WANG, D. Isolating the energeti ompo-
The Journal
nent of spee h-on-spee h masking with ideal time-frequen y segregation.
of the A ousti al So iety of Ameri a , 120(6):40074018, April 2006.
BURKHARDT, F., PAETCHKE, A., ROLFES, M., SENDLMEIER, W. e WEISS, B. A

database of german emotional spee h. Pro eedings of the INTERSPEECH
, págs.
15171520, September 2005.
CAMPBELL, J. Speaker re ognition: a tutorial. Pro eedings of the IEEE, 85(9):

14371461, September 1997.
98
CAVALCANTE, D. e COELHO, R. Identi ação de emoções appli ada ao re onhe i-
mento automáti o de lo utor. Anais do XXIX Simpósio Brasileiro de Tele o-
muni ações (SBrT'11) , págs. 15, Outubro 2011.
CHATLANI, N. e SORAGHAN, J. EMD-Based Filtering (EMDF) of Low-Frequen y Noise

for Spee h Enhan ement. IEEE Transa tions on Audio, Spee h, and Language
Pro essing , 20(4):11581166, may 2012.
COHEN, I. Noise spe trum estimation in adverse environments: improved minima on-
IEEE Transa tions on Spee h and Audio Pro essing
trolled re ursive averaging. ,
11(5):466475, September 2003.
COHEN, I. Spee h enhan ement using a non ausal a priori SNR estimator. IEEE Signal
Pro essing Letters , 11(9):725728, September 2004.
COHEN, I. e BERDUGO, B. Spee h enhan ement for non-stationary noise environments.

Signal Pro essing
, 81(11):24032418, 2001.
COHEN, L. Time Frequen y Analysis. Prenti e-Hall, New York, USA, 1995.
COWIE, R., DOUGLAS-COWIE, E., TSAPATSOULIS, N., VOTSIS, G., KOLLIAS, S.

e FELLENZ, W. Emotion re ognition in human- omputer intera tion. IEEE Signal
Pro essing Magazine, 18(1):3280, January 2001.
DAUBECHIES, I. Ten le tures on wavelets. So iety for Industrial and Applied Math-
emati s, Philadelphia, USA, 1992.
DAVIS, S. e MERMELSTEIN, P. Comparison of parametri representations for mono-

IEEE Transa tions on
syllabi word re ognition in ontinuously spoken senten es.
A ousti s, Spee h and Signal Pro essing , 28(4):357366, August 1980.
DONOHO, D. De-noising by soft-thresholding. IEEE Transa tions on Information

Theory, 41(3):613627, 1995.
DONOHO, D. e JOHNSTONE, I. Threshold sele tion for wavelet shrinkage of noisy data.
Pro eedings of the 16th Annual International Conferen e of the IEEE En-
gineering in Medi ine and Biology So iety (EMBC'94), 1:A24A25, November
1994.
EPHRAIM, Y. e MALAH, D. Spee h enhan ement using a minimum mean square er-
ror short-time spe tral amplitude estimator. IEEE Transa tions on A ousti s,
Spee h, and Signal Pro essing , 32(6):11091121, De ember 1984.
EPHRAIM, Y. e MALAH, D. Spee h enhan ement using a minimum mean-square error

log-spe tral amplitude estimator. IEEE Transa tions on A ousti s, Spee h and
Signal Pro essing , 33(2):443445, April 1985.
99
ERKELENS, J., HENDRIKS, R., HEUSDENS, R. e JENSEN, J. Minimum mean-square
error estimation of dis rete fourier oe ients with generalized gamma priors. IEEE
Transa tions on Audio, Spee h, and Language Pro essing , 15(6):17411752,
August 2007.
FANT, G., LILJENCRANTS, J. e LIN, Q. A four-parameter model of glottal ow. Spee h

Transmission Laboratory, Quaterly Progress and Status Report , 4:113, 1985.
FLANDRIN, P. Time-Frequen y/Time-S ale Analysis. A ademi Press, 1998.
FLANDRIN, P., AUGER, F. e CHASSANDE-MOTTIN, E. Time-frequen y reassign-

ment - from prin iples to algorithms. Em Appli ations in Time-Frequen y Signal
Pro essing , págs. 179203. CRC Press, 2003.
FLANDRIN, P., GONÇALVES, P. e RILLING, G. Detrending and denoising with em-

piri al mode de ompositions. Pro eedings of the European Signal Pro essing
Conferen e (EUSIPCO'04) , págs. 15811584, September 2004a.
FLANDRIN, P., RILLING, G. e GONCALVES, P. Empiri al mode de omposition as a

lter bank. IEEE Signal Pro essing Letters
, 11(2):112114, February 2004b.
FURUI, S. Cepstral analysis te hnique for automati speaker veri ation. IEEE Trans-
a tions on A ousti s, Spee h and Signal Pro essing , 29(2):259272, April 1981.
GAROFOLO, J., LAMEL, L., FISHER, W., FISCUS, J., PALLETT, D., DAHLGREN,
N. e ZUE, V. TIMIT a ousti -phoneti ontinuous spee h orpus. Linguisti Data
Consortium , 1993.
GERKMANN, T. e HENDRIKS, R. Unbiased MMSE-based noise power estimation with

low omplexity and low tra king delay. IEEE Transa tions on Audio, Spee h, and
Language Pro essing , 20(4):13831393, 2012.
HANSEN, J. e BOU-GHAZALE, S. Getting started with SUSAS: a spee h under simulated

and a tual stress database. Pro eedings of the EUROSPEECH'97 , 4:17431745,
September 1997.
HANSEN, J. e CAIRNS, D. ICARUS: Sour e generator based real-time re ognition of

spee h in noisy stressful and lombard ee t environments. Spee h Communi ation
,
16(4):391422, 1995.
HANSEN, J. e PELLOM, B. An ee tive quality evaluation proto ol for spee h enhan e-
Pro eedings of the International Conferen e on Spee h and
ment algorithms.
Language Pro essing (ICSLP'98) , págs. 28192822, De ember 1998.
HASAN, T. e HASAN, M. Suppression of residual noise from spee h signals using empiri al
mode de omposition. IEEE Signal Pro essing Letters , 16(1):25, January 2009.
HENDRIKS, R., HEUSDENS, R. e JENSEN, J. MMSE based noise psd tra king with low
omplexity.Pro eedings of the IEEE International Conferen e on A ousti s
Spee h and Signal Pro essing (ICASSP'10), págs. 42664269, 2010.
100
HU, Y. e LOIZOU, P. Evaluation of obje tive measures for spee h enhan ement. Pro-
eedings of INTERSPEECH , págs. 14, September 2006.
HU, Y. e LOIZOU, P. Subje tive evaluation and omparison of spee h enhan ement
algorithms. Spee h Communi ation , 49(7):588601, July 2007.
HU, Y. e LOIZOU, P. Evaluation of obje tive quality measures for spee h enhan ement.
IEEE Transa tions on Audio, Spee h and Language Pro essing , 16(1):229238,
January 2008.
HUANG, N. E., SHEN, Z., LONG, S. R., WU, M. C., SHIH, H. H., ZHENG, Q., YEN,
N. C., TUNG, C. C. e LIU, H. H. The empiri al mode de omposition and the hilbert
Pro eedings of the
spe trum for nonlinear and non-stationary time series analysis.
Royal So iety of London. Series A: Mathemati al, Physi al and Engineering
S ien es, 454(1971):903995, Mar h 1998.
HURST, E. Long-term storage apa ity of reservoirs. Transa tion of the Ameri an
So iety of Civil Engineers, 116(11):770799, April 1951.
ILIEV, A. e SCORDILIS, M. Spoken emotion re ognition using glottal symmetry.
EURASIP Journal on Advan es in Signal Pro essing, 2011(2), Mar h 2011.
KAISER, J. On a simple algorithm to al ulate the `energy' of a signal. Pro eedings
of the International Conferen e on A ousti s, Spee h and Signal Pro essing
(ICASSP'90), págs. 381384, April 1990.
KESHNER, M. 1/f noise. Pro eedings of the IEEE, 70(3):212218, Mar h 1982.
KHALDI, K., BOUDRAA, A., BOUCHIKHI, A. e ALOUANE, M. Spee h enhan ement

via EMD. EURASIP Journal on Advan es in Signal Pro essing
, 2008(1):873204,
May 2008.
KIM, G., LU, Y., HU, Y. e LOIZOU, P. An algorithm that improves spee h intelligibility
in noise for normal-hearing listeners.The Journal of the A ousti al So iety of
Ameri a , 126(3):14861494, September 2009.
KLATT, D. Predi tion of per eived phoneti distan e from riti al-band spe tra: A
Pro eedings of the IEEE International Conferen e on A ousti s,
rst step.
Spee h, and Signal Pro essing (ICASSP'82) , 7:12781281, May 1982.
KLEIJN, W. e PALIWAL, K. Spee h Coding and Synthesis. Elsevier S ien e, 1995.
KLEINGINNA JR., P. e KLEINGINNA, A. A ategorized list of emotion denitions,

with suggestions for a onsensual denition. Motivation and Emotion
, 5(4):345
379, De ember 1981.
KOLLMEIER, B. e KOCH, R. Spee h enhan ement based on physiologi al and psy hoa-
ousti al models of modulation per eption and binaural intera tion. Journal of the
A ousti al So iety of Ameri a , 95(3):15931602, Mar h 1994.
101
KOOLAGUDI, S. e RAO, K. Emotion re ognition from spee h: a review. International
Journal of Spee h Te hnology, 15(2):99117, 2012.
KRYTER, K. Methods for the al ulation and use of the arti ulation index. The Journal
of the A ousti al So iety of Ameri a , 34(11):16891697, November 1962.
LI, N. e LOIZOU, P. Fa tors inuen ing intelligibility of ideal binary-masked spee h: Im-
The Journal of the A ousti al So iety of Ameri a
pli ations for noise redu tion. ,
123(3):16731682, 2008.
LOIZOU, P. Spee h Enhan ement: theory and pra ti e. CRC Press, 2007a.
LOIZOU, P. e HU, Y. A omparative intelligibility study of single-mi rophone noise
redu tion algorithms. The Journal of the A ousti al So iety of Ameri a , 22(3):
17771786, 2007b.
LOIZOU, P. e MA, J. Extending the arti ulation index to a ount for non-linear distortions
introdu ed by noise-suppression algorithms. The Journal of the A ousti al So iety
of Ameri a , 130(2):986995, August 2011.
MA, J., HU, Y. e LOIZOU, P. Obje tive measures for predi ting spee h intelligibility
in noisy onditions based on new band-importan e fun tions. The Journal of the
A ousti al So iety of Ameri a , 125(5):33873405, 2009.
MACAULAY, R. e MALPASS, M. Spee h enhan ement using a soft-de ision noise sup-
pression lter. IEEE Transa tions on A ousti s, Spee h, and Signal Pro essing
,
ASSP-28(2):137145, April 1980.
MAINA, C. e WALSH, J. Joint spee h enhan ement and speaker identi ation using
approximate bayesian inferen e. IEEE Transa tions on Audio, Spee h, and Lan-
guage Pro essing , 19(6):15171529, August 2011.
MANDELBROT, B. e VAN NESS, J. Fra tional brownian motions, fra tional noises and
appli ations. SIAM Review
, 10(4):422437, O tober 1968.
MANOHAR, K. e RAO, P. Spee h enhan ement in nonstationary noise environments

using noise properties. Spee h Communi ation
, 48:96109, January 2006.
MARAGOS, P., KAISER, J. e QUATIERI, T. Energy separation in signal modulations

with appli ation to spee h analysis. IEEE Transa tions on Signal Pro essing
, 41
(10):30243051, O tober 1993.
MARTIN, R. Noise power spe tral density estimation based on optimal smoothing and
minimum statisti s. IEEE Transa tions on Spee h and Audio Pro essing , 9(5):
504512, July 2001.
MARTIN, R. Spee h enhan ement based on minimum mean-square error estimation and
supergaussian priors. IEEE Transa tions on Spee h and Audio Pro essing , 13
(5):845856, September 2005.
102
MCCALLUM, M. e GUILLEMIN, B. Sto hasti -deterministi MMSE STFT spee h
enhan ement with general a priori information. IEEE Transa tions on Audio,
Spee h, and Language Pro essing , 21(7):14451457, July 2013.
MING, J., HAZEN, T., GLASS, J. e REYNOLDS, D. Robust speaker re ognition in noisy
onditions. IEEE Transa tions on Audio, Spee h, and Language Pro essing ,
15(5):17111723, July 2007.
OSHAUGHNESSY, D. Spee h Communi ations: Human and Ma hine. Addison-

Wesley Publishing Co., 1987.
QUACKENBUSH, S., BARNWELL, T. e CLEMENTS, M. Obje tive Measures Of

Spee h Quality
. Prenti e-Hall, In ., 1988.
QUATIERI, T. F. Dis rete-Time Spee h Signal Pro essing. Prenti e-Hall, In .,

Upper Saddle River, NJ, USA, 2001.
RABINER, L. A tutorial on hidden markov models and sele ted appli ations in spee h
Pro eedings of the IEEE
re ognition. , 77(2):257286, February 1989.
RABINER, L. e JUANG, B. Fundamentals of Spee h Re ognition. Prenti e Hall,

1993.
RABINER, L. e SCHAFER, R. Digital Pro essing of Spee h Signals. Pearson

Edu ation, 1978.
REYNOLDS, D. e ROSE, R. Robust text independent speaker identi ation using gaus-
sian mixture speaker models. IEEE Transa tions on Spee h and Audio Pro ess-
ing , 3:7282, 1995a.
REYNOLDS, D. Speaker identi ation and veri ation using gaussian mixture speaker
models. Spee h Communi ation , 17:91108, 1995b.
RHEBERGEN, K. e VERSFELD, N. A spee h intelligibility index-based approa h to

predi t the spee h re eption threshold for senten es in u tuating noise for normal-
hearing listeners. The Journal of the A ousti al So iety of Ameri a , 117(4):
21812192, April 2005.
RIX, A., BEERENDS, J., HOLLIER, M. e HEKSTRA, A. Per eptual evaluation of spee h
quality (PESQ)-a new method for spee h quality assessment of telephone networks
and ode s.Pro eedings of the IEEE International Conferen e on A ousti s,
Spee h, and Signal Pro essing (ICASSP'01) , 2:749752, May 2001.
ROTHENBERG, M. A new inverse ltering te hnique for deriving the glottal air ow
waveform during voi ing. The Journal of the A ousti al So iety of Ameri a , 53
(6):16321645, 1973.
103
SANT'ANA, R., COELHO, R. e ALCAIM, A. Text-independent speaker re ognition
based on the hurst parameter and the multidimensional fra tional brownian motion
model. IEEE Transa tions on Audio, Spee h, and Language Pro essing , 14
(3):931940, May 2006.
SCALART, P. e FILHO, J. Spee h enhan ement based on a priori signal to noise es-
Pro eedings of the IEEE International Conferen e on A ousti s,
timation.
Spee h and Signal Pro essing (ICASSP'96) , 32(6):629632, De ember 1996.
SCHULLER, B., VLASENKO, B., EYBEN, F., RIGOLL, G. e WENDEMUTH, A. A ous-

ti emotion re ognition: A ben hmark omparison of performan es. IEEE Workshop
on Automati Spee h Re ognition Understanding , págs. 552557, 2009.
SHAHIN, I. Speaker identi ation in emotional talking environments using both gender
and emotion ues.Pro eedings of the 1st International Conferen e on Commu-
ni ations, Signal Pro essing, and their Appli ations (ICCSPA'13) , February
2013.
STEENEKEN, H. e HOUTGAST, T. A physi al method for measuring spee h transmis-

sion quality.The Journal of the A ousti al So iety of Ameri a
, 67(1):318326,
January 1980.
TAAL, C., HENDRIKS, R., HEUSDENS, R. e JENSEN, J. An algorithm for intelligibility

IEEE Transa tions on Audio,
predi tion of time-frequen y weighted noisy spee h.
Spee h and Language Pro essing , 19(7):21252136, September 2011.
TEAGER, H. e TEAGER, S. Eviden e for nonlinear sound produ tion me hanisms in

the vo al tra t. Em Spee h Produ tion and Spee h Modelling , volume 55, págs.
241261. Springer Netherlands, 1990.
TORRES, M., COLOMINAS, M., SCHLOTTHAUERAND, G. e FLANDRIN, P. A om-

Pro eedings of
plete ensemble empiri al mode de omposition with adaptive noise.
the IEEE Internation Conferen e on A ousti s, Spee h and Signal Pro ess-
ing (ICASSP'11), págs. 41444147, May 2011.
VARGA, A. e STEENEKEN, H. Assessment for automati spee h re ognition II: NOISEX-
92: a database and an experiment to study the ee t of additive noise on spee h
re ognition systems.Spee h Communi ation , 12(3):247251, 1993.
VEITCH, D. e ABRY, P. A wavelet-based joint estimator of the parameters of long-range

dependen e. IEEE Transa tions on Information Theory , 45(3):878 897, April
1999.
The Journal of
VOSS, R. e CLARKE, J. 1/f noise in musi : Musi from 1/f noise.
the A ousti al So iety of Ameri a , 63(1):258263, 1978.
WANG, D. e BROWN, G. Computational Auditory S ene Analysis: Prin iples,

Algorithms, and Appli ations. Wiley-IEEE Press, 2006.
104
WIENER, N. Extrapolation, Interpolation and Smoothing of Stationary Time
Series with Engineering Appli ations. MIT Press, Cambridge, MA, 1949.
WU, Z. e HUANG, N. Ensemble empiri al mode de omposition: A noise-assisted data
analysis method. Advan es in Adaptive Data Analysis, 01(01):141, 2009.
YANG, B. e LUGGER, M. Emotion re ognition from spee h signals using new harmony
features.Signal Pro essing
, 90(5):14151423, May 2010.
Z O, L. e COELHO, R. Colored noise based multi ondition training te hnique for robust
speaker identi ation.IEEE Signal Pro essing Letters , 18(11):675678, November
2011.
Z O, L. e COELHO, R. Generation of oloured a ousti noise samples with non-gaussian

distribution.IET Signal Pro essing, 6(7):684688, September 2012a.
Z O, L. e COELHO, R. Noise Robust Speaker Veri ation based on the MFCC and
Pro eedings of the Interna-
pH Features Fusion and Multi ondition Training.
tional Conferen e on Bio-inspired Systems and Signal Pro essing (BIOSIG-
NALS'12), págs. 137143, February 2012b.
Z O, L. e COELHO, R. Real e EMDF e treinamento em múltiplas ondições a ústi as
para identi ação de lo utor robusta a ruídos não-esta ionários. Anais do XXXI
Simpósio Brasileiro de Tele omuni ações (SBrT'13) , págs. 15, Setembro 2013.
ZHOU, G., HANSEN, J. H. L. e KAISER, J. F. Nonlinear feature based lassi ation of

spee h under stress.IEEE Transa tions on Spee h and Audio Pro essing , 9(3):
201216, mar 2001.
105
APÊNDICE
Neste Apêndi e é apresentada a lista de artigos publi ados e submetidos durante o período
de desenvolvimento da Tese (fevereiro de 2011 a novembro de 2013). Este apêndi e não
onstará da versão nal do Manus rito.
A.1 PERIÓDICOS
• Z O, L. e COELHO, R. Colored Noise Based Multi ondition Training Te hnique

for Robust Speaker Identi ation. IEEE Signal Pro essing Letters, 18(11):
675-678, November 2011.
• Z O, L. e COELHO, R. Generation of oloured a ousti noise samples with non-

Gaussian distribution. IET Signal Pro essing, 6(7): 684-688, September 2012.
• Z O, L., COELHO, R. e FLANDRIN, P. Spee h Enhan ement with EMD and
Hurst-based Mode Sele tion. IEEE Transa tions on Audio, Spee h and Lan-
guage Pro essing (submetido em outubro de 2013).
• Z O, L., CAVALCANTE, D. e COELHO, R. Time-Frequen y Feature and AMS-
GMM Mask for A ousti Emotion Classi ation. IEEE Signal Pro essing Let-
ters (submetido em novembro de 2013).
• VENTURINI, A., Z O, L., e COELHO, R. On Spee h Features Fusion, α-
Integration Gaussian Modeling and Multi-Style Training for Noise Robust Speaker
Classi ation. IEEE Transa tions on Audio, Spee h and Language Pro-
essing (submetido em novembro de 2013).
A.2 CONFERÊNCIAS
• Z O, L. e COELHO, R. Treinamento em Múltiplas Condições om Ruídos de Espe -

tro Colorido para Identi ação Robusta de Lo utor. Anais do XXIX Simpósio
Brasileiro de Tele omuni ações (SBrT'11), Outubro 2011.
• Z O, L. e COELHO, R. Noise Robust Speaker Veri ation based on the MFCC
and pH Features Fusion and Multi ondition Training. Pro eedings of the In-
106
ternational Conferen e on Bio-inspired Systems and Signal Pro essing
(BIOSIGNALS'12), February 2012.
• Z O, L. e COELHO, R. De omposição EMD para Real e da Voz om Ruídos Não-
Esta ionários. Anais do XXX Simpósio Brasileiro de Tele omuni ações
(SBrT'12), Setembro 2012.
• Z O, L. e COELHO, R. Real e EMDF e Treinamento em Múltiplas Condições A ús-
ti as para Identi ação de Lo utor Robusta a Ruídos Não-Esta ionários. Anais do
XXXI Simpósio Brasileiro de Tele omuni ações (SBrT'13), Setembro 2013.
107

Tese Zao 2013

Enviado por

Direitos autorais:

Formatos disponíveis

Tese Zao 2013

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Tese Zao 2013

Enviado por

Direitos autorais:

Formatos disponíveis

INSTITUTO MILITAR DE ENGENHARIA

REALCE DE SINAIS DE VOZ BASEADO NA

Tese de Doutorado apresentada ao Curso de Doutorado em

Orientador: Rosângela Fernandes Coelho - Do teur ENST

INSTITUTO MILITAR DE ENGENHARIA

Este exemplar é de propriedade do Instituto Militar de Engenharia, que poderá in luí-lo

É permitida a menção, reprodução par ial ou integral e a transmissão entre bibliote as

Os on eitos expressos neste trabalho são de responsabilidade do(s) autor(es) e do(s)

Tese (doutorado) - Instituto Militar de Engenharia - Rio de

1. Engenharia de defesa - teses. 2. Pro essamento de sinais. 3.

Tese de Doutorado apresentada ao Curso de Doutorado em Engenharia de Defesa do

Rosângela Fernandes Coelho - Do teur ENST do IME - Presidente

Vitor Heloiz Nas imento - Ph.D. da Poli/USP

Marley Maria Bernardes Rebuzzi Vellas o - Ph.D. da PUC/Rio

Luiz Wagner Pereira Bis ainho - D.S . da COPPE/UFRJ

Paulo Fernando Ferreira Rosa - Ph.D. do IME

2 REALCE DE SINAIS DE VOZ ................................ 24

3 MEDIDAS DE QUALIDADE E INTELIGIBILIDADE ......... 45

4 MÁSCARA ACÚSTICA PARA IDENTIFICAÇ O DE VARI-

5 CONCLUS O E TRABALHOS FUTUROS .................... 94

FIG.3.1 Espe trogramas de segmentos de 3 segundos de duração dos ruídos

1.1 ESTADO DA ARTE

1.1.1 REALCE DE SINAIS DE VOZ

As té ni as de real e propostas na literatura podem ser divididas em dois grupos. O

3 Por este motivo, estas té ni as serão denominadas espe trais.

1.1.2 IDENTIFICAÇ O ACÚSTICA DE EMOÇÕES

Durante a última dé ada, diversos estudos foram onduzidos om o objetivo de iden-

Os prin ipais objetivos deste trabalho são:

• Propor os resultados de identi ação automáti a de lo utor omo medida omple-

• Investigar o uso do atributo pH (SANT'ANA, 2006) para a representação a ústi a

1.3 RESULTADOS OBTIDOS

Os prin ipais resultados e ontribuições obtidos no desenvolvimento desta Tese são:

• Avaliação das té ni as de real e na tarefa de identi ação automáti a de lo utor.

• Utilização da proposta EMDH omo pós-real e para as té ni as espe trais

• Proposta do vetor pH omo atributo para representação a ústi a de emoções. Para

1.4 ORGANIZAÇ O DA TESE

O restante deste trabalho está organizado da seguinte forma:

• Capítulo 2: Neste Capítulo, são primeiramente introduzidas três té ni as espe -

• Capítulo 3: Os experimentos para avaliação da té ni a de real e EMDH são apre-

• Capítulo 4: Neste Capítulo, são apresentados os on eitos bási os sobre o atri-

• Capítulo 5: Finalmente, este Capítulo expõe as prin ipais on lusões e on-

2.1 TÉCNICAS ESPECTRAIS

As té ni as de real e de sinais de voz apresentadas nesta Seção apli am a transformada

Y (κ, τ ) = X(κ, τ ) + N (κ, τ ) , (2.1)

onde τ e κ representam os índi es de quadro e frequên ia, respe tivamente (LOIZOU,

2.1.1 SUBTRAÇ O ESPECTRAL

Em seguida, ada quadro τ do sinal realçado x̂(t) é re onstruído a partir da transfor-

X̂(κ, τ ) = |X̂(κ, τ )| eφy (κ,τ ) . (2.4)

X̂(κ, τ ) = GSS (κ, τ ) Y (κ, τ ) , (2.5)

FIG. 2.2: Relação entre o fator de subtração α e os valores de SNR a posteriori γ , em dB

2.1.2 TÉCNICA DE COHEN

onde δs ∈ [0, 1] é o parâmetro de suavização e W (i) é uma janela normalizada, tendo

Smin (κ, τ ) = min {S(κ, τ ′ ) | τ − Q + 1 ≤ τ ′ ≤ τ } . (2.12)

q̂(κ, τ ) = γ1 − γ̃min(κ, τ ) 1 < γ̂min(κ, τ ) ≤ γ1 (2.18)

Finalmente, um fator de ompensação multipli ativo é utilizado para estimar a versão

|N̂ (κ, τ )|2 = B |N̄ (κ, τ )|2 . (2.21)

onde o valor da SNR a priori é re ursivamente estimado por

ˆ τ ) = δLSA G2 (κ, τ − 1)γ(κ, τ − 1) + (1 − δLSA ) max {γ(κ, τ ) − 1, 0} .

Em (COHEN, 2003), foram denidos os valores típi os para os diversos parâmetros

2.1.3 FILTRAGEM DE WIENER COM ESTIMADOR UNB-MMSE

• Propor os resultados de identi ação automáti a de lo utor omo medida omple-

• Avaliação das té ni as de real e na tarefa de identi ação automáti a de lo utor.

Em (COHEN, 2003), foram denidos os valores típi os para os diversos parâmetros

A ideia é identi ar a primeira IMF, de índi e N + 1, uja média normalizada está

A té ni a EMDF (EMD-based ltering ) (CHATLANI, 2012) foi originalmente proposta

A FIG. 2.7 exempli a a estimação do expoente de Hurst onsiderando J = 3 es alas

onde q ∈ {0, . . . , Q − 1} representa o índi e dos quadros e Td a duração (xa) de ada

e o sinal de voz x̂(t) é nalmente dado por

Para o janelamento, são utilizadas K funções de Hermite (hk ) denidas em janelas de

Finalmente, o índi e de não-esta ionariedade é denido omo a razão entre a variân ia

onde Θ0 (j) e Θ1 são denidos por

Para o teste de não-esta ionariedade do sinal em análise, os autores deniram um