Tese Zao 2013
Tese Zao 2013
Tese Zao 2013
LEONARDO AUGUSTO Z O
Rio de Janeiro
2013
2013
Z34r Zão, L.
REALCE DE SINAIS DE VOZ BASEADO NA DE-
COMPOSIÇ O EMPÍRICA DE MODOS EM PRESENÇA
DE DISTORÇÕES ACÚSTICAS N O-ESTACIONÁRIAS /
Leonardo Augusto Zão. - Rio de Janeiro : Instituto Militar de
Engenharia, 2013.
107 p.: il.
CDD 621.3822
2
INSTITUTO MILITAR DE ENGENHARIA
LEONARDO AUGUSTO Z O
REALCE DE SINAIS DE VOZ BASEADO NA DECOMPOSIÇ O
EMPÍRICA DE MODOS EM PRESENÇA DE DISTORÇÕES ACÚSTICAS
N O-ESTACIONÁRIAS
Rio de Janeiro
2013
3
Àqueles que me a ompanharam nesta jornada.
4
AGRADECIMENTOS
À Prof. Rosângela Coelho, minha orientadora, por todo in entivo, obrança, pa iên ia
e amizade ao longo de todos estes anos, que foram essen iais para o desenvolvimento desta
Tese,
À minha esposa, Isabela, por todo o amor e pelo apoio in ondi ional para a realização
deste Doutorado,
Aos meus pais Fran is o e Lourdes, a meus irmãos Vini ius e Marianna, e a todos os
familiares que ompreenderam e me perdoaram pelo afastamento para dedi ação a este
urso,
Aos olegas Eloi, Rodrigo e demais membros do Laboratório de Pro essamento de
Sinais A ústi os, do IME, pela amizade que tornou a aminhada menos desgastante e
ainda mais prazerosa,
Ao Instituto Militar de Engenharia, instituição na qual já havia me graduado e obtido
o título de mestre, e que me propor ionou a realização deste urso de Doutorado,
A todos os professores e fun ionários do Instituto Militar de Engenharia, por ontri-
buirem direta e indiretamente para minha formação,
A Deus, por estar presente na minha vida, na minha família e nos meus estudos, e
por guiar sempre o meu aminho,
E à Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES), pelo
apoio nan eiro.
5
SUMÁRIO
LISTA DE ILUSTRAÇÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
LISTA DE TABELAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
RESUMO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
ABSTRACT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1 INTRODUÇ O . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1 Estado da Arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.1.1 Real e de Sinais de Voz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.1.2 Identi ação A ústi a de Emoções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.3 Resultados Obtidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4 Organização da Tese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
6
3.1.1 Índi e de Não-Esta ionariedade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2 Razão Sinal-Ruído Segmental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.2.1 Resultados de SegSNR para Real e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.2.2 Resultados de SegSNR para Pós-Real e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.3 Medida OQCM de Qualidade de Sinais de Voz . . . . . . . . . . . . . . . . . . . . . . . . 55
3.3.1 Resultados de OQCM para Real e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3.2 Resultados de OQCM para Pós-Real e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.4 SNR om Ponderação em Frequên ia para Inteligibilidade . . . . . . . . . . . . . . 60
3.4.1 Resultados de fwSegSNR para Real e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.4.2 Resultados de fwSegSNR para Pós-Real e . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.5 Medida Objetiva de Inteligibilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.6 Identi ação Automáti a de Lo utor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.6.1 Atributos A ústi os MFCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.6.2 Modelo GMM do Lo utor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.7 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7
5.2 Comentários Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
6 REFERÊNCIAS BIBLIOGRÁFICAS . . . . . . . . . . . . . . . . . . . . . . . . . . 98
APÊNDICE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
8
LISTA DE ILUSTRAÇÕES
FIG.2.1 Diagrama de blo os dos prin ipais omponentes das té ni as de
real e de sinais de voz espe trais, baseados na transformada de
Fourier. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
FIG.2.2 Relação entre o fator de subtração α e os valores de SNR a posteriori
γ , em dB (BEROUTI, 1979). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
FIG.2.3 Diagrama de blo os da de omposição empíri a de modos para ex-
tração das IMFs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
FIG.2.4 Forma de onda das in o primeiras IMFs extraídas da de omposição
de um segmento de um sinal de voz limpo de 0,5 s da base de voz
TIMIT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
FIG.2.5 Magnitude das IMFs obtidas pelo método EMD sobre um sinal fGn
om H = 0, 5 (ruído bran o) (FLANDRIN, 2004b). . . . . . . . . . . . . . . . . . 38
FIG.2.6 A linha ontínua indi a os valores de variân ia estimados das
amostras das IMFs de um sinal de voz limpo oletado da base
TIMIT. Na linha tra ejada, são apresentados os valores referentes
ao mesmo sinal de voz orrompido pelo ruído fábri a om SNR de
0 dB. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
FIG.2.7 Exemplo da estimação do expoente de Hurst utilizando J = 3 es-
alas de de omposição. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
FIG.2.8 A linha ontínua indi a os valores de H estimados das IMFs do
mesmo sinal de voz limpo da FIG. 2.6. Na linha tra ejada, são
apresentados os valores referentes ao mesmo sinal de voz or-
rompido pelo ruído fábri a om SNR de 0 dB. . . . . . . . . . . . . . . . . . . . . . . 42
9
FIG.3.3 In rementos de SegSNR (dB) obtidos om as té ni as de real e de
voz SS, Cohen, Wiener, EMDF, EMD-DT e a proposta EMDH. . . . . . . 52
FIG.3.4 In rementos de SegSNR (dB) obtidos om EMDF e EMDH omo
pós-real e das té ni as espe trais SS, Cohen e Wiener. . . . . . . . . . . . . . . 54
FIG.3.5 Comparação entre os in rementos médios de SegSNR (dB) obtidos
por diferentes té ni as de real e e pós-real e. . . . . . . . . . . . . . . . . . . . . . . . 55
FIG.3.6 In rementos na medida OQCM obtidos om as té ni as de real e
de voz SS, Cohen, Wiener, EMDF, EMD-DT e a proposta EMDH. . . . . 57
FIG.3.7 Comparação entre os in rementos médios de OQCM obtidos pelas
té ni as de real e. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
FIG.3.8 In rementos na medida OQCM obtidos om EMDF e EMDH omo
pós-real e das té ni as espe trais SS, Cohen e Wiener. . . . . . . . . . . . . . . 59
FIG.3.9 In rementos de fwSegSNR (em dB) obtidos om as té ni as de re-
al e de voz SS, Cohen, Wiener, EMDF, EMD-DT e a proposta
EMDH. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
FIG.3.10 In rementos de fwSegSNR (em dB) obtidos om EMDF e EMDH
omo pós-real e das té ni as espe trais SS, Cohen e Wiener. . . . . . . . . . 62
FIG.3.11 Comparação entre os in rementos médios de fwSegSNR obtidos
pelas té ni as de real e e pós-real e. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
FIG.3.12 Extração dos oe ientes MFCC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
FIG.4.1 Separação das emoções nos eixos de valên ia, potên ia e ativação
(YANG, 2010). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
FIG.4.2 Sinais de voz originados sob diferentes estados emo ionais: (a) neu-
tro, (b) feli idade, ( ) raiva e (d) tristeza (ILIEV, 2011). . . . . . . . . . . . . 74
FIG.4.3 Distribuição dos valores do expoente H para sinais de voz sob qua-
tro ondições emo ionais distintas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
FIG.4.4 Exemplo da extração de um vetor pH utilizando o estimador M-
dim-wav om J = 3 estágios de de omposição. . . . . . . . . . . . . . . . . . . . . . 80
FIG.4.5 Exemplo de diagrama em blo os da identi ação de 4 emoções (fe-
li idade, neutro, raiva e tristeza) utilizando a más ara a ústi a
binária. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
FIG.4.6 Diagrama de blo os da extração do atributo TEO-CB-Auto-Env. . . . . . . 87
10
LISTA DE TABELAS
TAB.3.1 Predição de taxas de a ertos (%) de inteligibilidade obtidos om os
resultados de STOI om o mapeamento determinado pela EQ. 3.26. . . . 66
TAB.3.2 Taxas de a ertos (%) nos experimentos de identi ação de lo utor
om as diferentes té ni as de real e. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
TAB.4.1 Cara terísti as das bases de voz adotadas nos experimentos de las-
si ação a ústi a de emoções. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
TAB.4.2 A urá ia na identi ação a ústi a de emoções (%) para a base
EMO-DB utilizando o vetor pH, sem más ara a ústi a. . . . . . . . . . . . . . . 88
TAB.4.3 A urá ia na identi ação a ústi a de emoções (%) para a base
EMO-DB utilizando os oe ientes MFCC, sem más ara a ústi a. . . . . . 88
TAB.4.4 A urá ia na identi ação a ústi a de emoções (%) para a base
EMO-DB utilizando o atributo TEO-CB-Auto-Env, sem más ara
a ústi a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
TAB.4.5 A urá ia na identi ação a ústi a de emoções (%) para a base
EMO-DB utilizando o vetor pH om a más ara a ústi a. . . . . . . . . . . . . . 89
TAB.4.6 A urá ia na identi ação de emoções (%) para a base EMO-DB
utilizando os oe ientes MFCC om a más ara a ústi a. . . . . . . . . . . . . 89
TAB.4.7 A urá ia na identi ação de emoções (%) para a base EMO-DB
utilizando atributo TEO-CB-Auto-Env om a más ara a ústi a. . . . . . . 89
TAB.4.8 Taxa de identi ação de situações de estresse (%) para a base
SUSAS utilizando o vetor pH, sem más ara a ústi a. . . . . . . . . . . . . . . . . 91
TAB.4.9 Taxa de identi ação de situações de estresse (%) para a base
SUSAS utilizando os oe ientes MFCC, sem más ara a ústi a. . . . . . . . 91
TAB.4.10 Taxa de identi ação de situações de estresse (%) para a base
SUSAS utilizando o atributo TEO-CB-Auto-Env, sem más ara
a ústi a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
TAB.4.11 Taxa de identi ação de situações de estresse (%) para a base
SUSAS utilizando o vetor pH om a más ara a ústi a. . . . . . . . . . . . . . . . 92
TAB.4.12 Taxa de identi ação de situações de estresse (%) para a base
SUSAS utilizando os oe ientes MFCC om a más ara a ústi a. . . . . . 92
11
TAB.4.13 Taxa de identi ação de situações de estresse (%) para a base
SUSAS utilizando o atributo TEO-CB-Auto-Env om a más ara
a ústi a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
12
RESUMO
Nesta Tese, são estudadas soluções para reduzir o efeito de distorções e variações
a ústi as em sinais de voz. Para tratar as distorções ausadas por ruídos a ústi os am-
bientais, é introduzida a té ni a de real e de sinais de voz EMDH. Esta proposta adota
a de omposição empíri a de modos e o expoente de Hurst para melhorar a qualidade e
a inteligibilidade de sinais de voz orrompidos por ruídos não-esta ionários. Com relação
às variações a ústi as, a nalidade é identi ar o estado emo ional do lo utor a partir do
sinal de voz. Para isto, são apresentadas duas soluções para melhor lassi ar as emoções:
o vetor de atributos pH e uma más ara a ústi a binária.
Para avaliação da té ni a proposta de real e, são utilizados ruídos oletados de diver-
sas fontes a ústi as e om diferentes índi es de não-esta ionariedade. A té ni a EMDH
aprimorou os resultados de quatro medidas objetivas, sele ionadas para avaliar a quali-
dade e a inteligibilidade dos sinais de voz. Cin o té ni as de real e existentes na literatura
são adotadas omo referên ia. A proposta EMDH al ançou os melhores resultados para a
maioria dos experimentos realizados, prin ipalmente para aqueles om ruídos altamente
não-esta ionários. Adi ionalmente, a té ni a proposta aprimorou a a urá ia de um sis-
tema de identi ação de lo utor, adotada neste trabalho omo medida omplementar para
a inteligibilidade dos sinais de voz.
Para a lassi ação de estados emo ionais pelo sinal de voz, o vetor pH é utilizado
omo atributo a ústi o tempo-frequên ia para representar as diferentes emoções. Já a
más ara a ústi a binária é proposta para remover as omponentes do sinal de voz que
não estejam rela ionadas om o estado emo ional. A avaliação destas propostas é realizada
om experimentos de identi ação a ústi a de emoções e de ondições reais de estresse
om duas bases distintas. Os resultados demonstram que a adoção tanto do vetor pH
quanto da más ara a ústi a aumenta as taxas de a ertos na identi ação de emoções.
Além disso, os melhores resultados foram al ançados om a utilização em onjunto das
duas propostas.
13
ABSTRACT
The main issue of this work is to redu e the ee ts of noise orruption and emotional
variation in spee h signals. The EMDH spee h enhan ement te hnique is proposed to
redu e or suppress the signals distortion aused by a ousti noises. The proposed te h-
nique adopts the empiri al mode de omposition and the Hurst exponent to improve the
quality and intelligibility of the noisy spee h signals. Regarding the variation in emotional
spee h, the main goal is to identify whi h emotion ae ts the speaker. The pH feature
ve tor and a binary a ousti mask are proposed for the spee h emotion lassi ation.
The spee h enhan ement evaluation experiments are ondu ted with spee h signals
orrupted with a ousti noises from dierent sour es and with dierent indi es of nonsta-
tionarity. The EMDH te hnique improves the results of four obje tive measures, adopted
to evaluate the spee h signals in terms of both quality and intelligibility. For omparison,
ve other te hniques are also onsidered in the experiments. The proposed te hnique
leads to the best results for most of the noise s enarios onsidered in the experiments,
mainly for the highly nonstationary noises. Additionally, the EMD also a hieves the best
a ura y in a speaker identi ation system.
Con erning the spee h emotion lassi ation, the pH ve tor is adopted as a time-
frequen y feature to represent the variations in emotional spee h. The binary a ousti
mask is proposed to remove the spe tro-temporal regions of the spee h signals that are
not related to the speaker's emotional state. The pH and the a ousti mask are evaluated
in spee h emotion identi ation experiments ondu ted in two dierent databases. The
results show that both proposals are interesting to improve the emotion identi ation
rates. Moreover, the best results are a hieved with the adoption of both proposals.
14
1 INTRODUÇ O
A voz tem sido objeto de diversos estudos na área de pro essamento de sinais. Além de
ser onsiderado o meio mais natural de omuni ação entre seres humanos, o sinal de voz é
aptado de maneira relativamente simples e não-intrusiva om a te nologia atual. Por ser
o sinal a ústi o resultante do sistema de produção da fala (OSHAUGHNESSY, 1987), a
voz ontém informações que in luem a identidade, o sexo, o idioma e as ondições físi o-
emo ionais do lo utor. O avanço desta área de pesquisa impulsionou o desenvolvimento
de diversas apli ações, tais omo a odi ação e a síntese da voz (KLEIJN, 1995), e
o re onhe imento de voz (RABINER, 1989, 1993) e de indivíduos (OSHAUGHNESSY,
1987; CAMPBELL, 1997). Um dos prin ipais desaos da área de pro essamento de voz
é evitar a degradação destes sistemas quando os sinais de voz são submetidos a efeitos
de distorções por ruídos ou de variações a ústi as pelo estado emo ional do lo utor. As
distorções, por exemplo, podem levar à redução de mais de 80 pontos per entuais na taxa
média de a ertos de um sistema de identi ação de lo utor (MING, 2007; Z O, 2011).
Os resultados de identi ação também sofrem degradação devido às variações a ústi as
de orrentes das emoções (CAVALCANTE, 2011; SHAHIN, 2013).
A bus a por soluções para reduzir o efeito das distorções e variações a ústi as em sinais
de voz é de fundamental importân ia para a área de pesquisa. Para tratar as distorções
ausadas pelos ruídos a ústi os, o real e de sinais de voz é estudado desde a dé ada de
1970 (BOLL, 1979). O objetivo das té ni as de real e é aprimorar os aspe tos per eptuais
do sinal de voz (LOIZOU, 2007b), tais omo a qualidade1 e a inteligibilidade2. Um dos
desaos é que os ruídos são oriundos de diferentes fontes a ústi as (avião, balbúrdia,
arro, trem) e possuem ara terísti as que variam ao longo do tempo, ou seja, são não-
esta ionários. Com relação às variações a ústi as, a nalidade é identi ar, a partir
do sinal de voz, qual o estado emo ional (feli idade, raiva, tédio, tristeza) do lo utor
(COWIE, 2001; AYADI, 2011). Cabe ressaltar que, omo as alterações no sistema de
1A qualidade do sinal de voz é normalmente avaliada em testes subjetivos para medir o des onforto
ausado pelo ruído a ústi o ao usuário.
2A inteligibilidade está rela ionada ao orreto entendimento da mensagem transmitida pelo sinal de
voz e, geralmente, é medida pela taxa de a ertos das palavras ou sentenças.
15
produção da fala, provo adas pelas emoções, variam ao longo do tempo, estas variações
emo ionais também são onsideradas não-esta ionárias.
Algumas das prin ipais ontribuições e propostas existentes na literatura para real e
de sinais de voz e identi ação a ústi a de emoções estão su intamente apresentadas nesta
Seção.
16
quadráti o (MMSE - minimum mean-square error ) da magnitude dos oe ientes espe -
trais. Na proposta apresentada em (EPHRAIM, 1985), o método MMSE foi apli ado
sobre o logaritmo da magnitude dos oe ientes espe trais (LSA - log-spe tral amplitude ).
Em (SCALART, 1996), o espe tro do sinal de voz foi estimado utilizando ltro de Wiener
om ganho multipli ativo denido pela razão sinal-ruído (SNR - signal-to-noise ratio )
a priori (MACAULAY, 1980). Já em (COHEN, 2001), a té ni a que minimiza o LSA
(EPHRAIM, 1985) foi modi ada para abranger o on eito de in erteza de presença de
voz, originando a proposta OMLSA (optimally-modied LSA). Além destes, outros algorit-
mos têm sido apresentados para estimação do espe tro do sinal de voz baseada no método
MMSE (MARTIN, 2005; ERKELENS, 2007; ANDRIANAKIS, 2009). Apesar do grande
número de té ni as de real e, a supressão e iente do ruído nestas propostas está sempre
ondi ionada à orreta estimação das omponentes do ruído. Os métodos lássi os de es-
timação são omumente baseados na hipótese de que os ruídos são esta ionários (BOLL,
1979). Contudo, um dos prin ipais desaos onsiste em estimar, de maneira pre isa, o es-
pe tro de ruídos não-esta ionários (EPHRAIM, 1984; COHEN, 2001; MANOHAR, 2006;
GERKMANN, 2012). Para ontornar tal di uldade, diversos algoritmos foram propostos
para estimação do ruído mesmo em longos segmentos onde há presença de voz (MARTIN,
2001; COHEN, 2003; HENDRIKS, 2010; GERKMANN, 2012). No entanto, mesmo as
propostas mais re entes não se mostraram apazes de estimar elmente as os ilações de
ruídos altamente não-esta ionários (GERKMANN, 2012).
No onjunto de té ni as de real e que utilizam a análise tempo-frequên ia, as mais
tradi ionais são aquelas baseadas em wavelets (DONOHO, 1994, 1995). Após a de om-
posição do sinal de voz, a ideia é eliminar os oe ientes wavelet se as suas amplitudes
estão abaixo de um determinado limiar (DONOHO, 1995). Um limitante para o uso de
wavelets é que as suas funções base, utilizadas na de omposição do sinal, são xas. Assim,
é ne essário avaliar se estas funções são apropriadas para a de omposição de ada tipo
de sinal, o que nem sempre é possível (KHALDI, 2008). Em (HUANG, 1998), a de om-
posição empíri a de modos (EMD - empiri al mode de omposition ) foi proposta omo uma
forma não-linear e adaptativa para análise de sinais não-esta ionários. Diferentemente das
wavelets, o método EMD resulta em um onjunto de funções intrínse as de modo (IMF
- intrinsi mode fun tions ) que são totalmente dependentes do próprio sinal, ou seja, as
bases não são xas. A de omposição via EMD foi avaliada em diversas propostas de real e
17
(FLANDRIN, 2004a; KHALDI, 2008) e pós-real e5 (HASAN, 2009; CHATLANI, 2012).
Ao ontrário das té ni as espe trais, o real e baseado no método EMD não ne essita de
uma estimativa explí ita para as omponentes do ruído.
Em (FLANDRIN, 2004a), foi apresentada uma das primeiras propostas baseadas no
método EMD para eliminar o ruído de sinais de naturezas diversas, a té ni a EMD-DT
(EMD-based detrending ). Para isto, o sinal ruidoso é ini ialmente analisado om o método
EMD, e as médias das IMFs resultantes são al uladas para sele ionar quais modos são
predominantemente ompostos por ruído. Os modos restantes são então somados para
re onstruir a versão realçada do sinal. Espe i amente para sinais de voz, duas propostas
de real e foram apresentadas em (KHALDI, 2008). Uma delas (EMD-MMSE) apli a l-
tros sobre ada uma das IMFs obtidas pela de omposição do sinal, que são posteriormente
somadas para re ompor o sinal de voz. Na segunda proposta (EMD-shrinkage ), limiares
são utilizados para sele ionar e eliminar as IMFs que estejam mais orrompidas por ruí-
dos. Apesar de apresentarem resultados mais interessantes que té ni as de real e baseadas
em wavelets (KHALDI, 2008), ambas as propostas EMD-MMSE e EMD-shrinkage são
limitadas a sinais de voz orrompidos por ruído Gaussiano bran o. Já as propostas de
pós-real e EMD-SRN (EMD-based suppression of residual noise ) (HASAN, 2009) e EMDF
(EMD-based ltering ) (CHATLANI, 2012) foram apli adas sobre sinais previamente re-
alçados por té ni as espe trais. Ambas identi am as IMFs mais orrompidas baseadas
em um estudo dos seus valores de variân ia. As té ni as de pós-real e EMDF e EMD-SRN
foram avaliadas om sinais orrompidos pelo ruído balbúrdia, sendo a EMDF aquela que
obteve os resultados de medidas de qualidade mais interessantes.
Para avaliar as té ni as de real e propostas na literatura, geralmente são onsidera-
das apenas medidas de qualidade da voz. Apesar de testes subjetivos per eptuais serem
a forma mais onável para avaliação da qualidade de um sinal de voz, estes são fre-
quentemente substituídos por medidas objetivas (QUACKENBUSH, 1988; RIX, 2001;
HU, 2008; BISPO, 2010). Uma medida é onsiderada satisfatória quando ela possui alta
orrelação om os resultados per eptuais de qualidade obtidos de testes subjetivos (HU,
2008). Entretanto, medidas utilizadas para avaliar a qualidade da voz não ne essaria-
mente apresentam boa representação do grau de inteligibilidade (LOIZOU, 2007b; HU,
2008). De fato, té ni as de real e podem melhorar a qualidade dos sinais de voz e, ao
5 Té ni as de pós-real e são aquelas utilizadas para eliminar ou reduzir o ruído residual de um sinal
de voz previamente pro essado por outra té ni a de real e.
18
mesmo tempo, degradar, por exemplo, as taxas de a ertos de palavras (LOIZOU, 2007b).
Assim, para avaliar as té ni as de real e om relação à inteligibilidade, são ne essárias me-
didas objetivas distintas daquelas originalmente propostas para representar a qualidade.
A bus a e denição por medidas om tais ara terísti as, assim omo (TAAL, 2011), ainda
é um dos prin ipais objetivos da área de pro essamento de voz.
Nesta Tese, é apresentada uma proposta de real e baseada no método EMD para su-
pressão de ruídos a ústi os ambientais om ara terísti as não-esta ionárias. Na presente
proposta, após a de omposição via EMD, utiliza-se o expoente de Hurst (HURST, 1951)
omo ritério para identi ar e sele ionar quais modos são mais orrompidos por ruídos.
A té ni a é avaliada em termos de qualidade e inteligibilidade utilizando quatro medidas
objetivas, nas ondições de real e e pós-real e. Os ruídos onsiderados nos experimen-
tos possuem diferentes índi es de não-esta ionariedade (INS - index of nonstationarity )
(BORGNAT, 2010). Além disso, experimentos de identi ação de lo utor são adotados
omo medida omplementar de inteligibilidade para avaliar o algoritmo proposto. Cin o
té ni as de real e existentes na literatura foram utilizadas omo referên ia na avaliação
da proposta EMDH. Três destas té ni as são espe trais: a subtração espe tral (BOLL,
1979), a té ni a de Cohen (COHEN, 2001, 2003) e a té ni a baseada na ltragem de
Wiener (SCALART, 1996; GERKMANN, 2012). As outras duas são baseadas no método
EMD: EMDF (CHATLANI, 2012) e EMD-DT (FLANDRIN, 2004a).
19
base de voz, do idioma do lo utor e de outras de suas ara terísti as (SCHULLER, 2009).
Outras propostas de atributos a ústi os foram introduzidas em (ZHOU, 2001), baseadas
no operador Teager de energia (TEO - Teager energy operator ) (KAISER, 1990). O
TEO é um operador não-linear apaz de representar o perl de energia das interações
uxo-vórti es que seriam responsáveis pela formação do som no interior do trato vo al
(TEAGER, 1990). Assim, os atributos apresentados em (ZHOU, 2001) foram propostos
para representar as alterações no padrão de energia destas interações ausadas pelos es-
tados emo ionais. Um outro onjunto de atributos são aqueles que aptam a informação
da ex itação glotal (ROTHENBERG, 1973; BROOKES, 2006; ILIEV, 2011). Apesar de
aptarem a ontribuição das emoções sobre as vibrações das ordas vo ais (QUATIERI,
2001), estes atributos têm sido pou o utilizados na literatura (KOOLAGUDI, 2012).
Nesta Tese, o vetor de expoentes de Hurst (pH) (SANT'ANA, 2006) é proposto omo
atributo tempo-frequên ia para representar as diferentes emoções. O vetor pH apta as
orrelações de alta ordem entre as amostras do sinal de voz, e está rela ionado om as
informações de ex itação glotal. O objetivo da adoção do pH é aumentar as taxas de
a ertos na identi ação a ústi a de emoções em omparação a outros atributos existentes
na literatura (DAVIS, 1980; ZHOU, 2001). Com esta mesma nalidade, é proposta ainda
a utilização de uma más ara a ústi a binária para remover as omponentes do sinal de
voz que não são diretamente rela ionadas om as emoções. Desta forma, atinge-se maior
separabilidade entre os estados emo ionais, levando a um aumento nas taxas de a ertos,
e aprimoramento da qualidade do sinal de voz.
1.2 OBJETIVOS
• Propor uma té ni a para real e de sinais de voz orrompidos por ruídos a ústi os
ambientais. Para isto, a de omposição empíri a de modos é apli ada sobre os sinais
ruidosos. Em seguida, o expoente de Hurst (H ) é utilizado para identi ar as IMFs
ompostas predominantemente por ruídos. Nesta proposta, denominada EMDH,
os modos onsiderados livres de ruído são nalmente utilizados na re onstrução do
sinal de voz.
• Avaliar a té ni a EMDH para sinais de voz distor idos por ruídos de distintas
fontes a ústi as reais. Os ruídos a ústi os apresentam diferentes índi es de não-
20
esta ionariedade. Para a avaliação da té ni a proposta, são adotadas quatro medi-
das objetivas que apresentam alta orrelação om a qualidade e a inteligibilidade da
voz.
• Propor uma más ara a ústi a binária para aprimorar a identi ação a ústi a de
emoções. Nesta proposta, as regiões espe tro-temporais que não estão rela ionadas
om a presença da emoção são identi adas e removidas do sinal de voz. Assim, os
sinais resultantes atingem maior grau de dis riminação entre os diferentes estados
emo ionais, aumentando as taxas de a ertos.
• Proposta de uma té ni a de real e para sinais de voz orrompidos por ruídos a ús-
ti os reais não-esta ionários. Os resultados obtidos nos experimentos de real e
demonstraram que a té ni a proposta EMDH aprimorou quatro medidas objeti-
vas utilizadas para avaliar a qualidade e a inteligibilidade dos sinais de voz. Em
omparação às té ni as utilizadas omo referên ia, a proposta EMDH apresentou os
melhores resultados para a maioria dos experimentos, prin ipalmente para os ruídos
om maiores valores de INS, ou seja, ruídos altamente não-esta ionários.
21
dos experimentos. Em geral, os resultados obtidos om os algoritmos baseados no
método EMD foram superiores àqueles al ançados om as abordagens espe trais.
• Adoção da más ara a ústi a binária para a lassi ação a ústi a de emoções. Os
resultados demonstraram que, om o vetor pH e om os oe ientes mel- epstrais,
a más ara a ústi a aprimorou as taxas de a ertos da identi ação de emoções para
ambas as bases adotadas nos experimentos.
22
fontes a ústi as reais. Ini ialmente, apresenta-se a denição e os resultados de INS
(BORGNAT, 2010) para os ruídos sele ionados. Em seguida, as té ni as de real e
são avaliadas om quatro medidas objetivas: razão sinal-ruído segmental (SegSNR -
segmental SNR ), uma medida omposta de qualidade de voz (LOIZOU, 2007b), SNR
segmental om ponderação em frequên ia (fwSegSNR - frequen y-weighted SNR )
(HU, 2008) e a medida objetiva de inteligibilidade em tempo urto (STOI - short-
time obje tive intelligibility ) (TAAL, 2011). Finalmente, as té ni as são avaliadas
também na tarefa de identi ação automáti a de lo utor.
23
2 REALCE DE SINAIS DE VOZ
A supressão das distorções ausadas por ruídos a ústi os ambientais é de grande in-
teresse para a área de pro essamento de sinais. Com o objetivo de remover ou reduzir
os efeitos ausados pelos ruídos aditivos, a maioria das soluções de real e utilizam a
STFT para estimar o espe tro do ruído. Nestas abordagens, as omponentes do ruído
são subtraídas ou ompensadas do espe tro do sinal de voz para, em seguida, utilizar-se
a transformada inversa de Fourier e re onstruir o sinal limpo no domínio do tempo. Um
dos prin ipais desaos da área onsiste em estimar as estatísti as dos ruídos a ústi os
reais quando suas ara terísti as variam ao longo do tempo, ou seja, quando os ruídos são
não-esta ionários (MANOHAR, 2006).
Os métodos lássi os para estimação do espe tro do ruído são geralmente baseados
em dete tores de atividade de voz (VAD - voi e a tivity dete tor ) (BOLL, 1979). Nestes
asos, as omponentes ruidosas são estimadas a partir de segmentos do sinal onde não há
presença da voz. Apesar de apresentarem resultados satisfatórios em situações de ruídos
esta ionários, estes métodos tornam-se impre isos quando as omponentes espe trais do
ruído variam ao longo do tempo. A di uldade em a ompanhar as variações das estatís-
ti as dos ruídos torna-se ainda mais grave em longos segmentos om atividade de voz, ou
para elevados valores de SNR (MANOHAR, 2006).
Durante a última dé ada, alguns algoritmos foram propostos para estimação do espe -
tro de ruídos mesmo durante a atividade da voz. Dentre estes estimadores, desta am-se o
de estatísti as mínimas (MS - minimum statisti s ) (MARTIN, 2001) e o método IMCRA
(improved minima ontrolled re ursive averaging ) (COHEN, 2003), ujas estimativas para
um determinado quadro são baseadas na observação de uma erta quantidade de quadros
anteriores. Conforme dis utido em (MANOHAR, 2006), esta ne essidade de observação de
momentos passados torna ambos os algoritmos lentos no a ompanhamento das variações
espe trais de ruídos não-esta ionários. Re entemente, o método de estimação UnB-MMSE
(unbiased minimum mean-square error ) (GERKMANN, 2012), baseado na minimização
de erro médio quadráti o, foi proposto para aptar om menor tempo de resposta as vari-
ações espe trais dos ruídos não-esta ionários. Contudo, os resultados apresentados em
(GERKMANN, 2012) mostraram que nenhum destes estimadores é apaz de a ompanhar
24
elmente estas os ilações.
Nos últimos anos, té ni as baseadas na análise tempo-frequên ia têm sido introduzidas
na literatura para o real e de sinais de voz utilizando a de omposição empíri a de modos
(HUANG, 1998). O método EMD foi proposto omo uma forma não-linear e adaptativa
para análise tempo-frequên ia de sinais não-esta ionários. Diferentemente dos métodos
espe trais, o real e baseado no EMD não ne essita da estimação explí ita das estatísti-
as dos ruídos a ústi os, nem que os sinais analisados sejam esta ionários. Além disso,
a utilização do EMD apresenta vantagens em relação a outro método tempo-frequên ia
tradi ional, a análise wavelets (DONOHO, 1995). Com wavelets, a de omposição é re-
alizada utilizando funções base xas, que não ne essariamente onseguem representar o
sinal de voz (KHALDI, 2008). Outra di uldade da de omposição wavelet é a es olha das
funções base que são mais apropriadas para um determinado tipo de sinal. Já no método
EMD, os modos ou IMFs obtidos da de omposição são totalmente dependentes do sinal.
Assim, a análise om EMD é adaptativa, o que garante a perfeita re onstrução do sinal
pela soma dos modos obtidos na de omposição.
Neste Capítulo, são apresentadas algumas das prin ipais té ni as para real e de sinais
de voz em situações de ruídos a ústi os não-esta ionários. Primeiramente, são abordadas
duas té ni as espe trais: a proposta de Cohen (COHEN, 2001, 2003) e a baseada na
ltragem de Wiener (SCALART, 1996). A té ni a lássi a de subtração espe tral (BOLL,
1979) também é apresentada pois será utilizada omo referên ia para os experimentos
de real e de sinais de voz desenvolvidos nesta Tese. Em seguida, são introduzidas as
té ni as tempo-frequên ia EMD-DT (FLANDRIN, 2004a) e EMDF (CHATLANI, 2012).
Finalmente, será apresentada a proposta de real e de sinais de voz EMDH. O prin ipal
objetivo da proposta é prover ganhos tanto de qualidade quanto de inteligibilidade aos
sinais de voz orrompidos por ruídos a ústi os não-esta ionários.
25
FIG. 2.1: Diagrama de blo os dos prin ipais omponentes das té ni as de real e de sinais
de voz espe trais, baseados na transformada de Fourier.
aditivo η(t). Então, pode-se es rever y(t) = x(t) + η(t). Se Y (κ, τ ), X(κ, τ ) e N (κ, τ )
representam a STFT de y(t), x(t) e η(t), respe tivamente, pode-se es rever
A subtração espe tral é baseada na hipótese de ruído aditivo, e propõe que a estimativa
do espe tro do sinal limpo pode ser obtida subtraindo-se a estimativa do espe tro do
ruído do espe tro do sinal de voz orrompido. Na proposta original (BOLL, 1979), o
autor onsidera que o ruído é esta ionário e propõe a estimação e atualização de suas
omponentes apenas nos momentos em que não há presença de voz. Finalmente, o espe tro
estimado para o sinal de voz limpo é utilizado juntamente om a informação de fase do
sinal orrompido para re onstruir o sinal de voz.
Considere a separação em magnitude e fase obtida pela forma polar da STFT do sinal
orrompido,
Y (κ, τ ) = |Y (κ, τ )| eφy (κ,τ ) . (2.2)
26
Na té ni a SS (BOLL, 1979), a magnitude do sinal limpo é obtida por
(
|Y (κ, τ )| − |N̂ (κ, τ )| , se |Y (κ, τ )| > |N̂ (κ, τ )|,
|X̂(κ, τ )| = (2.3)
0 , aso ontrário.
As EQS. 2.3 e 2.4 impli am que o espe tro do sinal realçado pode ser obtido a partir
do sinal orrompido por um ganho multipli ativo GSS (κ, τ ),
onde ( )
|N̂ (κ, τ )|
GSS (κ, τ ) = max 1 − ,0 . (2.6)
|Y (κ, τ )|
Na literatura (MACAULAY, 1980), as razões sinal-ruído a posteriori γ(κ, τ ) e a priori
ξ(κ, τ ) são denidas por
|Y (κ, τ )|2 E {|X(κ, τ )|2 }
γ(κ, τ ) = ; ξ(κ, τ ) = , (2.7)
E {|N (κ, τ )|2} E {|N (κ, τ )|2}
onde E {·} representa o operador esperança ou expe tân ia. Considerando a estimação
do ruído |N̂ (κ, τ )|2 = E {|N (κ, τ )|2 }, pode-se es rever o ganho de SS da EQ. 2.6 da
seguinte forma6
1
GSS = max 1 − √ , 0 . (2.8)
γ
Em (BEROUTI, 1979), os autores propuseram alterações na subtração espe tral
denida pela EQ. 2.3. No lugar da subtração em magnitude, foi onsiderada a subtração
em potên ia. Além disso, foi in luída a utilização de dois fatores, α e β , para diminuir o
ruído residual. O espe tro de potên ia do sinal realçado é dado por
n o
|X̂(κ, τ )|2 = max |Y (κ, τ )|2 − α(κ, τ ) |N̂ (κ, τ )|2 , β |N̂ (κ, τ )|2 . (2.9)
6 NaEQ. 2.8, os índi es de quadro e frequên ia foram omitidos para melhor visualização. O mesmo
pro edimento será adotado em outras equações ao longo deste trabalho, mas nun a quando houver na
equação a o orrên ia de índi es distintos, omo no exemplo da EQ. 2.11.
27
α
−5 5 10 15 20 γ (dB)
O fator α(κ, τ ) ≥ 1 tem o objetivo de ompensar a subtração espe tral nas regiões de
frequên ia onde o espe tro do ruído é subestimado, diminuindo assim o ruído residual.
Já o parâmetro 0 < β ≪ 1 dene um limiar mínimo para a atenuação do ruído, evitando
distorções nas regiões onde a energia do ruído possui ordem de grandeza igual ou superior
à energia do sinal de voz. Em (BEROUTI, 1979), foi ainda denida uma relação para
o fator de subtração α(κ, τ ) dependendo do valor de SNR a posteriori : quanto menor
o valor de SNR maior será a ompensação. Desta forma, onsiderando o valor de SNR
a posteriori em dB e omitindo os índi es κ e τ , os valores de α(κ, τ ) são denidos em
(BEROUTI, 1979) por
4, 75
, γ(dB) < −5,
α= 4− 3
γ
20 (dB)
, −5 < γ(dB) < 20, (2.10)
, γ(dB) > 20.
1
A FIG. 2.2 mostra a relação entre os valores do fator de subtração e os valores de SNR
a posteriori, denida na EQ. 2.10.
A partir da estimação do espe tro do sinal de voz limpo, dada pela EQ. 2.9, a re-
onstrução do sinal no domínio do tempo é novamente realizada utilizando a informação
de fase do sinal orrompido. Nos experimentos realizados ao longo desta Tese, foi onsi-
derada a subtração espe tral denida pelas EQS. 2.9 e 2.10, om β = 0, 01 (BEROUTI,
1979).
A segunda té ni a espe tral para real e de sinais de voz avaliada nesta Tese foi intro-
duzida por Cohen em (COHEN, 2001) e (COHEN, 2003). Nesta abordagem, o método
28
IMCRA (COHEN, 2003) é primeiramente utilizado para estimar o espe tro de potên ia do
ruído. Após esta estimação, o sinal de voz é re onstruído utilizando o algoritmo OMLSA
(COHEN, 2001), que minimiza o erro médio quadráti o do logaritmo da magnitude es-
pe tral.
O estimador IMCRA é omposto de duas iterações. Cada uma delas possui uma etapa
de suavização do espe tro de potên ia do sinal ruidoso seguida de uma bus a por suas
estatísti as mínimas7 (MARTIN, 2001). Ao nal da primeira iteração, um VAD é denido
para ada quadro e para ada índi e de frequên ia. Na segunda, este VAD é apli ado para
aprimorar a bus a pelas estatísti as mínimas e aumentar a robustez da estimação do ruído
nos segmentos onde há presença de voz.
A primeira iteração omeça om a apli ação da STFT sobre o sinal de voz orrompido.
Em seguida, uma versão suavizada de |Y (κ, τ )|2 na frequên ia (Sf (κ, τ )) e no tempo
(S(κ, τ )) é obtida por
Sf (κ, τ ) = w 2
P
i=−w W (i)|Y (κ − i, τ )| ,
(2.11)
S(κ, τ ) = δ S(κ, τ − 1) + (1 − δ )S (κ, τ ) ,
s s f
para o espe tro de potên ia do ruído pode ser obtida pelos valores mínimos de S(κ, τ ) em
um onjunto de Q quadros passados,
Assim, onsidera-se que em pelo menos um dentre estes Q quadros passados, a voz
estará ausente, e
−1
E |N (κ, τ )|2 , (2.13)
E {Smin (κ, τ )} = Bmin
onde Bmin é um fator de orreção de tendên ia (bias ) que pode ser determinado de
maneira empíri a. Para determinar o VAD na primeira iteração, são denidas as seguintes
7A bus a por estatísti as mínimas foi proposta em (MARTIN, 2001) para estimar o espe tro de
potên ia do ruído a ústi o presente no sinal de voz. Esta estimação baseia-se na hipótese de que, quando
observado ao longo de um determinado período de tempo, o espe tro de potên ia do sinal orrompido
frequentemente de ai para valores próximos do espe tro do próprio ruído (LOIZOU, 2007a).
29
grandezas
∆ |Y (κ, τ )|2
γmin(κ, τ ) = ;
Bmin Smin (κ, τ )
(2.14)
∆ S(κ, τ )
ζ(κ, τ ) = .
Bmin Smin (κ, τ )
A de isão sobre a ausên ia ou presença de voz, em ada quadro e índi e de frequên ia,
é dada por
γmin(κ, τ ) < γ0
1, se (voz está ausente)
I(κ, τ ) = e ζ(κ, τ ) < ζ0 (2.15)
aso ontrário (voz está presente)
0,
Na segunda iteração, um novo espe tro suavizado S̃f (κ, τ ) é denido utilizando apenas
as regiões do sinal orrompido onde o algoritmo não dete tou atividade da voz, isto é,
I(κ, τ ) = 1, Pw
W (i)I(κ − i, τ )|Y (κ − i, τ )|2
S̃f (κ, τ ) = i=−wPw ,
i=−w W (i)I(κ − i, τ ) (2.16)
S̃(κ, τ ) = δ S̃(κ, τ − 1) + (1 − δ )S̃ (κ, τ ) .
s s f
Caso o denominador da equação que al ula S̃f (κ, τ ) seja nulo, esta é substituída por
S̃f (κ, τ ) = S̃f (κ, τ − 1). A partir de S̃f (κ, τ ), as grandezas S̃min (κ, τ ), γ̃min(κ, τ ) e ζ̃(κ, τ )
são denidas de forma análoga às EQS. 2.12 e 2.14.
Sejam H0 (κ, τ ) e H1 (κ, τ ) as hipóteses de ausên ia e presença de voz, respe tivamente,
no quadro τ e no índi e de frequên ia κ. Em (COHEN, 2003), a probabilidade ondi ional
∆
de presença de voz p(κ, τ ) = P (H0 (κ, τ )|γ(κ, τ )) foi deduzida omo
−1
q(κ, τ )
p(κ, τ ) = 1 + (1 + ξ(κ, τ )) exp {v(κ, τ )} , (2.17)
1 − q(κ, τ )
∆
onde v = γξ/(ξ + 1) e a probabilidade a priori de ausên ia de voz, q(κ, τ ) =
P (H0 (κ, τ )), pode ser estimada por
γ̂min(κ, τ ) ≤ 1
se
1, ;
e
ζ̂(κ, τ ) < ζ 0
30
A partir da probabilidade p(κ, τ ), o espe tro de potên ia do ruído do próximo quadro
(|N̄ (κ, τ + 1)|2) é re ursivamente estimado por
|N̄ (κ, τ + 1)|2 = δ̃η (κ, τ )|N̄ (κ, τ )|2 + [1 − δ̃η (κ, τ )]|Y (κ, τ )|2 , (2.19)
onde δ̃η (κ, τ ) é um parâmetro de suavização variável que depende de p(κ, τ ) (EQ. 2.14)
e de uma onstante δη ∈ [0, 1],
∆
δ̃η (κ, τ ) = δη + (1 − δη )p(κ, τ ) . (2.20)
Após a apli ação do estimador IMCRA (EQS. 2.11 a 2.21), o algoritmo OMLSA
é utilizado para obter o espe tro do sinal de voz |X̂(κ, τ )|. O OMLSA é uma versão
modi ada do estimador LSA (EPHRAIM, 1985), ujo objetivo é minimizar o erro médio
quadráti o entre o logaritmo das magnitudes espe trais dos sinais de voz limpo e realçado,
2
Emin log |X(κ, τ )| − log |X̂(κ, τ )| . (2.22)
O ganho GOMLSA (κ, τ ) a ser apli ado sobre o espe tro do sinal de entrada é dado por
(COHEN, 2001)
1−p(κ,τ )
GOMLSA (κ, τ ) = {GLSA (κ, τ )}p(κ,τ ) Gmin , (2.23)
onde a probabilidade ondi ional de presença de voz é al ulada pela EQ. 2.17 e o
limiar mínimo Gmin para o ganho orresponde a -25 dB. Já o ganho do estimador LSA foi
deduzido em (EPHRAIM, 1985) omo
Z ∞
e−t
ξ(κ, τ ) 1
GLSA (κ, τ ) = exp dt , (2.24)
1 + ξ(κ, τ ) 2 v(κ,τ ) t
31
onsiderando taxa de amostragem de 16 kHz, a mesma utilizada nos experimentos apre-
sentados nesta Tese. Para os limiares das EQS. 2.15 e 2.18, foram sugeridos γ0 = 4, 6,
ζ0 = 1, 67 e γ1 = 3. O valor de γ1 está rela ionado om o fator de ompensação da EQ.
2.21 por
γ1 − 1 − e−1 + e−γ1
B= , (2.26)
γ1 − 1 − 3e−1 + (γ1 + 2)e−γ1
resultando em B = 1, 47. Já os oe ientes de suavização das EQS. 2.20 e 2.25 foram
determinados omo δη = 0, 85 e δLSA = 0, 92, respe tivamente.
Outra té ni a de real e de sinais de voz abordada nesta Tese utiliza o estimador UnB-
MMSE (GERKMANN, 2012) para estimar as omponentes espe trais do ruído. Estas
omponentes são suprimidas do espe tro do sinal de voz utilizando a ltragem de Wiener
(WIENER, 1949) baseada na estimação da SNR a priori denida em (SCALART, 1996).
Diferentemente do IMCRA e de outros métodos baseados no MS, o estimador UnB-
MMSE não ne essita aptar informações de vários quadros passados para a estimação do
espe tro do ruído. Isto permite que o UnB-MMSE apresente menor atraso na aptação
das variações espe trais dos ruídos não-esta ionários.
O estimador UnB-MMSE é baseado na minimização de erros médios quadráti os pro-
posta em (HENDRIKS, 2010). Naquele trabalho, os autores assumiram a hipótese de
que os oe ientes espe trais tanto do ruído quanto do sinal de voz possuem distribuição
Gaussiana (HENDRIKS, 2010). Assim, foi deduzido o estimador MMSE para o valor do
o periodograma do ruído |N (κ, τ )|2 ,
2
ξˆ
1
2
|N̂ |2 ,
|Y |2 + (2.27)
E |N | |Y =
1+ξˆ 1+ξˆ
onde os índi es de quadro e frequên ia foram novamente omitidos. A estimação do espe tro
de potên ia do ruído então pode ser atualizada de um quadro para outro pela relação
re ursiva
|N̂ (κ, τ )|2 = αp |N̂ (κ, τ − 1)|2 + (1 − αp ) E |N (κ, τ )|2 |Y (κ, τ ) . (2.28)
32
Para resolver a EQ. 2.29, as probabilidades ondi ionais são denidas omo
ξopt
−1
−γ̂(κ,τ ) 1+ξ
P (H1 |Y (κ, τ )) = 1 + (1 + ξopt )e opt (2.30)
e P (H0 |Y (κ, τ )) = 1 − P (H1 |Y (κ, τ )). Considerando que, em quadros onse utivos,
o espe tro do ruído possui variação menor que o da voz, os autores estimaram o valor
da SNR a posteriori γ̂(κ, τ ) adotando o espe tro de potên ia do ruído obtido no quadro
anterior,
|Y (κ, τ )|2
γ̂(κ, τ ) = . (2.31)
|N̂ (κ, τ − 1)|2
O valor onsiderado ótimo para a SNR a priori, ξopt na EQ. 2.30, foi denido omo
15 dB (GERKMANN, 2012). Diferentemente do estimador MMSE proposto em (HEN-
DRIKS, 2010), a utilização da in erteza de presença de voz em (GERKMANN, 2012)
tornou desne essário o fator de ompensação para a estimação do espe tro de potên ia
da ruído. Esta é ainda outra importante vantagem do UnB-MMSE sobre o estimador
IMCRA.
Logo após a estimação das omponentes espe trais do ruído, o espe tro do sinal de voz
é obtido pela té ni a baseada no ltro de Wiener apresentada em (SCALART, 1996). O
ltro de Wiener foi onsiderado um estimador ótimo8 que adota as mesmas hipóteses do
estimador UnB-MMSE. Ou seja, que os oe ientes espe trais do ruído e do sinal de voz
obede em a distribuições Gaussianas. Nesta abordagem, o ganho de Wiener GW (κ, τ ),
apli ado sobre o espe tro do sinal orrompido, é dado por (SCALART, 1996)
ξ(κ, τ )
GW (κ, τ ) = . (2.32)
1 + ξ(κ, τ )
8O ltro de Wiener é ótimo no sentido de minimizar o erro médio quadráti o dos oe ientes espe trais
estimados para o sinal de voz limpo.
33
2.2 TÉCNICAS BASEADAS NO MÉTODO EMD
Conforme abordado na Seção anterior, o prin ipal desao das té ni as espe trais para
real e de sinais voz é a supressão de ruídos a ústi os om ara terísti as não-esta ionárias.
Como o método de de omposição empíri a de modos não possui qualquer restrição quanto
à esta ionariedade do sinal analisado, esta forma de de omposição tem sido utilizada
em diversas propostas para real e de sinais de voz. Além disso, a maioria das té ni as
baseadas no EMD não ne essita da estimação explí ita das estatísti as do ruído. Nesta
Seção, são apresentadas duas destas té ni as: EMD-DT (FLANDRIN, 2004a) e EMDF
(CHATLANI, 2012). Antes de dis utir os detalhes de ada uma delas, serão introduzidos
os on eitos referentes ao método de de omposição EMD.
A de omposição empíri a de modos foi proposta em (HUANG, 1998) omo uma forma
não-linear para análise de sinais não-esta ionários. O método resulta em um onjunto de
funções intrínse as de modo (IMF), que são inteiramente dependentes do sinal analisado,
e um resíduo.
Considere um sinal y(t) ontendo dois máximos lo ais onse utivos nos pontos t− e
t+ . Para valores de t no intervalo t− ≤ t ≤ t+ , pode-se denir uma omponente de altas
frequên ias do sinal que passa por estes máximos e pelo mínimo lo al que existe entre eles.
Desta omponente, hamada de detalhe d(t), identi a-se uma omponente de tendên ia
lo al ou resíduo r(t), tal que
Uma IMF é denida pelo onjunto das omponentes de detalhes, quando a de om-
posição é apli ada sobre todo o sinal y(t). O sinal residual é denido pelo onjunto de
todas as omponentes de tendên ia lo al. Apli ando-se repetidamente o pro edimento so-
bre o sinal residual, hega-se a um onjunto de IMFs e a um resíduo de baixas frequên ias.
O algoritmo para o método EMD apli ado sobre um sinal y(t) pode ser dividido nos
seguintes passos (HUANG, 1998) (FLANDRIN, 2004b):
a) Identi ar todos os extremos de y(t), ou seja, os pontos de máximo ymax (t) e mínimo
ymin (t) lo ais;
34
b) Obter as envoltórias emax (t) e emin (t), apli ando interpolação9 nos pontos de máximo
e mínimo, respe tivamente;
) Cal ular o resíduo omo a média entre as envoltórias: r(t) = (emin (t) + emax (t)) /2;
Por denição (HUANG, 1998), toda IMF deve obede er às seguintes propriedades:
• O valor médio denido pelas envoltórias dos seus máximos e mínimos deve ser nulo.
onde IMFm (t), 1 ≤ m ≤ M, são as funções de detalhes d(t) obtidas no passo (d) de ada
iteração, e r(t) é o sinal residual obtido na última iteração.
A partir do algoritmo da de omposição, é possível veri ar que o número de extremos
(máximos e mínimos lo ais) diminui de uma IMF para a próxima. Isto signi a que,
lo almente, as primeiras IMFs possuem os ilações mais rápidas (altas frequên ias) que as
IMFs de maior índi e. Este fenmeno pode ser veri ado na Fig. 2.4, que mostra a forma
de onda das in o primeiras IMFs extraídas de um tre ho de 0,5 s de uma lo ução limpa
da base de voz TIMIT (GAROFOLO, 1993). Em (FLANDRIN, 2004b), foi demonstrado
35
FIG. 2.3: Diagrama de blo os da de omposição empíri a de modos para extração das
IMFs.
que, quando apli ado sobre sinais representados por um pro esso esto ásti o fGn (fra -
tional Gaussian noise ), o método EMD de ompõe o sinal em IMFs ujas omponentes
espe trais são equivalentes às saídas de um ban o de ltros diádi os11 om sobreposição
de bandas passantes. A FIG. 2.5 (FLANDRIN, 2004b) ilustra a resposta em frequên ia
das IMFs obtidas da de omposição de um sinal fGn om expoente de Hurst12 H = 0, 5,
que orresponde a um ruído Gaussiano bran o.
Em ada uma das té ni as de real e baseadas na análise tempo-frequên ia apresentadas
nesta Tese, o método EMD é primeiramente utilizado para de ompor o sinal de voz em
um número nito de IMFs. Em seguida, um ritério de seleção é utilizado para identi ar
quais IMFs são predominantemente ompostas por ruídos. Como os ruídos a ústi os
estão geralmente on entrados nas baixas frequên ias (VOSS, 1978; KESHNER, 1982;
Z O, 2012a), a re onstrução do sinal de voz é então realizada utilizando as N IMFs de
menor índi e,
N
X
ỹ(t) = IMFm (t), om N < M . (2.36)
m=1
11 Num ban o de ltros diádi os, o primeiro ltro é passa-alta om banda passante igual à metade da
banda do sinal. Os demais são ltros passa-faixas, om banda passante orrespondente à metade superior
da banda rejeitada pelo ltro anterior.
12 O expoente de Hurst será formalmente des rito na Seção 2.3.
36
FIG. 2.4: Forma de onda das in o primeiras IMFs extraídas da de omposição de um
segmento de um sinal de voz limpo de 0,5 s da base de voz TIMIT.
2.2.2 EMD-DT
E{IMFm (t)}
Med(m) = p . (2.37)
E{IMF2m (t)}
37
FIG. 2.5: Magnitude das IMFs obtidas pelo método EMD sobre um sinal fGn om H = 0, 5
(ruído bran o) (FLANDRIN, 2004b).
Nos experimentos realizados ao longo deste trabalho, o valor do limiar foi empiri a-
mente denido omo ζEMD = 2.
2.2.3 EMDF
38
0,5
0,4
Variância
0,3
0,2
0,1
0
1 3 5 7 9
ordem da IMF
FIG. 2.6: A linha ontínua indi a os valores de variân ia estimados das amostras das IMFs
de um sinal de voz limpo oletado da base TIMIT. Na linha tra ejada, são apresentados
os valores referentes ao mesmo sinal de voz orrompido pelo ruído fábri a om SNR de 0
dB.
quando orrompidos por ruídos a ústi os de baixas frequên ias, nota-se um a rés imo nos
valores das variân ias para os modos ou IMFs om índi es mais altos. Na linha tra ejada
da FIG. 2.6, são apresentados os valores das variân ias obtidas do mesmo sinal de voz,
mas agora orrompido pelo ruído a ústi o fábri a, oletado da base NOISEX-92 (VARGA,
1993), para SNR de 0 dB. Como pode-se observar, a presença do ruído fábri a leva a um
pi o de variân ia na sétima IMF. Assim, o objetivo da té ni a EMDF é identi ar qual o
índi e (N ) de IMFs é mais apropriado para utilizar na re onstrução do sinal de voz (EQ.
2.36).
Em (CHATLANI, 2012), o algoritmo proposto para a es olha deste índi e N foi des-
rito om os seguintes passos:
) Identi ar, se houver, o índi e do primeiro pi o (mp ) tal que Var(mp ) > Var(mp − 1)
e Var(mp ) > Var(mp + 1), tal que mp > 4;
e) Re onstruir o sinal de voz de a ordo om a EQ. 2.36, onde N = max {mv , 4}.
39
Note que o índi e N es olhido pelo algoritmo da té ni a EMDF é aquele referente ao
último vale anterior ao primeiro pi o. Contudo, onforme dis utido na Seção anterior,
pelo menos quatro IMFs devem ser utilizadas na re onstrução, de forma a não suprimir
os omponentes do próprio sinal de voz. Em (CHATLANI, 2012), o EMDF aprimorou os
resultados de medidas objetivas para sinais de voz orrompidos por três ruídos a ústi os
reais. Contudo, o aprimoramento obtido om o ruído não-esta ionário balbúrdia foi sig-
ni ativamente inferior aos outros dois ruídos. Nesta Tese, a té ni a EMDF é avaliada
não apenas omo pós-real e, mas também é apli ada diretamente sobre os sinais de voz
orrompidos por ruídos.
Na proposta EMDH de real e de sinais de voz apresentada nesta Tese, a prin ipal
ontribuição é o ritério de seleção para a identi ação das IMFs a serem removidas do
sinal orrompido por ruído. Este ritério é baseado na estimação do expoente de Hurst
(H )13 (HURST, 1951) de ada IMF. Além disso, tanto a seleção quanto a re onstrução
do sinal de voz, são realizadas quadro a quadro, de forma a identi ar as variações nas
ara terísti as do ruído ao longo do tempo. Antes da des rição da té ni a EMDH, são
apresentados os prin ipais on eitos do expoente H , bem omo o estimador baseado em
wavelets (VEITCH, 1999) adotado neste trabalho.
Seja o sinal de voz representado por um pro esso esto ásti o y(t), om função auto-
orrelação normalizada denida por
E {(y(t) − µy )(y(t + k) − µy )}
ρ(k) = , (2.39)
σy2
onde µy e σy2 são a média e a variân ia de y(t), respe tivamente. O expoente de Hurst
(0 ≤ H ≤ 1) é denido pela taxa de de aimento de ρ(k), que possui omportamento
assintóti o dado por
O valor de H está rela ionado om as ara terísti as espe trais de y(t). Conforme
demonstrado em (MANDELBROT, 1968), a densidade espe tral de potên ia (DEP, Sy (f ))
40
de y(t), denida pela transformada de Fourier de ρ(k), é propor ional a f 1−2H quando
f → 0. Ou seja,
Sy (f ) = F {ρ(k)} ∝ f 1−2H , f → 0, (2.41)
b) Estimação da Variân ia: para ada es ala j , al ular a variân ia dos oe ientes de
detalhes por σj2 = (1/Nj ) n d(j, n)2 , onde Nj é o número de oe ientes disponíveis
P
para d(j, n). Em (VEITCH, 1999), foi demonstrado que E[σj2 ] = CH j 2H−1 , onde CH
é uma onstante.
41
Filtro d (1,n )
2 σ2 σ12
Passa−Banda
2 = Decimador
Filtro
2 a (3,n )
Passa−Baixa
σ2 = Estimador de Variância
0,8
Hurst
0,6
0,4
0,2
1 3 5 7 9
ordem da IMF
FIG. 2.8: A linha ontínua indi a os valores de H estimados das IMFs do mesmo sinal
de voz limpo da FIG. 2.6. Na linha tra ejada, são apresentados os valores referentes ao
mesmo sinal de voz orrompido pelo ruído fábri a om SNR de 0 dB.
42
2.3.2 SELEÇ O DE IMF E RECONSTRUÇ O DO SINAL DE VOZ
Após a de omposição do sinal de voz ruidoso y(t) em M modos, onforme a EQ. 2.35,
ada uma das IMFs é dividida em quadros, não sobrepostos, de urta duração,
(
IMFm (t + qTd ) , t ∈ [0, Td ] ,
w-IMFm,q (t) = (2.42)
0 , aso ontrário,
Em seguida, determina-se a última IMF janelada ujo valor estimado de H está abaixo
de um determinado limiar Hlim. Se Nq representa este índi e desta IMF janelada, pode-se
es rever que Hq (Nq ) < Hlim.
Cada quadro do sinal de voz realçado x̂q (t) é então re onstruído omo
Nq
X
x̂q (t) = w-IMFm,q (t), q = 0, . . . , Q − 1 , (2.44)
m=1
O valor do limiar Hlim determina uma relação de ompromisso entre a par ela do
ruído de baixas frequên ias que será removida e a distorção ausada pela supressão das
omponentes do próprio sinal de voz. Se Hlim é muito próximo de 1, apenas uma pequena
parte do ruído a ústi o será suprimido do sinal de voz. Em ontrapartida, para valores de
Hlim distantes de 1, digamos Hlim ≤ 0, 8, uma par ela onsiderável do sinal de voz passa a
ser retirada juntamente om o ruído. Embora outros valores de Hlim possam ser adotados,
em todos os experimentos onduzidos nesta Tese foi onsiderado o limiar Hlim = 0, 9. Este
valor foi adotado omo uma forma de remover uma par ela do ruído sem deteriorar o sinal
de voz.
Nesta Tese, a proposta EMDH é também apli ada omo uma solução de pós-real e
onsiderando as té ni as espe trais SS (BOLL, 1979), Cohen (COHEN, 2001, 2003) e
Wiener (SCALART, 1996; GERKMANN, 2012).
43
2.4 RESUMO
44
3 MEDIDAS DE QUALIDADE E INTELIGIBILIDADE
14 Re omendação ITU-T P.862 (2000), "Per eptual evaluation of spee h quality (PESQ): An obje tive
method for end-to-end spee h quality assessment of narrow-band telephone networks and spee h ode s ".
45
de diferentes fontes a ústi as foi avaliada em (LOIZOU, 2007b). Nos experimentos om
testes subjetivos, apesar do aprimoramento da qualidade do sinal de voz, per ebeu-se que
as té ni as de real e degradaram as taxas de a ertos de palavras e sentenças. Por este
motivo, o uso de medidas objetivas, tais omo a medida objetiva de inteligibilidade em
tempo urto (STOI - short-time obje tive intelligibility ) (TAAL, 2011), é ne essário para
avaliar de maneira e iente a inteligibilidade dos sinais de voz.
No presente Capítulo, medidas objetivas rela ionadas à qualidade e à inteligibilidade
do sinal de voz são adotadas para avaliar a té ni a de real e EMDH introduzida nesta Tese.
A té ni a proposta é omparada om in o algoritmos de real e, sendo três espe trais (SS,
Cohen e Wiener), e outros dois métodos baseados na análise tempo-frequên ia (EMDF e
EMD-DT). A razão sinal-ruído segmental e a medida OQCM (overall quality omposite
measure ) (HU, 2006) são utilizadas para avaliar os sinais de voz em termos de qualidade.
Em relação à inteligibilidade, adota-se a razão sinal-ruído om ponderação em frequên ia
(fwSegSNR - frequen y-weighted SNR ) (HU, 2008) e a medida STOI (TAAL, 2011).
Na avaliação da té ni a EMDH proposta, os experimentos são realizados om seis
ruídos a ústi os ambientais, om diferentes índi es de não-esta ionariedade (BORGNAT,
2010). Os experimentos de real e são divididos em dois onjuntos. Primeiramente, as
té ni as de real e são apli adas diretamente nos sinais de voz orrompidos pelos ruídos
a ústi os. Em um segundo momento, as té ni as EMDH e EMDF são apli adas nos sinais
de voz previamente realçados pelos métodos espe trais SS, Cohen e Wiener. O objetivo
é avaliar o desempenho do EMDH também omo uma té ni a de pós-real e.
Ainda neste Capítulo, é proposto o uso de um sistema de identi ação automáti a de
lo utor para omplementar a avaliação das té ni as de real e em termos de inteligibilidade.
Para isto, os sinais de voz realçados são utilizados nos experimentos de identi ação de
lo utor. A ideia é averiguar se as té ni as de real e onseguem aprimorar os resultados
de identi ação em relação àqueles obtidos om os sinais ruidosos sem real e.
46
foram utilizados seis ruídos ambientais extraídos de diferentes fontes a ústi as: balbúrdia,
britadeira, fábri a, heli óptero, serra elétri a e trem. Estes ruídos foram es olhidos pois
possuem diferentes valores de INS e espe trogramas om formas distintas. Os ruídos
balbúrdia e fábri a foram oletados da base NOISEX-9215 (VARGA, 1993); heli óptero
e trem da base Freesound.org16 . Finalmente, os ruídos britadeira e serra elétri a foram
sele ionados da base Freesfx. o.uk17 . Para os experimentos de real e, os ruídos foram
adi ionados aos sinais limpos em in o valores distintos de razão sinal-ruído: 10 dB, 5
dB, 0 dB, -5 dB e -10 dB.
A FIG. 3.1 apresenta os espe trogramas de segmentos de 3 s dos ruídos adotados nos
experimentos. Note que os ruídos balbúrdia e fábri a possuem omponentes espe trais
ao longo de toda a faixa de frequên ias 0 - 4 kHz. Já o espe trograma do ruído trem
o upa, prin ipalmente, a faixa 0 - 2,5 kHz. Contudo, no intervalo entre 2 s e 3 s, tam-
bém é possivel notar alta energia para as mais altas frequên ias. Quanto ao ruído serra
elétri a, nota-se a o orrên ia de harmni os no espe tro de frequên ias. Estes harmni os
são denidos pelas rotações do motor do próprio equipamento. A mudança no perl do
espe trograma do ruído britadeira deve-se à diminuição brus a nas rotações do motor do
equipamento em um instante próximo de 1 s. Assim, enquanto no primeiro segundo do
ruído britadeira toda a banda do sinal de voz é o upada, para o restante do tempo a en-
ergia está on entrada apenas nas baixas frequên ias. Finalmente, observa-se que o ruído
heli óptero é predominantemente omposto por pulsos de urta duração, on entrados
nas frequên ias abaixo de 2 kHz.
47
(a) (b)
( ) (d)
(e) (f)
FIG. 3.1: Espe trogramas de segmentos de 3 segundos de duração dos ruídos (a) balbúrdia,
(b) britadeira, ( ) fábri a, (d) heli óptero (e) serra elétri a, e (f) trem.
pode-se es rever
X[k] = A[k] exp(i φ[k]) , (3.1)
48
titaper ) de x(t), que é denido por
K
1 X (hk )
Sx,K (t, f ) = S (t, f ) . (3.3)
K k=1 x
onde
g(t) = exp −t2 /2 . (3.5)
n o
(h )
Na EQ. 3.3, Sx k , k = 1, 2, . . . , K são os K espe trogramas de x(t) obtidos por
Z 2
Sx(hk ) (t, f ) = x(s)hk (s − t)e −i2πf s
ds . (3.6)
Assim, se os espe trogramas (EQS. 3.3, 3.4 e 3.6) são avaliados em diversos pontos
t1 , t2 , . . . , tNp , a média dos espe trogramas de x(t) é onstruída segundo
Np
1 X
hSx,K (tn , f )in := Sx,K (tn , f ) . (3.7)
Np n=1
(3.8)
(x)
cn := DKL Sx,K (tn , .), hSx,K (tn , .)in , n = 1, . . . , N ,
onde a medida de distân ia DKL (·, ·) para duas funções G(f ), H(f ) é dada por
G(f )
Z
DKL (G, H) := (G(f ) − H(f )) log df . (3.9)
H(f )
Ω
De maneira análoga à EQ. 3.8, dene-se o onjunto de valores das distân ias DKL
obtidos de todos os referen iais esta ionários,
(3.10)
(x̃j )
cn := DKL Sx̃j ,K (tn , .), Sx̃j ,K (tn , .) n , n = 1, . . . , N , j = 1, 2, . . . , J .
49
40 80
30 60
INS
INS
20 40
10 20
0 0
0,1 0,2 0,3 0,4 0,5 0.1 0.2 0.3 0.4 0.5
T /T Th / T
h
(a) (b)
8 2.5
6 2
INS
INS
4 1.5
2 1
0 0.5
0,1 0,2 0,3 0,4 0,5 0,1 0,2 0,3 0,4 0,5
Th / T Th / T
( ) (d)
150 30
100 20
INS
INS
50 10
0 0
0.1 0.2 0.3 0.4 0.5 0,1 0,2 0,3 0,4 0,5
Th / T Th / T
(e) (f)
FIG. 3.2: Os valores de INS obtidos de segmentos de 3 s de duração dos ruídos a ústi os
(a) balbúrdia, (b) britadeira, ( ) fábri a, (d) heli óptero, (e) serra elétri a, e (f) trem.
As linhas tra ejadas indi am os valores orrespondentes do limiar γ para os testes de
esta ionariedade.
50
resultados de INS demonstram que os ruídos balbúrdia, britadeira, fábri a, serra elétri a e
trem são não-esta ionários para todas as es alas de tempo. Note que os ruídos balbúrdia,
britadeira, serra elétri a e trem apresentam valores de INS muito superiores ao limiar de
não-esta ionariedade. Assim, estes quatro ruídos são onsiderados omo altamente não-
esta ionários, segundo o ritério INS > 10 γ aqui adotado. Já os valores de INS do ruído
fábri a são sempre menores que 8, sendo portanto este ruído onsiderado omo moder-
adamente não-esta ionário. Finalmente, o ruído heli óptero possui valores de INS abaixo
do limiar para a maioria das es alas de tempo. Isto indi a que ele pode ser onsiderado
um ruído predominantemente esta ionário. É interessante notar também que os valores
de INS da FIG. 3.2(d) representam os impulsos de urta duração que ara terizam o ruído
heli óptero (vide FIG. 3.1).
onde Td representa a quantidade de amostras de ada quadro, Tsh é o deslo amento (em
amostras) entre quadros onse utivos e Q é o total de quadros. Um poten ial problema
de orrente da denição da EQ. 3.14 é que, para quadros onde não há atividade de voz,
o logaritmo al ulado dentro do somatório resulta em valores muito pequenos (≪ −10
dB), omprometendo o ál ulo nal do somatório. De maneira análoga, segmentos onde
a energia do sinal de voz é muito maior do que a energia do ruído podem resultar em
valores muito altos para o logaritmo (≫ 35 dB). Para evitar este problema, os valores
de ada par ela do somatório são limitados ao intervalo [−10dB, 35dB] (HANSEN, 1998).
Assim, evita-se a ne essidade de um dete tor de atividade da voz.
51
EMDH EMD−DT EMDF
Cohen Wiener SS
Incremento de SegSNR (dB)
1 2
0 0
-10 -5 0 5 10 -10 -5 0 5 10
SNR [dB] SNR [dB]
Incremento de SegSNR (dB)
0 0
-10 -5 0 5 10 -10 -5 0 5 10
SNR [dB] SNR [dB]
Incremento de SegSNR (dB)
6
6 fábrica helicóptero
4
4
2 2
0 0
-10 -5 0 5 10 -10 -5 0 5 10
SNR [dB] SNR [dB]
18 Denições análogas de in remento também são utilizadas nas demais medidas objetivas.
52
baseados no EMD para a maioria das ondições de ruídos. Mesmo omparado om as
té ni as espe trais (SS, Cohen e Wiener), o EMDH também obtém os maiores in rementos
de SegSNR em experimentos om três ruídos altamente não-esta ionários, ou seja, serra
elétri a, balbúrdia e trem. Em parti ular, o desempenho superior da té ni a EMDH pode
ser notado para SNR > 0 dB, onde ela atinge os maiores valores para todos os ruídos não-
esta ionários, ex eto o ruído britadeira. Na média, os melhores resultados das té ni as
estudadas foram al ançados om os ruídos britadeira e fábri a, onde as té ni as EMDH e
Cohen atingiram in remento médio de SegSNR a ima de 4 dB.
Considerando apenas as té ni as espe trais, nota-se que a de Cohen obteve os melho-
res resultados para a maioria dos experimentos. Para os resultados om esta té ni a, é
interessante ressaltar que, enquanto o aprimoramento médio para o ruído serra elétri a se
aproxima de 1 dB, este valor é de er a de 4 dB para os ruídos fábri a e heli óptero, om os
menores valores de INS. Esta diferença pode ser expli ada pela impre isão das estimativas
do estimador IMCRA para ruídos altamente não-esta ionários. Contudo, é interessante
ressaltar que mesmo a té ni a Wiener, que utiliza um estimador do espe tro do ruído
om menor tempo de resposta ou atraso, também apresenta valores menores de SegSNR
quando existem grandes variações no espe tro de potên ias dos ruídos. Adi ionalmente,
abe observar que as té ni as espe trais obtêm bom desempenho para o ruído altamente
não-esta ionário britadeira. Isto pode ser expli ado pela brus a variação no seu espe tro
(vide FIG. 3.1(b)) o orrer apenas em torno do instante 1 s. Assim, antes e depois deste
instante, os estimadores IMCRA (Cohen) e UnB-MMSE (Wiener) onseguem a ompa-
nhar om erta pre isão o espe tro do ruído, levando a um in remento médio de SegSNR
mais elevado que nos demais ruídos altamente não-esta ionários.
A FIG. 3.4 mostra os in rementos de SegSNR om EMDH e EMDF apli adas sobre os
sinais de voz previamente realçados om as té ni as SS, Cohen e Wiener. Neste enário
de pós-real e, é possível observar que a té ni a EMDH apresentou, em geral, maiores
in rementos de SegSNR que a EMDF para todos os ruídos nos diferentes enários de pós-
real e. Assim omo nos resultados apresentados na FIG. 3.3, em geral, a té ni a espe tral
de Cohen obteve melhores resultados quando omparada om a SS e a Wiener. Esta
on lusão pode ser mais laramente observada nos resultados om os ruídos britadeira,
balbúrdia, fábri a e heli óptero.
53
Incremento de SegSNR (dB) 4 7
0 0
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
8 7
Incremento de SegSNR (dB)
7 fabrica 6 helicoptero
6 5
5
4
4
3
3
2 2
1 1
0 0
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
FIG. 3.4: In rementos de SegSNR (dB) obtidos om EMDF e EMDH omo pós-real e
das té ni as espe trais SS, Cohen e Wiener.
54
6
Cohen + EMDH
EMDH
5
0
helicóptero fábrica trem balbúrdia britadeira serra
Ruído
FIG. 3.5: Comparação entre os in rementos médios de SegSNR (dB) obtidos por diferentes
té ni as de real e e pós-real e.
55
OQCM é des rita omo uma ombinação linear entre PESQ, LLR e WSS,
onde ~ac e ~ap são os vetores formados pelos oe ientes de predição linear do sinal de
voz limpo e do sinal realçado, respe tivamente, e Rc é a matriz de auto orrelação do sinal
limpo.
Para o ál ulo da medida WSS, os sinais de voz limpo e realçado são primeiramente
divididos em Q quadros de urta duração. A magnitude do espe tro de ada quadro τ do
sinal limpo (|X(j, τ )|) e realçado (|X̂(j, τ )|) é al ulada a partir da divisão da sua banda
de frequên ias em K = 25 sub-bandas utilizando ltros om formato Gaussiano, sendo
j o índi e das sub-bands (j = 1, . . . , 25). A medida WSS é obtida em ada quadro por
uma soma ponderada entre as diferenças das magnitudes do espe tro (em dB) do sinal
al uladas em bandas adja entes. Ou seja, se
(
Sx (j, τ ) = |X(j + 1, τ )|(dB) − |X(j, τ )|(dB) ; e
(3.17)
Sx̂ (j, τ ) = |X̂(j + 1, τ )|(dB) − |X̂(j, τ )|(dB) ,
56
EMDH EMD−DT EMDF
Cohen Wiener SS
Incremento de OQCM (x 10 )
Incremento de OQCM (x 10 )
3 7
-1
-1
2 6 britadeira
1 5
4
0
3
-1
2
-2 1
-3 0
serra elétrica
-4 -1
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
Incremento de OQCM (x 10 )
Incremento de OQCM (x 10 )
2 2
-1
-1
balbúrdia trem
1
0 1
-1
-2 0
-3
-4 -1
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
Incremento de OQCM (x 10 )
Incremento de OQCM (x 10 )
7 7
-1
-1
6 fábrica 6 helicóptero
5 5
4 4
3 3
2 2
1 1
0 0
-1 -1
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
57
5
EMDH
4
Incremento de OQCM (x 10 )
Cohen
-1
EMDF
3 Wiener
-1
-2
helicóptero fábrica trem balbúrdia britadeira serra
Ruído
prin ipalmente para SNR < 0 dB. Para a té ni a SS, tal fenmeno o orre para todas as
fontes de ruído om SNR de -10 dB. Esta degradação não o orre om nenhuma das té ni-
as EMDF ou EMDH. Isto indi a que o EMD é de fato interessante para prover melhora
na qualidade do sinal de voz, mesmo em situações de ruídos altamente não-esta ionários.
Para os ruídos britadeira, fábri a e heli óptero, o melhores resultados foram obtidos om
a té ni a de Cohen para a maioria dos valores de SNR. Mais uma vez abe ressaltar que,
mesmo para estes ruídos, a proposta EMDH apresentou os maiores in rementos para as
ondições mais severas, ou seja, SNR < 0 dB.
Os resultados médios de in remento de OQCM obtidos om as té ni as SS, Cohen,
EMDF e EMDH estão ilustrados na FIG. 3.7. Note que, enquanto a té ni a de Cohen
apresenta o melhor resultado para os ruídos heli óptero, fábri a e britadeira, a mesma
leva aos menores in rementos para os ruídos trem, balbúrdia e serra elétri a. De maneira
semelhante ao resultado apresentado na FIG. 3.5, a té ni a EMDH apresenta o maior
ganho para os três ruídos altamente não-esta ionários: trem, balbúrdia e serra elétri a.
Além disso, o desempenho médio da proposta EMDH é superior às té ni as EMDF e
Wiener para quase todos os ruídos. A úni a ex eção é o ruído fábri a, no qual EMDH e
Wiener al ançam o mesmo in remento médio de OQCM.
58
Incremento de OQCM (x 10 )
Incremento de OQCM (x 10 )
-1 2 7
-1
6 britadeira
1
5
0 4
-1 3
-2 2
1
-3 serra eletrica 0
-4 -1
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
Incremento de OQCM (x 10 )
Incremento de OQCM (x 10 )
2 2
-1
-1
balburdia trem
1
1
0
-1
0
-2
-3 -1
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
Incremento de OQCM (x 10 )
Incremento de OQCM (x 10 )
6 7
-1
-1
5 fabrica 6 helicoptero
4 5
3 4
2 3
1 2
0 1
-1 0
-2 -1
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
FIG. 3.8: In rementos na medida OQCM obtidos om EMDF e EMDH omo pós-real e
das té ni as espe trais SS, Cohen e Wiener.
A FIG. 3.8 apresenta os in rementos da medida OQCM para EMDH e EMDF adotadas
omo pós-real e para as té ni as espe trais. O pós-real e om a té ni a Cohen atingiu
os melhores resultados apenas para os ruídos heli óptero, fábri a e britadeira. Para os
demais, o maior aprimoramento nos resultados de OQCM foi obtido om os onjuntos
Wiener+EMDH (serra elétri a e trem) e SS+EMDH (ruído balbúrdia). Mais uma vez,
os in rementos obtidos om EMDH foram, em geral, maiores que aqueles om a té ni a
EMDF para quase todos os ruídos. Os úni os experimentos nos quais EMDF e EMDH
obtiveram resultados semelhantes omo pós-real e foi para a té ni a de Cohen para os
59
ruídos balbúrdia e fábri a, além de SS+EMDH e SS+EMDF para o ruído balbúrdia.
e, por este motivo, esta denição também é adotada nos experimentos elaborados
nesta Tese. Assim omo na avaliação de SegSNR, os valores de SNR al ulados em ada
quadro e em ada sub-banda, são limitados ao intervalo [−10dB, 35dB].
60
EMDH EMD−DT EMDF
Cohen Wiener SS
Incremento de fwSegSNR (dB)
0 1
0
britadeira
-1 -1
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
Incremento de fwSegSNR (dB)
0 1
-1 0
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
Incremento de fwSegSNR (dB)
3 3
fábrica helicóptero
2 2
1 1
0 0
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
A úni a ex eção foi o ruído esta ionário heli óptero, onde EMDF apresentou melhores
resultados para três valores de SNR: -5 dB, 0 dB e 5 dB. Contudo, os resultados médios
foram similares para este ruído: 1,33 dB para EMDF e 1,31 dB para EMDH. Os melhores
resultados om estas té ni as foram obtidos para o ruído britadeira, ujo in remento de
fwSegSNR al ançou mais de 2 dB tanto para EMDF quanto para a proposta EMDH.
Quando omparada om as té ni as de real e espe trais, a proposta EMDH obteve
os maiores in rementos para três ruídos mais altamente não-esta ionários: balbúrdia,
britadeira e serra elétri a. Nestes asos, a proposta EMDH apresentou o maior aprimora-
mento para todos os valores de SNR. Para estas mesmas fontes ruidosas, e também para
61
Incremento de SegSNR (dB) 2 4
-1 0
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
1 3
Incremento de SegSNR (dB)
-1 0
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
3 3
Incremento de SegSNR (dB)
2 2
1 1
fabrica helicoptero
0 0
-10 -5 0 5 10 -10 -5 0 5 10
SNR (dB) SNR (dB)
FIG. 3.10: In rementos de fwSegSNR (em dB) obtidos om EMDF e EMDH omo pós-
real e das té ni as espe trais SS, Cohen e Wiener.
o ruído fábri a, a té ni a Wiener obteve maior ganho de fwSegSNR que os demais algo-
ritmos espe trais. A té ni a de Cohen obteve os melhores resultados para a maioria dos
valores de SNR apenas om os ruídos heli óptero e trem. Adi ionalmente, é interessante
notar que a té ni a EMDH foi a úni a que melhorou os resultados de fwSegSNR para
todas as ondições de ruído.
62
Wiener + EMDH
3
-1
helicóptero fábrica trem balbúrdia britadeira serra
Ruído
ria dos valores de SNR. Diferentemente das medidas objetivas de qualidade (SegSNR e
OQCM), o maior aprimoramento de fwSegSNR om pós-real e foi obtido om o onjunto
Wiener+EMDH. A FIG. 3.11 ilustra os resultados médios obtidos om Wiener+EMDH
e om outras quatro abordagens sem pós-real e. Note que o EMDH apli ado omo pós-
real e resulta nos melhores resultados para in o fontes de ruídos. A ex eção é o ruído
balbúrdia, para o qual a té ni a EMDH apli ada diretamente sobre os sinais de voz
ruidosos apresenta maior ganho do que quando apli ada omo pós-real e. Ou seja, os
resultados de fwSegSNR mostram que a té ni a EMDH é interessante para prover in re-
mento na inteligibilidade de sinais de voz orrompidos por ruídos a ústi os. Isto o orre
tanto no real e, quanto no enário de pós-real e.
A medida STOI foi proposta em (TAAL, 2011) para avaliar a degradação na inte-
ligibilidade de sinais de voz ausada por algoritmos de supressão de ruídos. A medida
STOI diferen ia-se do índi e de arti ulação (AI - arti ulation index ) (KRYTER, 1962) e
de outras medidas dele derivadas (STEENEKEN, 1980; RHEBERGEN, 2005; LOIZOU,
2011), pois não utiliza o ál ulo de SNR para avaliar a inteligibilidade dos sinais de voz.
De forma alternativa, é adotado o oe iente de orrelação entre os espe tros dos sinais
de voz limpo e realçado, evitando assim a ne essidade de estimação explí ita da distorção
presente no sinal de voz.
63
Para o ál ulo da STOI, o sinal de voz limpo x(t) é primeiramente re-amostrado à
taxa de 10 kHz e segmentado em quadros de 256 amostras utilizando janelas de Hanning
om 50% de sobreposição. A taxa de amostragem é xada em 10 kHz de forma a manter
a mesma resolução em frequên ia da análise realizada em (TAAL, 2011). Em seguida,
ada quadro é transformado para o domínio da frequên ia utilizando a DFT om 512
pontos. Seja X(κ, τ ) o κ-ésimo ponto resultante da apli ação da DFT sobre o quadro τ .
Os pontos X(κ, τ ) são agrupados em 15 bandas ujas frequên ias entrais variam de 150
Hz a 4300 Hz, om três bandas por oitava. A norma da j -ésima banda (j = 1, 2, . . . , 15)
é denida por v
uκu (j)−1
u X
X̄j (τ ) = t |X(κ, τ )|2 , (3.21)
κ=κl (j)
onde κl (j) e κu (j) são os seus limites inferior e superior, respe tivamente. Em ada
região de tempo e frequên ia, a envoltória temporal de ada banda do sinal limpo é
representada pelo vetor
h iT
x(j,τ ) = X̄j (τ − 29), X̄j (τ − 28), . . . , X̄j (τ ) . (3.22)
A adoção de 30 oe ientes para o vetor x(j,τ ) foi denida em (TAAL, 2011) através de
resultados experimentais. A análise temporal om 30 quadros onse utivos orresponde
a 384 ms, ou seja, um quadro a ada 12,8 ms.
De maneira análoga à estimação de x(j,τ ) , obtém-se o vetor y(j,τ ) a partir do sinal de voz
orrompido y(t). Em seguida, y(j,τ ) é normalizado para ompensar eventuais diferenças
de energia em relação a x(j,τ ) . Seja y(j,τ ) (n) o n-ésimo oe iente do vetor y(j,τ ) , a versão
normalizada de y(j,τ ) é obtida por
kx(j,τ ) k
ȳ(j,τ ) (n) = min y(j,τ ) (n) , (1 + 10 −β/20
)x(j,τ ) (n) , (3.23)
ky(j,τ ) k
64
e de ada banda j ,
15 Q
1 XX
STOI = STOI(j,τ ) , (3.25)
15 Q j=1 τ =1
100
f (STOI) = , (3.26)
1 + exp(a STOI + b)
om a e b onstantes. Os resultados mostraram boa pre isão para sinais provenientes de
duas bases de voz, uma delas em língua inglesa. Como nos experimentos de real e de voz
realizados nesta Tese a base de voz TIMIT foi gravada neste mesmo idioma, o mapeamento
denido na EQ. 3.26 foi adotado om os mesmos valores de a e b en ontrados em (TAAL,
2011), isto é, a = −17, 4906 e b = 9, 6921. Contudo, é importante ressaltar que os valores
exatos de a e b não são ru iais para a omparação entre as té ni as de real e. Como a
função da EQ. 3.26 é estritamente res ente para a < 0, maiores valores de STOI resultam
em maiores valores de f (STOI), e vi e-versa. Assim, a adoção de f (STOI) no lugar da
própria medida STOI é apenas uma forma mais práti a de examinar o desempenho das
té ni as de real e em termos de inteligibilidade, sendo os valores omparáveis à taxa de
a ertos na identi ação de palavras.
Na TAB. 3.1, são apresentados os resultados de predição das taxas de a ertos na
identi ação de palavras om sinais de voz pro essados pelas seis té ni as de real e. Como
pode-se observar, os maiores e menores resultados médios de f (STOI) para todas as
té ni as são obtidos om os ruídos fábri a e serra elétri a, respe tivamente. Todas as
fontes de ruídos resultam em altos valores de predição (f (STOI) > 99%) para SNR de 10
dB. Para os ruídos heli óptero, fábri a e britadeira, os resultados om a té ni a Wiener
se mantêm a ima de 97% mesmo para SNR de 0 dB. É importante ressaltar que, para a
medida fwSegSNR, estes são os ruídos para os quais a té ni a de Cohen obteve o melhor
desempenho. Contudo, pode-se veri ar que, na predição das taxas de inteligibilidade, o
algoritmo de Wiener é a té ni a espe tral que obteve os melhores resultados médios de
predição para todas as seis fontes de ruídos.
Considerando as in o fontes de ruídos não-esta ionários, as té ni as baseadas no
método EMD apresentam, em geral, resultados melhores que as espe trais. Para o ruído
65
TAB. 3.1: Predição de taxas de a ertos (%) de inteligibilidade obtidos om os resultados
de STOI om o mapeamento determinado pela EQ. 3.26.
Ruído SNR SS Cohen Wiener EMDF EMD-DT EMDH
10 99,11 99,00 99,03 98,67 99,29 99,30
serra elétri a
5 91,74 91,87 91,81 92,86 93,96 93,84
0 58,34 57,28 63,43 70,78 71,91 72,34
-5 13,97 12,59 17,95 25,12 24,40 24,64
-10 2,66 2,42 4,47 6,15 6,41 6,41
Média 53,16 52,63 55,34 58,72 59,19 59,31
10 99,49 99,60 99,67 99,52 99,70 99,70
5 96,93 98,57 99,07 98,81 99,13 99,15
britadeira
66
2
FFT
log DCT
fwSegSNR. Estas duas medidas demonstram que a proposta EMDH onsegue melhor
aprimoramento na inteligibilidade dos sinais de voz, prin ipalmente quando orrompidos
por ruídos a ústi os altamente não-esta ionários.
Nesta Tese, a tarefa de identi ação automáti a de lo utor é proposta para avaliar a
inteligibilidade dos sinais de voz após a apli ação das té ni as de real e. Desta forma, as
taxas de a ertos de identi ação são utilizadas omo omplemento às medidas fwSegSNR
e STOI.
Um sistema de identi ação de lo utor (REYNOLDS, 1995a) é geralmente omposto
de duas fases: treinamento e testes. Durante a fase de treinamento, o sistema extrai um
onjunto de atributos a ústi os para obter os modelos para os lo utores. Na fase de testes,
os atributos extraídos da lo ução de teste são omparados om os modelos dos lo utores
para a tomada de de isão. Na tarefa de identi ação de lo utor, o prin ipal objetivo é
identi ar a qual dos lo utores perten e a lo ução de teste. Na literatura, sistemas de
identi ação baseados nos oe ientes mel- epstrais (MFCC - mel-frequen y epstral oef-
ients ) (DAVIS, 1980) e nos modelos de misturas Gaussianas (GMM - Gaussian mixture
models ) (REYNOLDS, 1995a) apresentam bom desempenho quando utilizam sinais de voz
limpos (REYNOLDS, 1995b). Estes resultados, ontudo, são muito degradados quando
a aptação o orre em ambientes a usti amente ruidosos (MING, 2007; Z O, 2011).
A FIG. 3.12 ilustra o diagrama em blo os da extração dos atributos MFCC. Na etapa
de pré-pro essamento, após a aquisição o sinal de voz é dividido em quadros om urta
67
duração (20 ms - 32 ms). As amostras de ada quadro são transformadas para o domínio
da frequên ia utilizando FFT e, em seguida, passam por um ban o de ltros na es ala mel.
A es ala mel (RABINER, 1993) representa a per epção pela audição humana das variações
em frequên ia. As frequên ias desta es ala (fmel ) são rela ionadas om as frequên ias da
es ala linear (fHz ) por
fHz
fM el = 1127 ln 1 + . (3.27)
700
Os atributos MFCC (cj ) são obtidos de a ordo om (DAVIS, 1980; FURUI, 1981)
F
X 1 π
cj = (log Sk ) os j k − , j = 1, 2, . . . , D (3.28)
2 F
k=1
Os vetores MFCC extraídos de ada quadro são on atenados para formar uma matriz
de atributos da voz. Se um sinal de voz possui Q quadros, então a matriz de atributos X
possui dimensão D × Q. Logo,
O modelo GMM (λ) (REYNOLDS, 1995a) é denido omo uma soma ponderada de
G omponentes Gaussianas,
G
X
p(~x|λ) = pg bg (~x) (3.31)
g=1
O modelo GMM do lo utor é ompletamente ara terizado pelos pesos, vetor média e
matriz ovariân ia. Ou seja,
68
Durante a fase de treinamento, os modelos de lo utores são gerados a partir da matriz
XD×Q de atributos, utilizando o algoritmo EM (expe tation-maximization ) (REYNOLDS,
1995a). O objetivo é obter o modelo λ (EQ. 3.33), que maximize a verossimilhança entre
seus parâmetros e a matriz de atributos,
Q
1 X
log p(X|λ) = log p(~xt |λ) . (3.34)
Q t=1
Na fase de testes, dada a matriz XD×Q extraída do sinal de voz de teste, o lo utor
identi ado é aquele ujo modelo λ maximiza a verossimilhança da EQ. 3.34.
Para os experimentos de identi ação de lo utor, são es olhidos 168 lo utores da base
TIMIT. Dos 10 sinais de voz disponíveis por lo utor, 8 são utilizados no treinamento dos
modelos e os outros 2 são separados para os testes. Cada lo ução de teste é orrompida
pelos seis ruídos a ústi os des ritos na Seção 3.1, onsiderando SNR de 0 dB, 5 dB, 10
dB, 15 dB e 20 dB. Para a formação dos vetores de atributos, de ada quadro de 32 ms e
50% de sobreposição, são extraídos 12 oe ientes mel- epstrais utilizando um ban o om
F = 26 ltros na es ala mel.
A TAB. 3.2 mostra as taxas de a ertos obtidas na identi ação de lo utor om as
diferentes té ni as de real e de voz. Como referên ia, foram in luídos os resultados orres-
pondentes aos sinais ruidosos sem qualquer pro essamento. Note a grande variabilidade
nas taxas de a ertos obtidas sem real e, dependendo da fonte a ústi a de ruídos. Por
exemplo, para SNR de 20 dB, a a urá ia na identi ação varia de 96,73% om o ruído
balbúrdia para 57,14% om o ruído britadeira. Com relação aos experimentos de iden-
ti ação de lo utor apli ados aos sinais de voz om real e, as maiores taxas médias de
a ertos, onsiderando todas as fontes de ruídos, foram al ançadas om a proposta EMDH.
A maior ontribuição da té ni a EMDH foi obtida para o ruído fábri a, onde a a urá ia
média aumentou de 42,20% para 69,40%, o que orresponde a uma diferença de 27,20
pontos per entuais (p.p.). Para este mesmo ruído, a proposta EMDH superou o resultado
médio da té ni a EMDF em 9,40 p.p. Com relação às té ni as espe trais, é interessante
notar que a té ni a de Cohen foi a que obteve o pior desempenho para a maioria dos
ruídos. Este algoritmo só aprimorou os resultados para a fonte de ruído britadeira. Na
média global, houve uma queda de 12,40 p.p., de 40,98% sem real e para 28,58% om a
té ni a de Cohen. Por outro lado, todas as té ni as baseadas no método EMD aumen-
taram as médias globais. A diferença atingiu 5,60 p.p. para EMD-DT, 9,00 p.p. para
EMDF e 13,48 p.p. para a proposta EMDH. Estes resultados orroboram om a predição
69
TAB. 3.2: Taxas de a ertos (%) nos experimentos de identi ação de lo utor om as
diferentes té ni as de real e.
Ruído SNR sem real e SS Cohen Wiener EMDF EMD-DT EMDH
20 85,71 63,10 37,50 58,04 80,35 85,12 83,93
15 54,17 45,24 21,43 41,96 53,87 54,76 60,12
10 22,04 26,19 10,71 22,62 22,92 23,81 26,79
serra elétri a
5 6,55 11,01 3,27 12,50 8,33 8,33 9,23
0 1,19 5,95 1,19 7,74 2,38 1,79 1,49
Média 33,93 30,30 14,82 28,57 33,57 34,76 36,31
20 57,14 54,46 45,83 56,25 72,92 68,75 79,76
15 35,42 36,90 39,29 38,99 48,21 43,75 54,17
10 21,13 20,54 30,65 25,89 36,31 24,70 36,61
britadeira
5 10,42 11,31 19,64 15,77 20,54 13,39 19,05
0 5,36 5,06 12,50 10,12 9,23 9,23 7,44
Média 25,89 25,65 29,58 29,40 37,44 31,96 39,41
20 96,73 67,26 49,70 72,02 94,35 95,24 97,32
15 89,29 59,23 41,96 62,50 87,50 91,07 91,67
10 59,23 44,64 26,19 44,05 63,69 65,18 76,19
balbúrdia
5 27,38 25,30 13,99 22,62 30,95 26,49 33,04
0 7,44 9,82 9,52 9,82 8,63 8,63 8,33
Média 56,01 41,25 28,27 42,20 57,02 57,32 61,31
20 86,01 62,80 45,54 64,88 92,56 93,45 97,32
15 71,43 55,06 36,31 51,79 86,01 84,23 94,05
10 49,11 42,26 28,57 39,58 69,64 61,31 78,27
trem
5 32,44 27,08 22,62 26,79 44,94 38,39 46,13
0 13,39 13,69 13,99 14,88 21,13 17,86 20,54
Média 50,48 40,18 29,40 39,58 62,86 59,05 67,26
20 77,98 62,50 52,08 67,26 91,67 92,86 97,02
15 60,12 49,11 51,19 59,52 84,52 80,06 94,94
10 43,75 33,33 40,77 46,13 69,64 56,25 85,42
fábri a
5 21,13 22,62 28,87 31,85 38,39 31,25 52,98
0 8,04 12,50 17,26 17,26 15,77 10,42 16,67
Média 42,20 36,01 38,04 44,40 60,00 54,17 69,40
20 74,70 61,61 49,11 65,77 89,88 87,20 95,54
15 56,25 45,24 41,96 52,68 76,49 66,67 83,63
10 33,63 25,89 33,93 35,12 50,89 38,69 58,33
heli óptero
5 15,18 14,58 22,02 19,35 20,83 13,39 23,81
0 7,14 5,95 9,82 9,23 6,85 5,06 3,87
Média 37,38 30,65 31,37 36,43 48,99 42,20 53,04
Média Global 40,98 34,00 28,58 36,76 49,98 46,58 54,46
70
3.7 RESUMO
71
4 MÁSCARA ACÚSTICA PARA IDENTIFICAÇ O DE VARIAÇÕES
EMOCIONAIS
A presença de emoções no sinal de voz é importante na omuni ação entre seres hu-
manos pois omplementa a informação verbal e possibilita a interpretação da semânti a
da mensagem falada (COWIE, 2001; AYADI, 2011). Por exemplo, o entendimento do
onteúdo emo ional pode indi ar se o lo utor está feliz ou om raiva, omplementando a
mensagem transmitida. Nesta Tese, foram abordadas soluções para as distorções a ús-
ti as sofridas pelo sinal de voz. Diferentemente das distorções a ústi as ausadas por
ruídos, as alterações ou variações no sinal de voz de orrentes dos estados emo ionais são
intrínse as ao pro esso de produção da fala. Isto signi a que o efeito das emoções não
pode ser onsiderado de forma separada do sinal de voz, omo é normalmente realizado
nas té ni as de real e de voz, onde assume-se o ruído omo aditivo. No presente Capítulo,
o prin ipal fo o são as alterações a ústi as do sinal de voz quando o lo utor está sob o
efeito de emoções.
Durante a última dé ada, diversos estudos foram onduzidos om o objetivo de om-
preender os efeitos ausados por estados emo ionais sobre os sinais de voz (COWIE,
2001; ZHOU, 2001; SCHULLER, 2009; AYADI, 2011). A identi ação do estado emo-
ional pelo sinal de voz possui vantagens em relação a outras abordagens biométri as,
tais omo a medição da pressão arterial ou a frequên ia de batimentos ardía os. Isto
porque a aptação do sinal de voz é onsiderada não-intrusiva e pode ser realizada por
meio de equipamentos omuns ao dia-a-dia, tais omo omputadores, telefones elulares,
tablets, dentre outros. A identi ação a ústi a de emoções possibilita o aprimoramento de
diversas apli ações que requerem a iteração homem-máquina (COWIE, 2001). Ela é par-
ti ularmente importante para prover naturalidade a sistemas de síntese de fala, ou para
avaliar a fadiga ou estresse de um motorista através de um sistema embar ado no veí ulo
(AYADI, 2011; KOOLAGUDI, 2012). Em (HANSEN, 1995), foi veri ado que sistemas
de re onhe imento da fala para abines de aeronaves apresentam melhor desempenho
quando treinados om sinais produzidos sob ondições de estresse. O redire ionamento de
hamadas em sistemas de emergên ia e o emprego omo ferramenta de diagnósti o para
terapeutas são outros exemplos de apli ações da identi ação do estado emo ional pelo
72
FIG. 4.1: Separação das emoções nos eixos de valên ia, potên ia e ativação (YANG, 2010).
73
(a) (b)
( ) (d)
FIG. 4.2: Sinais de voz originados sob diferentes estados emo ionais: (a) neutro, (b)
feli idade, ( ) raiva e (d) tristeza (ILIEV, 2011).
Na FIG. 4.2 (ILIEV, 2011) é possível veri ar as alterações nas formas de onda dos
sinais de voz para distintas emoções. Os sinais orrespondem à vogal /E/ da lo ução em
inglês "over there ", falada por um mesmo lo utor do sexo mas ulino em quatro estados
emo ionais: neutro, feli idade, raiva e tristeza. Note que as emoções feli idade e, prin i-
palmente, raiva levam a maiores os ilações nas amplitudes do sinal, quando omparadas
om os estados neutro e tristeza. Estas propriedades estão de a ordo om a predominân-
ia de omponentes em alta frequên ia e a maior energia, ara terísti as das emoções de
alta ativação e alta potên ia (vide FIG. 4.1).
Um dos prin ipais desaos da área de pro essamento de voz é a denição de atributos
a ústi os que sejam mais apropriados para a lassi ação das emoções. Atributos prosódi-
os, tais omo energia e pit h, apresentam bom desempenho na distinção entre emoções de
alta e de baixa ativação. Contudo, omo as emoções não podem ser lassi adas apenas
quanto à ativação, estes atributos não são apropriados para a identi ação de emoções
multi-estilo.
Diversos trabalhos de identi ação a ústi a de emoções têm adotado atributos es-
pe trais, que são amplamente onsolidados para o re onhe imento de voz e de lo utor
(SCHULLER, 2009). Alguns exemplos são os oe ientes mel- epstrais (DAVIS, 1980) e
74
os oe ientes de predição linear (LPC - linear predi tion oe ients ) (RABINER, 1978).
Estes atributos onseguem apturar as ara terísti as espe trais do trato vo al através da
transformada de Fourier apli ada sobre urtos intervalos de tempo (20 ms - 30 ms) e,
assim, reetir os efeitos das emoções. Contudo, os resultados om tais atributos têm se
mostrado muito sensíveis às ondições de gravação da base de voz, tais omo a língua e
as origens ulturais dos lo utores, ou ainda o ambiente de gravação (SCHULLER, 2009).
Em (ZHOU, 2001), foram apresentadas propostas de atributos a ústi os baseados no
operador Teager de energia (KAISER, 1990). O desenvolvimento destes atributos foram
motivados pelos experimentos onduzidos em (TEAGER, 1990), que mostraram que a
voz é produzida pela interação não-linear entre o uxo de ar e vórti es formados dentro
do trato vo al. Sob ondições de emoção ou estresse, as mudanças siológi as produzem
mudanças na interação uxo-vórti e e, onsequentemente, altera as ara terísti as do sinal
de voz. O operador TEO foi proposto em (KAISER, 1990) para aptar as variações na
energia destas interações que o orrem dentro do trato vo al. Seja x(t) um sinal om
amostras em tempo dis reto, o operador TEO (Ψ [·]) é denido omo
75
Tristeza
Felicidade
0,2 Neutro
Raiva
Frequência Relativa
0,1
0
0 0,2 0,4 0,6 0,8 1
H
FIG. 4.3: Distribuição dos valores do expoente H para sinais de voz sob quatro ondições
emo ionais distintas.
as informações sobre a frequên ia de vibração das ordas vo ais são importantes para
diferen iar as emoções. Os atributos de ex itação glotal são geralmente extraídos do sinal
de voz após a supressão das omponentes do trato vo al, representados pelos oe ientes
de predição linear. Isto é geralmente realizado pela análise do sinal residual do modelo
de predição linear da fala, omo por exemplo o modelo de Liljen rants-Fant (LF) (FANT,
1985). Como as orrelações de primeira e segunda ordem entre as amostras do sinal de voz
são previamente extraídas pelos oe ientes LPC, o sinal residual ontém prin ipalmente
as orrelações de alta ordem. Os atributos rela ionados à ex itação glotal são geralmente
extraídos da forma do pulso glotal (ROTHENBERG, 1973), dos instantes de abertura e
fe hamento das ordas vo ais (BROOKES, 2006), da simetria glotal (ILIEV, 2011), dentre
outros. Contudo, ainda são pou os os trabalhos existentes na literatura que utilizam as
informações da ex itação glotal para a lassi ação das emoções (KOOLAGUDI, 2012).
Este Capítulo propõe o uso do vetor de parâmetros de Hurst (pH) (SANT'ANA, 2006)
omo um atributo tempo-frequên ia para a lassi ação de estados emo ionais. O vetor
pH foi proposto ini ialmente para identi ação e veri ação de lo utor (SANT'ANA,
2006). A extração do vetor pH onsiste em uma análise multi-resolução que onsegue
aptar as orrelações de alta ordem entre as amostras do sinal de voz. Por este motivo,
o pH está diretamente rela ionado om a ex itação glotal, isto é, om a frequên ia de
vibração das ordas vo ais.
A FIG. 4.3 exempli a a ontribuição do expoente de Hurst (0 ≤ H ≤ 1) na diferen i-
76
ação entre as emoções feli idade, neutro, raiva e tristeza. Esta estimação foi realizada em
segmentos de 32 ms dos sinais de voz da base EMO-DB (BURKHARDT, 2005), utilizando
o estimador baseado na de omposição wavelet (VEITCH, 1999). Conforme denido ante-
riormente, o valor de H expressa a dependên ia ou es ala temporal entre as amostras de
um sinal e está rela ionado om as suas ara terísti as espe trais. Note que as emoções
onsideradas de alta ativação são identi adas omo as que possuem maiores omponentes
nas altas frequên ias. Ou seja, os valores de H para as emoções raiva e feli idade estão
predominantemente on entrados no intervalo 0 < H < 1/2. Já para a emoção tristeza, a
on entração nas baixas frequên ias induz alta dependên ia temporal entre as amostras,
obtendo-se valores de H no intervalo 1/2 < H < 1. Observe ainda que, quando o lo utor
está sob o estado emo ional neutro, a maioria dos valores estimados para o expoente de
Hurst estão na região H ≈ 1/2.
Outra ontribuição do presente Capítulo é a proposta de uma más ara binária para a
identi ação a ústi a de emoções. As más aras a ústi as têm sido utilizadas na literatura
prin ipalmente para real e de sinais de voz (BRUNGART, 2006; LI, 2008). O objetivo é
identi ar e suprimir as omponentes do sinal de voz que são mais fortemente orrompidas
por ruído (HU, 2008). Desta forma, o sinal de voz resultante é omposto apenas pelas
regiões onde o ruído é signi ativamente mais fra o que o próprio sinal. Em (BRUNGART,
2006; LI, 2008), por exemplo, os autores demonstraram que a apli ação de uma más ara
binária ideal (MBI)20 aumenta as taxas de inteligibilidade para sinais de voz orrompidos
por ruídos a ústi os, mesmo para valores de SNR < 0 dB. Já em (KIM, 2009), foi proposto
um algoritmo para real e de voz om uma más ara a ústi a binária para situações onde o
ruído é des onhe ido. Os resultados provaram que a más ara a ústi a aumentou as taxas
de a ertos em testes subjetivos de inteligibilidade.
Na utilização das más aras a ústi as para real e, o sinal de voz ruidoso é primeiramente
parti ionado em sub-bandas de frequên ia. Cada sub-banda é ainda dividida em quadros
de urta duração. Em seguida, dene-se um ritério de seleção para identi ar quais as
regiões de tempo e frequên ia são predominantemente ompostas por ruído. Finalmente,
estas omponentes mais ruidosas são anuladas e o sinal de voz é re onstruído utilizando
a transformada inversa de Fourier. Ou seja, para ada quadro τ e ada omponente em
frequên ia κ, os espe tros do sinal limpo (estimado) X̂(κ, τ ) e do sinal orrompido Y (κ, τ )
20 Más aras binárias ideais são aquelas que assumem o onhe imento prévio das omponentes do sinal
e do ruído.
77
são rela ionados por (WANG, 2006)
Na proposta aqui apresentada, a más ara binária ME (κ, τ ) é denida para identi ar
as omponentes que mais estão rela ionadas om uma determinada emoção E . Assim, a
de isão quanto à manutenção ou à supressão de ada região de um sinal de voz produzido
sob a emoção E é adaptada para
(
1 , se a emoção E predomina sobre o estado neutro;
ME (κ, τ ) = (4.4)
0 , aso ontrário.
As regiões restantes são utilizadas para re onstruir os sinais de voz, antes destes serem
apli ados na identi ação de emoções. Desta forma, atinge-se um maior grau de distinção
entre os estados emo ionais e, portanto, uma melhor identi ação da emoção.
A avaliação do vetor pH e da más ara a ústi a apresentados neste Capítulo é realizada
em experimentos de identi ação a ústi a de emoções. Os experimentos são realizados
om duas bases de emoções: EMO-DB (BURKHARDT, 2005) e SUSAS (HANSEN, 1997).
Como referên ia, nos experimentos são também onsiderados os oe ientes MFCC e o
atributo TEO-CB-Auto-Env. Os mesmos atributos são ainda examinados nos experimen-
tos de avaliação da más ara a ústi a.
• Emoções de alta ativação (0 < H < 1/2): para estes estados emo ionais, predomi-
nam as omponentes nas altas frequên ias. A densidade espe tral de potên ia do
78
sinal de voz possui de aimento de aproximadamente 9 dB por oitava (QUATIERI,
2001). A função auto orrelação normalizada denida na EQ. 2.39 possui rápido
de aimento, levando a valores de H no intervalo 0 < H < 1/2.
• Emoções de baixa ativação (1/2 < H < 1): as omponentes de baixas frequên ias
do sinal de voz impli am em uma DEP om queda de 15 dB por oitava. Isto resulta
em um alto grau de dependên ia entre as amostras e uma FAC om de aimento
lento, o que leva a valores de H no intervalo 1/2 < H < 1.
79
EH H0
Filtro d (1,k ) H1
2 DWT EH
...
Passa−Banda
...
Passa−Baixa Passa−Banda
...
Passa−Baixa Passa−Banda
2 = Decimador
Filtro
EH = Estimador do expoente de Hurst 2 a (3,k )
Passa−Baixa
80
Sinais de voz com diferentes estados emocionais
Teste
Felicidade Neutro Raiva Tristeza
Sinal de voz
Filtragem em Sub−Bandas
e
Estimação AMS
Máscara 1 Extração de
Tri
Atributos
Extração de
Atributos
Máscara 2 Rai
Máscara 3 Neu
Cálculo da
Máscara 4 Fel Verossimilhança
Treinamento Decisão
Modelos para classificação das emoções
FIG. 4.5: Exemplo de diagrama em blo os da identi ação de 4 emoções (feli idade,
neutro, raiva e tristeza) utilizando a más ara a ústi a binária.
81
E (diferente do estado neutro) a más ara binária ME (κ, τ ) para o quadro τ e para a
sub-banda κ é denida omo
(
1 , se p(~xκ,τ |λEκ )/p(~xκ,τ |λN
κ ) > θκ ;
ME (κ, τ ) = (4.6)
0 , aso ontrário.
onde λN̄
κ é o modelo da más ara da sub-banda κ obtido a partir da on atenação dos
82
Após o parti ionamento do sinal de voz, a envoltória de ada uma das sub-bandas
é obtida através de reti ação de onda ompleta22 e subamostragem, al ançando uma
taxa equivalente a 4 kHz. Em seguida, ada sub-banda é dividida em quadros om 128
amostras (ou 32 ms) e 50% de sobreposição. Após a apli ação da janela de Hanning, ada
um dos quadros é ompletado om zeros (zero-padding ) e transformado para o domínio
da frequên ia utilizando a transformada rápida de Fourier (FFT - fast Fourier transform )
om 256 pontos. A FFT resulta em uma resolução em frequên ia de 15,6 Hz para ada
quadro. Finalmente, o espe tro de ada sub-banda é dividido em 15 anais utilizando
ltros triangulares uniformemente distribuídos no intervalo de frequên ias 15,6 Hz - 400
Hz. As magnitudes das saídas de ada um dos 15 anais são on atenadas para obter os
15 omponentes do vetor AMS ~xκ,τ , referente à sub-banda κ e ao quadro τ .
Durante a fase de teste, o primeiro passo é parti ionar o sinal de voz em sub-bandas
e estimar as matrizes AMS. Os modelos λEκ obtidos na fase de treinamento são utilizados
para apli ar a más ara a ústi a binária sobre as lo uções de teste (EQS. 4.6 e 4.7). Como o
estado emo ional orrespondente à lo ução de teste é des onhe ido, as más aras a ústi as
binárias são apli adas para obter múltiplas versões "mas aradas" do sinal, sendo uma para
ada variação emo ional E . Em seguida, matrizes de atributos a ústi os são extraídas de
ada uma destas versões do sinal.
Seja y(t) um sinal de voz de teste, e seja YE a matriz de atributos (pH, MFCC ou
TEO-CB-Auto-Env) extraída do sinal y(t) re onstruído onsiderando a más ara para o
estado emo ional E . As matrizes YE são onfrontadas om os modelos ΛE das emoções,
obtidos durante a fase de treinamento. A emoção identi ada Ê para a lo ução de teste
é aquela que maximiza a função de verossimilhança p(YE |ΛE ), ou seja,
Como ΛE é um modelo GMM, o valor de p(YE |ΛE ) é obtido pela soma ponderada de
distribuições Gaussianas, onforme des rito na Seção 3.6.2.
83
4.3 EXPERIMENTOS REALIZADOS E RESULTADOS
84
na energia, na quantidade de ruzamentos em zero (zero- rossing ) e na estimação de
pit h do quadro. Após a extração das matrizes de atributos, as emoções a ústi as foram
modeladas utilizando o lassi ador GMM om 32 omponentes Gaussianas (SCHULLER,
2009), om matriz ovariân ia diagonal.
Os atributos pH, MFCC e TEO-CB-Auto-Env são também adotados nos experimentos
de identi ação a ústi a de emoções utilizando os sinais de voz obtidos om a apli ação da
más ara. Para a más ara, a estimação das omponentes AMS (veja FIG. 4.5) é realizada
onforme a des rição apresentada na Seção 4.2.1.1. Os limiares θκ utilizados nos ritérios
da más ara nas EQS. 4.6 e 4.7 foram denidos de forma a reter 80% das regiões de
ada sub-banda κ que estejam mais rela ionadas om as respe tivas emoções23 . Ou seja,
para ada sub-banda κ, são eliminadas as regiões ~xκ,τ om os menores valores da razão
de verossimilhança p(~xκ,τ |λN κ ) denida na EQ. 4.7 para o estado neutro, ou
xκ,τ |λN̄
κ )/p(~
utilizados na más ara de ada sub-banda κ e de ada emoção E , também foram obtidos
om 32 omponentes.
23 Este
per entual foi denido em testes preliminares om a base EMO-DB. Para isto, foi onsiderada
omo ritério a taxa média de a ertos na identi ação a ústi a de emoções om o per entual de regiões
suprimidas dos sinais variando de 5% a 30%, om diferenças de 5 pontos per entuais.
24 A base EMO-DB está publi amente disponível em http://pas al.kgw.tu-berlin.de/emodb/.
85
e medo. Para isto, os sinais foram obtidos om 7 lo utores (4 homens e 3 mulheres)
submetidos a duas situações distintas: montanha-russa e queda livre. A base SUSAS
aborda as situações de alto estresse, médio estresse e grito, além do estado neutro. Di-
ferentemente da base EMO-DB, ujas lo uções orrespondem a sentenças de diferentes
tamanhos, a base SUSAS é restrita a 35 omandos de urta duração na língua inglesa,
tais omo "break " e "help ". A Tab. 4.1 resume as prin ipais ara terísti as de ada uma
das bases adotadas nos experimentos de lassi ação a ústi a de emoções.
TAB. 4.1: Cara terísti as das bases de voz adotadas nos experimentos de lassi ação
a ústi a de emoções.
Total de Total de Lo uções
Base Idioma Taxa Observação
Lo uções por Emoção
Desgosto 38
Feli idade 64
Medo 55
EMO-DB Alemão 494 Neutro 78 16 kHz Emoções simuladas
Raiva 127
Tédio 79
Tristeza 53
Alto estresse 1202
Médio estresse 1276
SUSAS Inglês 3593 8 kHz Condições reais de estresse
Neutro 701
Grito 414
25 Bandas ríti as são aquelas que orrespondem à per epção do aparelho auditivo humano omo um
ban o de ltros.
86
Filtragem em Divisão Cálculo da
Sinal de voz Auto−
Sub−Bandas
(Gabor)
... TEO ... em
Quadros
... correlação ... Área sob a
Envoltória
...
FIG. 4.6: Diagrama de blo os da extração do atributo TEO-CB-Auto-Env.
87
TAB. 4.2: A urá ia na identi ação a ústi a de emoções (%) para a base EMO-DB
utilizando o vetor pH, sem más ara a ústi a.
Emoção Emoção Identi ada
Real Desgosto Feli idade Medo Raiva Neutro Tédio Tristeza
Desgosto 67 10 6 0 10 7 0
Feli idade 6 48 8 25 11 2 0
Medo 5 16 62 0 11 3 3
Raiva 2 10 2 86 0 0 0
Neutro 2 0 8 0 71 17 2
Tédio 13 0 2 0 20 61 4
Tristeza 0 0 0 0 6 12 82
Taxa média de a ertos:68,1%
TAB. 4.3: A urá ia na identi ação a ústi a de emoções (%) para a base EMO-DB
utilizando os oe ientes MFCC, sem más ara a ústi a.
Emoção Emoção Identi ada
Real Desgosto Feli idade Medo Raiva Neutro Tédio Tristeza
Desgosto 61 11 5 5 18 0 0
Feli idade 8 58 11 19 3 2 0
Medo 11 22 33 7 15 13 0
Raiva 1 14 0 85 0 0 0
Neutro 5 0 5 0 65 23 1
Tédio 8 5 5 0 25 53 4
Tristeza 11 0 0 0 9 6 74
Taxa média de a ertos:61,3%
TAB. 4.4: A urá ia na identi ação a ústi a de emoções (%) para a base EMO-DB
utilizando o atributo TEO-CB-Auto-Env, sem más ara a ústi a.
Emoção Emoção Identi ada
Real Desgosto Feli idade Medo Raiva Neutro Tédio Tristeza
Desgosto 40 13 0 18 13 13 3
Feli idade 8 42 0 37 8 5 0
Medo 16 11 27 15 18 6 7
Raiva 4 27 1 60 5 3 0
Neutro 10 3 1 6 36 44 0
Tédio 9 4 1 5 19 58 4
Tristeza 4 0 0 0 4 2 90
Taxa média de a ertos:50,4%
taxa média de a ertos de 68,1%, levando o vetor pH a um resultado 6,8 pontos per entuais
(p.p.) superior aos oe ientes MFCC. Em termos de taxa média de a ertos, o atributo
TEO-CB-Auto-Env obteve o pior resultado de identi ação.
88
TAB. 4.5: A urá ia na identi ação a ústi a de emoções (%) para a base EMO-DB
utilizando o vetor pH om a más ara a ústi a.
Emoção Emoção Identi ada
Real Desgosto Feli idade Medo Raiva Neutro Tédio Tristeza
Desgosto 77 13 0 3 7 0 0
Feli idade 8 71 6 13 0 2 0
Medo 11 11 70 0 5 3 0
Raiva 1 7 2 89 0 1 0
Neutro 7 0 7 0 83 3 0
Tédio 4 0 2 0 6 83 5
Tristeza 0 0 0 0 3 9 88
Taxa média de a ertos: 80,1%
TAB. 4.6: A urá ia na identi ação de emoções (%) para a base EMO-DB utilizando os
oe ientes MFCC om a más ara a ústi a.
Emoção Emoção Identi ada
Real Desgosto Feli idade Medo Raiva Neutro Tédio Tristeza
Desgosto 68 11 5 5 5 3 3
Feli idade 5 66 8 16 0 6 0
Medo 11 9 53 4 5 13 5
Raiva 1 9 1 87 0 2 0
Neutro 9 0 1 0 89 1 0
Tédio 3 1 1 3 5 78 9
Tristeza 9 0 0 0 2 6 85
Taxa média de a ertos: 75,1%
TAB. 4.7: A urá ia na identi ação de emoções (%) para a base EMO-DB utilizando
atributo TEO-CB-Auto-Env om a más ara a ústi a.
Emoção Emoção Identi ada
Real Desgosto Feli idade Medo Raiva Neutro Tédio Tristeza
Desgosto 39 16 3 10 16 11 5
Feli idade 9 30 2 50 9 0 0
Medo 16 20 27 6 24 0 7
Raiva 4 26 2 61 7 0 0
Neutro 9 3 0 5 47
36 0
Tédio 6 8 0 5 24 51
6
Tristeza 4 0 0 0 4 2 90
Taxa média de a ertos: 49,3%
Os experimentos referentes às TABS. 4.2 a 4.4 foram repetidos utilizando sinais de voz
após a apli ação da más ara a ústi a binária. Os resultados om os atributos pH, MFCC
e TEO-CB-Auto-Env estão des ritos nas TABS. 4.5, 4.6 e 4.7, respe tivamente. Note
que a adoção da más ara aumentou as taxas de a ertos da identi ação para todas as
89
emoções, tanto para os oe ientes MFCC quanto para o vetor pH. Para a emoção tédio,
por exemplo,a más ara a ústi a levou a um aumento de mais de 20 pontos per entuais
para ambos os atributos. A taxa de identi ação subiu de 61% para 83% om o pH, e de
53% para 78% om o MFCC. Enquanto o aumento médio foi de 12,0 p.p. para o vetor
pH, este in remento atingiu 13,8 p.p. para os oe ientes MFCC.
Assim omo nos resultados sem más ara, o desempenho dos vetores pH foi superior
ao dos oe ientes MFCC. Desta vez, a úni a ex eção foi o estado neutro. É importante
notar que, novamente, o pH onseguiu melhor distinção entre as emoções de baixa e de
alta ativação. E, mais uma vez, os experimentos om o vetor pH não resultaram em
qualquer onfusão da emoção tristeza om as emoções de alta ativação.
Observe que as taxas de a ertos não foram aprimoradas para o atributo TEO-CB-Auto-
Env. Isto pode ser expli ado pelo fato de que, nas regiões removidas pela más ara a ústi a,
o operador TEO e a auto orrelação são al ulados sobre sub-bandas nulas, o asionando
indeterminações no ál ulo da área sob a envoltória da auto orrelação.
90
TAB. 4.8: Taxa de identi ação de situações de estresse (%) para a base SUSAS utilizando
o vetor pH, sem más ara a ústi a.
Situação Situação de Estresse Identi ada
de Estresse Neutro Médio Alto Grito
Neutro 59 20 20 1
Médio 29 36 35 0
Alto 16 22 62 0
Grito 1 0 0 99
Taxa média de a ertos: 64,0%
TAB. 4.9: Taxa de identi ação de situações de estresse (%) para a base SUSAS utilizando
os oe ientes MFCC, sem más ara a ústi a.
Situação Situação de Estresse Identi ada
de Estresse Neutro Médio Alto Grito
Neutro 58 19 23 0
Médio 25 36 39 0
Alto 14 33 53 0
Grito 3 0 0 97
Taxa média de a ertos: 61,0%
TAB. 4.10: Taxa de identi ação de situações de estresse (%) para a base SUSAS uti-
lizando o atributo TEO-CB-Auto-Env, sem más ara a ústi a.
Situação Situação de Estresse Identi ada
de Estresse Neutro Médio Alto Grito
Neutro 46 30 16 8
Médio 30 35 31 4
Alto 20 28 47 5
Grito 5 3 3 89
Taxa média de a ertos: 54,3%
o uso da más ara a ústi a aumentou as taxas médias de a ertos para ambos os asos: de
61,0% para 65,0% om o MFCC, e de 64,0% para 70,8% om o pH. Ou seja, mais uma
vez os melhores resultados foram obtidos om o vetor pH. Com ex eção da ondição de
grito, a más ara a ústi a aumentou as taxas de a ertos para todas as demais situações
om os atributos pH e MFCC. O resultado mais expressivo da más ara foi obtido para a
ondição médio estresse, na qual a a urá ia foi aprimorada de 36% om o pH para 51%
om o pH e a más ara a ústi a. Assim omo no aso da base EMO-DB, os resultados
om o atributo TEO-CB-Auto-Env não foram aprimorados pela más ara a ústi a.
91
TAB. 4.11: Taxa de identi ação de situações de estresse (%) para a base SUSAS uti-
lizando o vetor pH om a más ara a ústi a.
Situação Situação de Estresse Identi ada
de Estresse Neutro Médio Alto Grito
Neutro 67 18 11 4
Médio 26 51 18 5
Alto 13 17 67 3
Grito 1 1 0 98
Taxa média de a ertos: 70,8%
TAB. 4.12: Taxa de identi ação de situações de estresse (%) para a base SUSAS uti-
lizando os oe ientes MFCC om a más ara a ústi a.
Situação Situação de Estresse Identi ada
de Estresse Neutro Médio Alto Grito
Neutro 60 19 17 4
Médio 27 41 27 5
Alto 18 17 62 3
Grito 2 1 0 97
Taxa média de a ertos: 65,0%
TAB. 4.13: Taxa de identi ação de situações de estresse (%) para a base SUSAS uti-
lizando o atributo TEO-CB-Auto-Env om a más ara a ústi a.
Situação Situação de Estresse Identi ada
de Estresse Neutro Médio Alto Grito
Neutro 51 27 18 4
Médio 31 44 22 3
Alto 22 34 38 6
Grito 4 2 7 87
Taxa média de a ertos: 55,0%
4.4 RESUMO
Este Capítulo apresentou duas propostas para aprimorar a a urá ia da identi ação
a ústi a de emoções. Na primeira, o vetor pH foi adotado omo um atributo tempo-
frequên ia para aptar as informações referentes à ex itação glotal. A outra proposta
foi a utilização de uma más ara a ústi a binária más ara para suprimir as omponentes
espe tro-temporais dos sinais de voz que não estejam rela ionados om o estado emo ional.
Os resultados demonstraram que tanto a más ara a ústi a quanto o vetor pH aprimoram
a identi ação de emoções para duas bases distintas, quando omparados à utilização dos
92
oe ientes MFCC e do atributo TEO-CB-Auto-Env. Em relação ao MFCC, a utilização
das duas propostas em onjunto aumentou a taxa média de a ertos da lassi ação de
emoções em 18,8 pontos per entuais para a base de emoções EMO-DB, ou seja, de 61,3%
om MFCC para 80,1% om pH e más ara a ústi a. Já para a base SUSAS, que abrange
situações reais de estresse, a melhora no desempenho das duas propostas atingiu 9,8 p.p.,
de 61,0% para 70,8%.
93
5 CONCLUS O E TRABALHOS FUTUROS
Nesta Tese, foram propostas soluções para problemas envolvendo distorções e variações
a ústi as não-esta ionárias nos sinais de voz. Para tratar as distorções a ústi as ausadas
por ruídos a ústi os não-esta ionários, foi proposta a té ni a tempo-frequên ia EMDH
para real e dos sinais de voz. Nesta abordagem, o método EMD foi ini ialmente utilizado
para de ompor o sinal de voz. Em seguida, o expoente de Hurst foi adotado omo ritério
de seleção para identi ar quais modos foram mais afetados pelos ruídos.
Para a avaliação da té ni a EMDH, os sinais de voz foram orrompidos por 6 ruí-
dos a ústi os om diferentes índi es de não-esta ionariedade. A proposta foi apli ada
diretamente sobre os sinais de voz distor idos, e também utilizada omo pós-real e para
algoritmos espe trais. Os resultados de quatro medidas objetivas demonstraram o bom
desempenho da té ni a proposta em termos de qualidade e inteligibilidade da voz. A
proposta de real e foi ainda omparada om outras in o té ni as de supressão de ruídos.
Os resultados omparativos onrmaram o bom desempenho da té ni a EMDH, prin i-
palmente para os ruídos om maiores valores de INS. No enário de pós-real e, a proposta
apresentada nesta Tese também obteve desempenho superior à abordagem om EMDF,
utilizada omo referên ia.
Ao longo do desenvolvimento da Tese, as té ni as de real e foram ainda utilizadas para
prover robustez a um sistema de identi ação automáti a de lo utor. As taxas de a ertos
de identi ação foram propostas omo medidas omplementares para avaliar o ganho na
inteligibilidade dos sinais de voz. Para isto, os testes de identi ação de lo utor foram
onduzidos om lo uções previamente realçadas pelas té ni as de supressão de ruídos. Os
resultados demonstraram que as maiores taxas de a ertos foram obtidas om a té ni a
EMDH.
Neste trabalho também foi onsiderada a tarefa de identi ação a ústi a das variações
emo ionais no sinal de voz. A primeira proposta onsistiu na utilização do vetor pH
omo atributo a ústi o para representar o efeito da emoção na ex itação glotal. Na
segunda abordagem, foi introduzida uma más ara a ústi a binária para eliminar as regiões
espe tro-temporais do sinal de voz que não estejam asso iadas ao estado emo ional do
lo utor. Os resultados demonstraram que ambas as propostas aprimoraram as taxas de
94
a ertos da identi ação a ústi a de emoções, om a base EMO-DB, e de ondições reais
de estresse, om a base SUSAS. As duas propostas utilizadas em onjunto levaram a um
aumento de até 18,8 pontos per entuais na taxa média de a ertos, para o aso da base
EMO-DB.
As prin ipais ontribuições apresentadas nesta Tese podem ser resumidas da seguinte
forma:
• Proposta de utilização da más ara a ústi a binária para a lassi ação a ústi a
de emoções. Os resultados demonstraram que, para os atributos pH e MFCC, a
más ara a ústi a aprimorou as taxas de a ertos da identi ação de emoções (EMO-
DB) e ondições de estresse (SUSAS).
95
5.1 SUGESTÕES PARA TRABALHOS FUTUROS
Nesta Seção são desta adas algumas sugestões para trabalhos futuros.
• Na proposta de real e EMDH, investigar outras formas de sele ionar as IMFs que
são utilizadas na re onstrução do sinal de voz.
• Propor novas medidas objetivas para avaliar a inteligibilidade dos sinais de voz
pro essados pelas té ni as de real e.
• Estudar outros ritérios de de isão para a más ara a ústi a binária utilizada na las-
si ação de emoções. Em parti ular, avaliar quais sub-bandas do sinal onseguem
maior dis riminação entre emoções.
Nesta Tese, foram propostas soluções para o problema de distorções e variações a ús-
ti as nos sinais de voz. Para os sinais orrompidos por ruídos a ústi os, foi proposta uma
té ni a de real e tempo-frequên ia que utiliza o método de de omposição EMD e o ex-
poente de Hurst. Os experimentos de real e mostraram que a té ni a proposta apresentou
resultados promissores, prin ipalmente para os ruídos altamente não-esta ionários. Esta
Tese apresentou ainda duas propostas para aprimorar a lassi ação a ústi a de emoções:
96
o atributo tempo-frequên ia pH e uma más ara a ústi a binária. Ambas melhoraram as
taxas de a ertos de identi ação de emoções e de ondições de estresse. Adi ionalmente,
os melhores resultados de identi ação a ústi a de emoções foram obtidos om as duas
propostas utilizadas em onjunto.
97
6 REFERÊNCIAS BIBLIOGRÁFICAS
AUGER, F., FLANDRIN, P., LIN, Y.-T., MCLAUGHLIN, S., MEIGNEN, S., OBERLIN,
T. e WU, H.-T. Time-frequen y reassignment and syn hrosqueezing: An overview.
IEEE Signal Pro essing Magazine , 30(6):3241, November 2013.
BASSEVILLE, M. Distan e measures for signal pro essing and pattern re ognition. Sig-
nal Pro essing
, 18(4):349369, De ember 1989.
BISPO, B., ESQUEF, P., BISCAINHO, L., LIMA, A., FREELAND, F., JESUS, R., SAID,
A., LEE, B., SCHAFER, R. e KALKER, T. EW-PESQ: A Quality Assessment Method
for Spee h Signals Sampled at 48 kHz.Journal of the Audio Engineering So iety
,
58(4):251268, April 2010.
BOLL, S. Suppression of a ousti noise in spee h using spe tral subtra tion. IEEE
Transa tions on A ousti s, Spee h and Signal Pro essing , 27(2):113120, April
1979.
BRUNGART, D., CHANG, P., SIMPSON, B. e WANG, D. Isolating the energeti ompo-
The Journal
nent of spee h-on-spee h masking with ideal time-frequen y segregation.
of the A ousti al So iety of Ameri a , 120(6):40074018, April 2006.
98
CAVALCANTE, D. e COELHO, R. Identi ação de emoções appli ada ao re onhe i-
mento automáti o de lo utor. Anais do XXIX Simpósio Brasileiro de Tele o-
muni ações (SBrT'11) , págs. 15, Outubro 2011.
COHEN, I. Noise spe trum estimation in adverse environments: improved minima on-
IEEE Transa tions on Spee h and Audio Pro essing
trolled re ursive averaging. ,
11(5):466475, September 2003.
COHEN, I. Spee h enhan ement using a non ausal a priori SNR estimator. IEEE Signal
Pro essing Letters , 11(9):725728, September 2004.
COHEN, L. Time Frequen y Analysis. Prenti e-Hall, New York, USA, 1995.
DAUBECHIES, I. Ten le tures on wavelets. So iety for Industrial and Applied Math-
emati s, Philadelphia, USA, 1992.
EPHRAIM, Y. e MALAH, D. Spee h enhan ement using a minimum mean square er-
ror short-time spe tral amplitude estimator. IEEE Transa tions on A ousti s,
Spee h, and Signal Pro essing , 32(6):11091121, De ember 1984.
99
ERKELENS, J., HENDRIKS, R., HEUSDENS, R. e JENSEN, J. Minimum mean-square
error estimation of dis rete fourier oe ients with generalized gamma priors. IEEE
Transa tions on Audio, Spee h, and Language Pro essing , 15(6):17411752,
August 2007.
FURUI, S. Cepstral analysis te hnique for automati speaker veri ation. IEEE Trans-
a tions on A ousti s, Spee h and Signal Pro essing , 29(2):259272, April 1981.
GAROFOLO, J., LAMEL, L., FISHER, W., FISCUS, J., PALLETT, D., DAHLGREN,
N. e ZUE, V. TIMIT a ousti -phoneti ontinuous spee h orpus. Linguisti Data
Consortium , 1993.
HANSEN, J. e PELLOM, B. An ee tive quality evaluation proto ol for spee h enhan e-
Pro eedings of the International Conferen e on Spee h and
ment algorithms.
Language Pro essing (ICSLP'98) , págs. 28192822, De ember 1998.
HASAN, T. e HASAN, M. Suppression of residual noise from spee h signals using empiri al
mode de omposition. IEEE Signal Pro essing Letters , 16(1):25, January 2009.
HENDRIKS, R., HEUSDENS, R. e JENSEN, J. MMSE based noise psd tra king with low
omplexity.Pro eedings of the IEEE International Conferen e on A ousti s
Spee h and Signal Pro essing (ICASSP'10), págs. 42664269, 2010.
100
HU, Y. e LOIZOU, P. Evaluation of obje tive measures for spee h enhan ement. Pro-
eedings of INTERSPEECH , págs. 14, September 2006.
HU, Y. e LOIZOU, P. Subje tive evaluation and omparison of spee h enhan ement
algorithms. Spee h Communi ation , 49(7):588601, July 2007.
HU, Y. e LOIZOU, P. Evaluation of obje tive quality measures for spee h enhan ement.
IEEE Transa tions on Audio, Spee h and Language Pro essing , 16(1):229238,
January 2008.
HUANG, N. E., SHEN, Z., LONG, S. R., WU, M. C., SHIH, H. H., ZHENG, Q., YEN,
N. C., TUNG, C. C. e LIU, H. H. The empiri al mode de omposition and the hilbert
Pro eedings of the
spe trum for nonlinear and non-stationary time series analysis.
Royal So iety of London. Series A: Mathemati al, Physi al and Engineering
S ien es, 454(1971):903995, Mar h 1998.
HURST, E. Long-term storage apa ity of reservoirs. Transa tion of the Ameri an
So iety of Civil Engineers, 116(11):770799, April 1951.
ILIEV, A. e SCORDILIS, M. Spoken emotion re ognition using glottal symmetry.
EURASIP Journal on Advan es in Signal Pro essing, 2011(2), Mar h 2011.
KAISER, J. On a simple algorithm to al ulate the `energy' of a signal. Pro eedings
of the International Conferen e on A ousti s, Spee h and Signal Pro essing
(ICASSP'90), págs. 381384, April 1990.
KESHNER, M. 1/f noise. Pro eedings of the IEEE, 70(3):212218, Mar h 1982.
KIM, G., LU, Y., HU, Y. e LOIZOU, P. An algorithm that improves spee h intelligibility
in noise for normal-hearing listeners.The Journal of the A ousti al So iety of
Ameri a , 126(3):14861494, September 2009.
KLATT, D. Predi tion of per eived phoneti distan e from riti al-band spe tra: A
Pro eedings of the IEEE International Conferen e on A ousti s,
rst step.
Spee h, and Signal Pro essing (ICASSP'82) , 7:12781281, May 1982.
KOLLMEIER, B. e KOCH, R. Spee h enhan ement based on physiologi al and psy hoa-
ousti al models of modulation per eption and binaural intera tion. Journal of the
A ousti al So iety of Ameri a , 95(3):15931602, Mar h 1994.
101
KOOLAGUDI, S. e RAO, K. Emotion re ognition from spee h: a review. International
Journal of Spee h Te hnology, 15(2):99117, 2012.
KRYTER, K. Methods for the al ulation and use of the arti ulation index. The Journal
of the A ousti al So iety of Ameri a , 34(11):16891697, November 1962.
LI, N. e LOIZOU, P. Fa tors inuen ing intelligibility of ideal binary-masked spee h: Im-
The Journal of the A ousti al So iety of Ameri a
pli ations for noise redu tion. ,
123(3):16731682, 2008.
LOIZOU, P. Spee h Enhan ement: theory and pra ti e. CRC Press, 2007a.
LOIZOU, P. e HU, Y. A omparative intelligibility study of single-mi rophone noise
redu tion algorithms. The Journal of the A ousti al So iety of Ameri a , 22(3):
17771786, 2007b.
LOIZOU, P. e MA, J. Extending the arti ulation index to a ount for non-linear distortions
introdu ed by noise-suppression algorithms. The Journal of the A ousti al So iety
of Ameri a , 130(2):986995, August 2011.
MA, J., HU, Y. e LOIZOU, P. Obje tive measures for predi ting spee h intelligibility
in noisy onditions based on new band-importan e fun tions. The Journal of the
A ousti al So iety of Ameri a , 125(5):33873405, 2009.
MACAULAY, R. e MALPASS, M. Spee h enhan ement using a soft-de ision noise sup-
pression lter. IEEE Transa tions on A ousti s, Spee h, and Signal Pro essing
,
ASSP-28(2):137145, April 1980.
MAINA, C. e WALSH, J. Joint spee h enhan ement and speaker identi ation using
approximate bayesian inferen e. IEEE Transa tions on Audio, Spee h, and Lan-
guage Pro essing , 19(6):15171529, August 2011.
MANDELBROT, B. e VAN NESS, J. Fra tional brownian motions, fra tional noises and
appli ations. SIAM Review
, 10(4):422437, O tober 1968.
MARTIN, R. Noise power spe tral density estimation based on optimal smoothing and
minimum statisti s. IEEE Transa tions on Spee h and Audio Pro essing , 9(5):
504512, July 2001.
MARTIN, R. Spee h enhan ement based on minimum mean-square error estimation and
supergaussian priors. IEEE Transa tions on Spee h and Audio Pro essing , 13
(5):845856, September 2005.
102
MCCALLUM, M. e GUILLEMIN, B. Sto hasti -deterministi MMSE STFT spee h
enhan ement with general a priori information. IEEE Transa tions on Audio,
Spee h, and Language Pro essing , 21(7):14451457, July 2013.
MING, J., HAZEN, T., GLASS, J. e REYNOLDS, D. Robust speaker re ognition in noisy
onditions. IEEE Transa tions on Audio, Spee h, and Language Pro essing ,
15(5):17111723, July 2007.
RABINER, L. A tutorial on hidden markov models and sele ted appli ations in spee h
Pro eedings of the IEEE
re ognition. , 77(2):257286, February 1989.
REYNOLDS, D. e ROSE, R. Robust text independent speaker identi ation using gaus-
sian mixture speaker models. IEEE Transa tions on Spee h and Audio Pro ess-
ing , 3:7282, 1995a.
REYNOLDS, D. Speaker identi ation and veri ation using gaussian mixture speaker
models. Spee h Communi ation , 17:91108, 1995b.
RIX, A., BEERENDS, J., HOLLIER, M. e HEKSTRA, A. Per eptual evaluation of spee h
quality (PESQ)-a new method for spee h quality assessment of telephone networks
and ode s.Pro eedings of the IEEE International Conferen e on A ousti s,
Spee h, and Signal Pro essing (ICASSP'01) , 2:749752, May 2001.
ROTHENBERG, M. A new inverse ltering te hnique for deriving the glottal air ow
waveform during voi ing. The Journal of the A ousti al So iety of Ameri a , 53
(6):16321645, 1973.
103
SANT'ANA, R., COELHO, R. e ALCAIM, A. Text-independent speaker re ognition
based on the hurst parameter and the multidimensional fra tional brownian motion
model. IEEE Transa tions on Audio, Spee h, and Language Pro essing , 14
(3):931940, May 2006.
SCALART, P. e FILHO, J. Spee h enhan ement based on a priori signal to noise es-
Pro eedings of the IEEE International Conferen e on A ousti s,
timation.
Spee h and Signal Pro essing (ICASSP'96) , 32(6):629632, De ember 1996.
SHAHIN, I. Speaker identi ation in emotional talking environments using both gender
and emotion ues.Pro eedings of the 1st International Conferen e on Commu-
ni ations, Signal Pro essing, and their Appli ations (ICCSPA'13) , February
2013.
The Journal of
VOSS, R. e CLARKE, J. 1/f noise in musi : Musi from 1/f noise.
the A ousti al So iety of Ameri a , 63(1):258263, 1978.
YANG, B. e LUGGER, M. Emotion re ognition from spee h signals using new harmony
features.Signal Pro essing
, 90(5):14151423, May 2010.
Z O, L. e COELHO, R. Colored noise based multi ondition training te hnique for robust
speaker identi ation.IEEE Signal Pro essing Letters , 18(11):675678, November
2011.
Z O, L. e COELHO, R. Noise Robust Speaker Veri ation based on the MFCC and
Pro eedings of the Interna-
pH Features Fusion and Multi ondition Training.
tional Conferen e on Bio-inspired Systems and Signal Pro essing (BIOSIG-
NALS'12), págs. 137143, February 2012b.
Z O, L. e COELHO, R. Real e EMDF e treinamento em múltiplas ondições a ústi as
para identi ação de lo utor robusta a ruídos não-esta ionários. Anais do XXXI
Simpósio Brasileiro de Tele omuni ações (SBrT'13) , págs. 15, Setembro 2013.
105
APÊNDICE
Neste Apêndi e é apresentada a lista de artigos publi ados e submetidos durante o período
de desenvolvimento da Tese (fevereiro de 2011 a novembro de 2013). Este apêndi e não
onstará da versão nal do Manus rito.
A.1 PERIÓDICOS
106
ternational Conferen e on Bio-inspired Systems and Signal Pro essing
(BIOSIGNALS'12), February 2012.
• Z O, L. e COELHO, R. De omposição EMD para Real e da Voz om Ruídos Não-
Esta ionários. Anais do XXX Simpósio Brasileiro de Tele omuni ações
(SBrT'12), Setembro 2012.
• Z O, L. e COELHO, R. Real e EMDF e Treinamento em Múltiplas Condições A ús-
ti as para Identi ação de Lo utor Robusta a Ruídos Não-Esta ionários. Anais do
XXXI Simpósio Brasileiro de Tele omuni ações (SBrT'13), Setembro 2013.
107