Emociones y Voz. Lecturas
Emociones y Voz. Lecturas
Emociones y Voz. Lecturas
II.1 Introduccin.
La voz es el principal modo de comunicacin entre los hombres y consecuentemente se ha estudiado los mecanismos de produccin de voz humana y se han creado sistemas capaces de simular y reconocer voz electrnicamente.
Uno de los mayores problemas encontrados en los estudios sobre el habla ha sido el de la variabilidad en sta. En un gran nmero de estudios se ha demostrado que varios aspectos del estado fsico y emocional del locutor, incluyendo edad, sexo, inteligencia, apariencia y personalidad pueden identificarse solamente por la voz. Todos estos factores, que son diferentes para cada interlocutor, contribuyen a la variabilidad del habla. La inteligibilidad de los sintetizadores de voz es parecida a la de la voz humana pero estos sistemas no ofrecen esta variabilidad, lo que hace que la voz sintetizada suene no natural.
Muchos sintetizadores ofrecen al usuario el control sobre muchas caractersticas de la voz humana. Es posible cambiar los parmetros
que controlan la voz para darle diferentes personalidades sin afectar seriamente a la inteligibilidad del habla. Si estos cambios en la voz sintetizada reflejan adecuadamente los cambios que experimenta la voz humana cuando expresa emociones sera posible a travs de la voz sintetizada simular emociones diferentes.
Para implementar con xito los efectos emocionales en la voz sintetizada hay que tener en cuenta dos factores fundamentales: El conocimiento de como pueden distinguirse las caractersticas emocionales de la voz y como pueden describirse dichas caractersticas usando los mtodos de procesado de voz convencionales. La incorporacin de una serie de parmetros o reglas al algoritmo de sntesis de voz, para implementar dichas emociones. Estudiando la literatura relativa a las emociones en la voz humana y sus efectos puede usarse para disear software que controle la calidad del sintetizador de voz, dndole la capacidad de simular emocin en la voz.
Para Scherer la emocin puede describirse tambin como la interfaz del organismo con el mundo exterior, sealando tres funciones principales de las emociones: a) Reflejan la evaluacin de la importancia de un estmulo en particular en trminos de las necesidades del organismo, preferencias, intenciones... b) Preparan fisiolgica y fsicamente al organismo para la accin apropiada. c) Comunican el estado del organismo y sus intenciones de comportamiento a otros organismos que le rodean.
Emocin y estado de nimo son conceptos diferentes: mientras las emociones surgen repentinamente en respuesta a un determinado estmulo y duran unos segundos o minutos, los estados de nimo son ms ambiguos en su naturaleza, perdurando durante horas o das. Las emociones pueden ser consideradas ms claramente como algo cambiante y los estados de nimo son ms estables. Aunque el principio de una emocin puede ser fcilmente distinguible de un estado de nimo, es imposible definir cuando una emocin se convierte en un estado de nimo; posiblemente por esta razn, el concepto de emocin es usado como un trmino general que incluye al de estado de nimo. Ms all de emociones y estados de nimos est el rasgo a largo plazo de la personalidad, que puede definirse como el tono emocional caracterstico de una persona a lo largo del tiempo.
Muchos de los trminos utilizados para describir emociones y sus efectos son necesariamente difusos y no estn claramente definidos. Esto es atribuible a la dificultad en expresar en palabras los conceptos abstractos de los sentimientos, que no pueden ser cuantificados. Por ello, para describir caractersticas de las emociones se utilizan un
conjunto de palabras emotivas, siendo seleccionadas la mayora de ellas por eleccin personal en vez de comunicar un significado estndar.
c c c
II.3.1. Pitch.
El pitch es la frecuencia fundamental a la que las cuerdas vocales vibran, tambin llamada frecuencia fundamental o F0. Se considera que las caractersticas de la frecuencia fundamental son una de las principales portadoras de la informacin sobre las emociones.
c c
el valor medio del pitch expresa el nivel de excitacin del locutor. Una media elevada de F0 indica un mayor grado de excitacin. el rango del pitch es la distancia entre el valor mximo y mnimo de la frecuencia fundamental. Refleja tambin el grado de exaltacin del locutor. Un rango ms extenso que el normal refleja una
excitacin emocional o psicolgica. las fluctuaciones en el pitch descritas como la velocidad de la fluctuaciones entre valores altos y bajos y si son abruptas o suaves son producidas psicolgicamente. En general, la curva de tono es discontinua para las emociones consideradas como negativas (miedo, enfado) y es suave para las emociones positivas (por ejemplo la alegra).
II.3.2. Duracin.
La duracin es la componente de la prosodia descrita por la velocidad del habla y la situacin de los acentos, y cuyos efectos son el ritmo y la velocidad. El ritmo en el habla deriva de la situacin de los acentos y de la combinacin de las duraciones de las pausas y de los fonemas.
Las emociones pueden distinguirse por una serie de parmetros que conciernen a la duracin, como son:
velocidad de locucin: generalmente un locutor en estado de excitacin acortar la duracin de las slabas, con lo que la velocidad de locucin medida en slabas por segundo o en palabras por minuto
se incrementar. nmero de pausas y su duracin: un locutor exaltado tender a hablar rpidamente con menos pausas y ms cortas, mientras que un locutor deprimido hablar ms lentamente, introduciendo pausas ms largas.
c c
Intensidad: Est relacionada con la percepcin del volumen y se refleja en la amplitud de la forma de onda Irregularidades vocales: Abarcan un gran rango de caractersticas vocales. El jitter vocal refleja las fluctuaciones de un pulso glotal al siguiente (como se observa en el enfado) o la desaparicin de voz en algunas emociones como la pena, en la que el habla se convierte en
un simple susurro. EL cociente entre energa de alta y baja frecuencia: Gran cantidad de energa en las frecuencias altas se asocia con agitacin (enfado), mientras que baja concentracin de energa en las
frecuencias altas se relaciona con depresin o calma (pena). Breathiness y laringerizacin: reflejan las caractersticas del tracto vocal estn ms relacionados con la personalizacin de cada voz. Breathiness describe la generacin de ruido respiratorio de forma de la componente fundamental tiende a ser ms fuerte, mientras que las frecuencias altas son reemplazadas por ruido aspiratorio. La laringerizacin se caracteriza por una vibracin aperidica de las cuerdas vocales, con un pulso glotal estrecho y pitch bajo, lo que se traduce en una voz chirriante.
Joel Davitz y Klaus Scherer clasificaron las emociones y sus efectos utilizando los ejes o dimensiones de un espacio semntico:
c c c
Potencia o fuerza: corresponde a la atencin rechazo, distinguiendo entre emociones iniciadas por el sujeto a aquellas que surgen del ambiente (desde el desprecio al temor o la sorpresa) Valencia, agrado o valoracin: segn lo placentero o desagradable de la emocin (desde la alegra hasta el enfado). Actividad: presencia o ausencia de energa o tensin.
En varios estudios se ha descubierto que se confunden ms entre s las emociones con un nivel similar de actividad (como por ejemplo la alegra y el enfado) que las que presentan similitud en trminos de valencia o de fuerza. Tambin estn relacionados el ritmo y la valencia de forma que los sentimientos positivos son expresados con un ritmo ms regular que los sentimientos negativos. Esto lleva a la conclusin que la dimensin de la actividad est ms correlacionada con las variables auditivas relativamente ms simples de la voz, como pueden ser el tono y la intensidad, mientras que la
A continuacin plantearemos una de las clasificaciones de las emociones y las caractersticas de cada una para el idioma ingls que posteriormente compararemos con los resultados obtenidos en nuestro estudio. El habla neutra suele caracterizarse por un tono con un rango de variacin estrecho y unas transiciones de F0 suaves, adems de una velocidad de locucin alta.
Enfado: El enfado ha sido ampliamente estudiado en la literatura sobre emociones. Hay contradicciones entre los efectos recogidos en estos escritos, aunque esto puede ser debido porque el enfado puede ser expresado de varias maneras, como veremos en nuestro trabajo. El enfado se define como la impresin desagradable y molesta que se produce en el nimo. El enfado se caracteriza por un tono medio alto (229 Hz), un amplio rango de tono y una velocidad de locucin
c c c
rpida (190 palabras por minuto), con un 32% de pausas. Alegra: Se manifiesta en un incremento en el tono medio y en su rango, as como un incremento en la velocidad de locucin y en la intensidad. Tristeza: El habla triste exhibe un tono medio ms bajo que el normal, un estrecho rango y una velocidad de locucin lenta. Miedo: Comparando el tono medio con los otras cuatros emociones primarias estudiadas, se observ el tono medio ms elevado (254 Hz), el rango mayor, un gran nmero de cambios en la curva del tono y una velocidad de locucin rpida (202 palabras por minuto).
Disgusto/odio: Se caracteriza por un tono medio bajo, un rango amplio y la velocidad de locucin ms baja, con grandes pausas.
Pena: es una forma extrema de tristeza, generalmente causada por una afliccin. Se caracteriza por un bajo tono medio, el rango de tono ms estrecho, la pendiente de la curva de tono ms baja, una
c c c
velocidad de locucin baja y un alto porcentaje de pausas. Ternura: se expresa con un alto nivel de tono que no flucta excesivamente. Irona: caracterizada por una velocidad de locucin baja y una acentuacin muy marcada. Sorpresa: con un tono medio mayor que la voz normal, una velocidad igual a la normal y un rango amplio.
Otras emociones secundarias: como el temor, la queja, el anhelo, el aburrimiento, la satisfaccin, la impaciencia, el ensueo, la coquetera han sido tambin objeto de estudio.
Algunos investigadores han utilizado otra clasificacin, dividiendo las emociones en:
c c
Activas: Se caracterizan por una velocidad de locucin lenta, un volumen bajo, un tono bajo y un timbre ms resonante. Pasivas: Caracterizadas por una velocidad de locucin rpida, alto volumen, alto tono y un timbre encendido.
10