Exploring Robust Face-Voice Matching in Multilingual Environments

Tang, Jiehui; Wang, Xiaofei; Xiao, Zhen; Liu, Jiayi; Liu, Xueliang; Hong, Richang

Computer Science > Computer Vision and Pattern Recognition

arXiv:2407.19875 (cs)

[Submitted on 29 Jul 2024]

Title:Exploring Robust Face-Voice Matching in Multilingual Environments

Authors:Jiehui Tang, Xiaofei Wang, Zhen Xiao, Jiayi Liu, Xueliang Liu, Richang Hong

View PDF HTML (experimental)

Abstract:This paper presents Team Xaiofei's innovative approach to exploring Face-Voice Association in Multilingual Environments (FAME) at ACM Multimedia 2024. We focus on the impact of different languages in face-voice matching by building upon Fusion and Orthogonal Projection (FOP), introducing four key components: a dual-branch structure, dynamic sample pair weighting, robust data augmentation, and score polarization strategy. Our dual-branch structure serves as an auxiliary mechanism to better integrate and provide more comprehensive information. We also introduce a dynamic weighting mechanism for various sample pairs to optimize learning. Data augmentation techniques are employed to enhance the model's generalization across diverse conditions. Additionally, score polarization strategy based on age and gender matching confidence clarifies and accentuates the final results. Our methods demonstrate significant effectiveness, achieving an equal error rate (EER) of 20.07 on the V2-EH dataset and 21.76 on the V1-EU dataset.

Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2407.19875 [cs.CV]
	(or arXiv:2407.19875v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2407.19875

Submission history

From: Jiehui Tang [view email]
[v1] Mon, 29 Jul 2024 10:51:31 UTC (3,034 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Exploring Robust Face-Voice Matching in Multilingual Environments

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Exploring Robust Face-Voice Matching in Multilingual Environments

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators