Noise-Robust Dense Retrieval via Contrastive Alignment Post Training

Campos, Daniel; Zhai, ChengXiang; Magnani, Alessandro

Computer Science > Information Retrieval

arXiv:2304.03401 (cs)

[Submitted on 6 Apr 2023 (v1), last revised 10 Apr 2023 (this version, v2)]

Title:Noise-Robust Dense Retrieval via Contrastive Alignment Post Training

Authors:Daniel Campos, ChengXiang Zhai, Alessandro Magnani

View PDF

Abstract:The success of contextual word representations and advances in neural information retrieval have made dense vector-based retrieval a standard approach for passage and document ranking. While effective and efficient, dual-encoders are brittle to variations in query distributions and noisy queries. Data augmentation can make models more robust but introduces overhead to training set generation and requires retraining and index regeneration. We present Contrastive Alignment POst Training (CAPOT), a highly efficient finetuning method that improves model robustness without requiring index regeneration, the training set optimization, or alteration. CAPOT enables robust retrieval by freezing the document encoder while the query encoder learns to align noisy queries with their unaltered root. We evaluate CAPOT noisy variants of MSMARCO, Natural Questions, and Trivia QA passage retrieval, finding CAPOT has a similar impact as data augmentation with none of its overhead.

Comments:	8 pages, 6 figures, 30 tables
Subjects:	Information Retrieval (cs.IR); Artificial Intelligence (cs.AI); Computation and Language (cs.CL)
Cite as:	arXiv:2304.03401 [cs.IR]
	(or arXiv:2304.03401v2 [cs.IR] for this version)
	https://doi.org/10.48550/arXiv.2304.03401

Submission history

From: Daniel Campos [view email]
[v1] Thu, 6 Apr 2023 22:16:53 UTC (416 KB)
[v2] Mon, 10 Apr 2023 14:22:32 UTC (416 KB)

Computer Science > Information Retrieval

Title:Noise-Robust Dense Retrieval via Contrastive Alignment Post Training

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Information Retrieval

Title:Noise-Robust Dense Retrieval via Contrastive Alignment Post Training

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators