Optimization of Prompt Learning via Multi-Knowledge Representation for Vision-Language Models

Zhang, Enming; Zhu, Bingke; Chen, Yingying; Miao, Qinghai; Tang, Ming; Wang, Jinqiao

Computer Science > Computer Vision and Pattern Recognition

arXiv:2404.10357 (cs)

[Submitted on 16 Apr 2024 (v1), last revised 17 Apr 2024 (this version, v2)]

Title:Optimization of Prompt Learning via Multi-Knowledge Representation for Vision-Language Models

Authors:Enming Zhang, Bingke Zhu, Yingying Chen, Qinghai Miao, Ming Tang, Jinqiao Wang

View PDF HTML (experimental)

Abstract:Vision-Language Models (VLMs), such as CLIP, play a foundational role in various cross-modal applications. To fully leverage VLMs' potential in adapting to downstream tasks, context optimization methods like Prompt Tuning are essential. However, one key limitation is the lack of diversity in prompt templates, whether they are hand-crafted or learned through additional modules. This limitation restricts the capabilities of pretrained VLMs and can result in incorrect predictions in downstream tasks. To address this challenge, we propose Context Optimization with Multi-Knowledge Representation (CoKnow), a framework that enhances Prompt Learning for VLMs with rich contextual knowledge. To facilitate CoKnow during inference, we trained lightweight semantic knowledge mappers, which are capable of generating Multi-Knowledge Representation for an input image without requiring additional priors. Experimentally, We conducted extensive experiments on 11 publicly available datasets, demonstrating that CoKnow outperforms a series of previous methods. We will make all resources open-source: this https URL.

Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2404.10357 [cs.CV]
	(or arXiv:2404.10357v2 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2404.10357

Submission history

From: Enming Zhang [view email]
[v1] Tue, 16 Apr 2024 07:44:52 UTC (4,507 KB)
[v2] Wed, 17 Apr 2024 02:48:49 UTC (4,507 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Optimization of Prompt Learning via Multi-Knowledge Representation for Vision-Language Models

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Optimization of Prompt Learning via Multi-Knowledge Representation for Vision-Language Models

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators