MAPWise: Evaluating Vision-Language Models for Advanced Map Queries

Mukhopadhyay, Srija; Rajgaria, Abhishek; Khatiwada, Prerana; Gupta, Vivek; Roth, Dan

Computer Science > Computer Vision and Pattern Recognition

arXiv:2409.00255 (cs)

[Submitted on 30 Aug 2024]

Title:MAPWise: Evaluating Vision-Language Models for Advanced Map Queries

Authors:Srija Mukhopadhyay, Abhishek Rajgaria, Prerana Khatiwada, Vivek Gupta, Dan Roth

View PDF HTML (experimental)

Abstract:Vision-language models (VLMs) excel at tasks requiring joint understanding of visual and linguistic information. A particularly promising yet under-explored application for these models lies in answering questions based on various kinds of maps. This study investigates the efficacy of VLMs in answering questions based on choropleth maps, which are widely used for data analysis and representation. To facilitate and encourage research in this area, we introduce a novel map-based question-answering benchmark, consisting of maps from three geographical regions (United States, India, China), each containing 1000 questions. Our benchmark incorporates 43 diverse question templates, requiring nuanced understanding of relative spatial relationships, intricate map features, and complex reasoning. It also includes maps with discrete and continuous values, encompassing variations in color-mapping, category ordering, and stylistic patterns, enabling comprehensive analysis. We evaluate the performance of multiple VLMs on this benchmark, highlighting gaps in their abilities and providing insights for improving such models.

Comments:	30 Pages, 46 Tables, 6 Figure
Subjects:	Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Graphics (cs.GR); Human-Computer Interaction (cs.HC)
Cite as:	arXiv:2409.00255 [cs.CV]
	(or arXiv:2409.00255v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2409.00255

Submission history

From: Vivek Gupta [view email]
[v1] Fri, 30 Aug 2024 20:57:34 UTC (7,446 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:MAPWise: Evaluating Vision-Language Models for Advanced Map Queries

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:MAPWise: Evaluating Vision-Language Models for Advanced Map Queries

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators