Rank2Tell: A Multimodal Driving Dataset for Joint Importance Ranking and Reasoning

Sachdeva, Enna; Agarwal, Nakul; Chundi, Suhas; Roelofs, Sean; Li, Jiachen; Kochenderfer, Mykel; Choi, Chiho; Dariush, Behzad

Computer Science > Computer Vision and Pattern Recognition

arXiv:2309.06597 (cs)

[Submitted on 12 Sep 2023 (v1), last revised 8 Nov 2023 (this version, v2)]

Title:Rank2Tell: A Multimodal Driving Dataset for Joint Importance Ranking and Reasoning

Authors:Enna Sachdeva, Nakul Agarwal, Suhas Chundi, Sean Roelofs, Jiachen Li, Mykel Kochenderfer, Chiho Choi, Behzad Dariush

View PDF

Abstract:The widespread adoption of commercial autonomous vehicles (AVs) and advanced driver assistance systems (ADAS) may largely depend on their acceptance by society, for which their perceived trustworthiness and interpretability to riders are crucial. In general, this task is challenging because modern autonomous systems software relies heavily on black-box artificial intelligence models. Towards this goal, this paper introduces a novel dataset, Rank2Tell, a multi-modal ego-centric dataset for Ranking the importance level and Telling the reason for the importance. Using various close and open-ended visual question answering, the dataset provides dense annotations of various semantic, spatial, temporal, and relational attributes of various important objects in complex traffic scenarios. The dense annotations and unique attributes of the dataset make it a valuable resource for researchers working on visual scene understanding and related fields. Furthermore, we introduce a joint model for joint importance level ranking and natural language captions generation to benchmark our dataset and demonstrate performance with quantitative evaluations.

Subjects:	Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Machine Learning (cs.LG); Robotics (cs.RO)
Cite as:	arXiv:2309.06597 [cs.CV]
	(or arXiv:2309.06597v2 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2309.06597

Submission history

From: Enna Sachdeva [view email]
[v1] Tue, 12 Sep 2023 20:51:07 UTC (4,346 KB)
[v2] Wed, 8 Nov 2023 09:12:01 UTC (20,539 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Rank2Tell: A Multimodal Driving Dataset for Joint Importance Ranking and Reasoning

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Rank2Tell: A Multimodal Driving Dataset for Joint Importance Ranking and Reasoning

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators