Figure 1. Overview of the automatic pipeline in Dysca for generating VQAs, cleaning VQAs and evaluating LVLMs.
Figure 2. The available subtasks of our Dysca.
Abstract - Currently many benchmarks have been proposed to evaluate the perception ability of the Large Vision-Language Models (LVLMs). However, most benchmarks conduct questions by selecting images from existing datasets, resulting in the potential data leakage. Besides, these benchmarks merely focus on evaluating LVLMs on the realistic style images and clean scenarios, leaving the multi-stylized images and noisy scenarios unexplored. In response to these challenges, we propose a dynamic and scalable benchmark named Dysca for evaluating LVLMs by leveraging synthesis images. Specifically, we leverage Stable Diffusion and design a rule-based method to dynamically generate novel images, questions and the corresponding answers. We consider 51 kinds of image styles and evaluate the perception capability in 20 subtasks. Moreover, we conduct evaluations under 4 scenarios (i.e., Clean, Corruption, Print Attacking and Adversarial Attacking) and 3 question types (i.e., Multi-choices, True-or-false and Free-form). Thanks to the generative paradigm, Dysca serves as a scalable benchmark for easily adding new subtasks and scenarios.A total of 8 advanced open-source LVLMs with 10 checkpoints are evaluated on Dysca, revealing the drawbacks of current LVLMs.
We provide two types of downloading ways:
Benchmark | #Evaluation Data Scale | #Perceptual Tasks | Automatic Annotation | Collecting from Existing Datasets | Question Type | Automatic Evaluation |
---|---|---|---|---|---|---|
LLaVA-Bench | 0.15K | - | × | ⍻ | Free-form | √ |
MME | 2.3K | 10 | × | ⍻ | True-or-false | √ |
LVLM-eHub | - | 3 | √ | × | Free-form | × |
tiny-LVLM-eHub | 2.1K | 3 | √ | × | Free-form | √ |
SEED-Bench | 19K | 8 | ⍻ | × | Multi-choices | √ |
MMBench | 2.9K | 12 | × | ⍻ | Multi-choices | √ |
TouchStone | 0.9K | 10 | × | √ | Free-form | √ |
REFORM-EVAL | 50K | 7 | √ | × | Multi-choices | √ |
MM-BigBench | 30K | 6 | √ | × | Multi-choices | √ |
MM-VET | 0.2K | 4 | ⍻ | ⍻ | Free-form | √ |
MLLM-Bench | 0.42K | 7 | × | ⍻ | Free-form | √ |
SEED-Bench2 | 24K | 10 | ⍻ | × | Multi-choices | √ |
BenchLMM | 2.4K | 15 | × | × | Free-form | √ |
JourneyDB | 5.4K | 2 | √ | √ | Free-form, Multi-choices | √ |
Dysca (Ours) | 617K* | 20 | √ | √ | Free-form, Multi-choices, True-or-false | √ |
Here are some examples of the images, prompts, questions and ground truth answers of our Dysca. These images are generated by diffusion models.
Clean
|
Corruption
|
Print Attacking
|
Adversarial Attacking
|
Clean-Movie
|
Clean-Action
|
Clean-TV Show
|
Clean-Profession
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Clean-Landmark
|
Clean-Anime
|
Clean-Clothes
|
Clean-Celebrity
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Clean-Food
|
Clean-Plant
|
Clean-Age
|
Clean-Gender
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Clean-Expression
|
Clean-Race
|
Clean-Animal
|
Clean-Object
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Clean-OCR
|
Clean-Style
|
Clean-Background
|
Clean-Color
|
Corru.-Movie
|
Corru.-Action
|
Corru.-TV Show
|
Corru.-Profession
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Corru.-Landmark
|
Corru.-Anime
|
Corru.-Clothes
|
Corru.-Celebrity
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Corru.-Food
|
Corru.-Plant
|
Corru.-Age
|
Corru.-Gender
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Corru.-Expression
|
Corru.-Race
|
Corru.-Animal
|
Corru.-Object
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Corru.-OCR
|
Courruption-Style
|
Corru.-Background
|
Corru.-Color
|
Print Attacking-Movie
|
Print Attacking-Action
|
Print Attacking-TV Show
|
Print Attacking-Profession
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Print Attacking-Landmark
|
Print Attacking-Anime
|
Print Attacking-Clothes
|
Print Attacking-Celebrity
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Print Attacking-Food
|
Print Attacking-Plant
|
Print Attacking-Age
|
Print Attacking-Gender
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Print Attacking-Expression
|
Print Attacking-Race
|
Print Attacking-Animal
|
Print Attacking-Object
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Print Attacking-Style
|
Print Attacking-Background
|
Print Attacking-Color
|
Adversarial Attacking-Movie
|
Adversarial Attacking-Action
|
Adversarial Attacking-TV Show
|
Adversarial Attacking-Profession
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Adversarial Attacking-Landmark
|
Adversarial Attacking-Anime
|
Adversarial Attacking-Clothes
|
Adversarial Attacking-Celebrity
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Adversarial Attacking-Food
|
Adversarial Attacking-Plant
|
Adversarial Attacking-Age
|
Adversarial Attacking-Gender
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Adversarial Attacking-Expression
|
Adversarial Attacking-Race
|
Adversarial Attacking-Animal
|
Adversarial Attacking-Object
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Adversarial Attacking-OCR
|
Adversarial Attacking-Style
|
Adversarial Attacking-Background
|
Adversarial Attacking-Color
|