The MaRVL Task
Given a pair of images and a caption, the model needs to assign TRUE/FALSE to the example (i.e., juedge whether the caption is correctly describing the pair of images).
Two examples from MaRVL. The Tamil images (a) are from the concept ஏறுதழுவல் (Jallikattu, part of an Indian festivity), while the Swahili images (b) are from the concept leso (Handkerchief).
Example (a)
இரு படங்களில் ஒன்றில் இரண்டிற்கும் மேற்பட்ட மஞ்சள் சட்டை அணிந்த வீரர்கள் காளையை அடக்கும் பணியில் ஈடுப்பட்டிருப்பதை காணமுடிகிறது.
(Translation: In one of the two photos, more than two yellow-shirted players are seen engaged in bull taming.)
Label: TRUE
Example (b)
Picha moja ina watu kadhaa waliovaa leso na picha nyingine ina leso bila watu.
(Translation: One picture contains several people wearing handkerchiefs and another picture has a handkerchief without people.)
Label: FALSE