VidNum1.4K - A Comprehensive Benchmark for Video-based Numerical Reasoning

Apr 3, 2026·

Shaoyang Cui

· 1 min read

This research introduces VNum, a comprehensive VideoQA benchmark containing 1,379 human-annotated video-question pairs designed to test multi-step numerical reasoning in Vision-Language Models (VLMs). Moving beyond simple counting, VNum spans diverse real-world environments to quantify objects, actions, and events through a unique three-level hierarchy.

Last updated on Apr 3, 2026

Multimodal AI Video Understanding Benchmark

Authors

Shaoyang Cui

Research Assistant

ClawTrap - MITM-Based Red-Teaming for OpenClaw Security Evaluation Apr 2, 2026 →