arXiv

JAVEDIT: Joint Audio-Visual Instruction-Guided Video Editing with Agentic Data Curation

June 3, 2026 · Yinan Chen, Chuming Lin, Zhennan Chen, Yuxiang Zeng, Junwei Zhu, Yali Bi, Xijie Huang, Chengming Xu, Donghao Luo, Zhucun Xue, Xiaobin Hu, Chengjie Wang, Yong Liu, Jiangning Zhang, Shuicheng Yan · Original Source

Title: JAVEDIT: Instruction-Guided Video Editing via Agentic Data Curation for Joint Audio-Visual Tasks

Abstract: Although instruction-based video editing has made substantial strides, the domain of joint audio-visual editing continues to be hindered by a scarcity of specialized datasets and benchmarks. To resolve this limitation, we introduce JAVEdit-100k, the inaugural large-scale, high-fidelity dataset designed specifically for instruction-guided joint audio-visual editing. Centered on human-centric footage, JAVEdit-100k contains roughly 100,000 editing triplets distributed across five distinct categories, such as subject modification and speech alteration. The dataset’s rigorous construction relies on four carefully engineered generation pipelines, complemented by an agent-in-the-loop quality assurance mechanism. Additionally, to tackle the absence of standardized evaluation protocols in this area, we present JAVEditBench, a robust benchmark that includes curated source videos and human-aligned instructions covering all editing categories. Lastly, we propose JAVEdit, a novel baseline model for instruction-guided joint audio-visual editing. Our experiments demonstrate that JAVEdit surpasses all existing baselines on five out of six evaluation metrics.

Source: arXiv Generated at: 2026-06-03 00:00:00 UTC