奈飞研究院与索菲亚大学联合开发了VOID(Video Object and Interaction Deletion)AI框架。该框架不仅能从视频中移除物体,还能重新模拟剩余场景的物理行为,已以Apache 2.0许可证开源。
传统视频擦除工具在处理物体间存在物理接触(如碰撞、支撑)的场景时容易穿帮。VOID的核心在于理解物理因果,例如:
- 移除一排多米诺骨牌中的一块,后续骨牌不会倒下。
- 移除跳入泳池的人,水面不会溅起水花。
- 移除手持物体的人,物体会自然下落。
技术流程主要包括:
- 感知与规划:使用SAM2进行物体分割,Gemini分析场景语义,生成标记主体、重叠区、受影响区和背景的“quadmask”。
- 轨迹生成:基于CogVideoX微调模型,生成物理合理的反事实运动轨迹。
- 稳定优化(可选):通过“光流噪声稳定”技术,防止长视频片段中的物体变形。
该模型使用约6400组物理模拟数据进行训练。在偏好测试中,VOID以64.8%的选择率领先于部分商业工具。目前推理需A100级别(40GB以上)显存。