DeepSeek近日发布了全新的DeepSeek-OCR 2模型。该模型采用创新的DeepEncoder V2方法,使AI能够根据图像的实际含义动态重排图像各部分,而非机械地执行从左到右的扫描。
这种方式模拟了人类观察场景时的逻辑流程。在处理布局复杂的图片(如文档或图表)时,该模型的表现优于传统视觉-语言模型,实现了更智能、更具因果推理能力的视觉理解。
DeepSeek近日发布了全新的DeepSeek-OCR 2模型。该模型采用创新的DeepEncoder V2方法,使AI能够根据图像的实际含义动态重排图像各部分,而非机械地执行从左到右的扫描。
这种方式模拟了人类观察场景时的逻辑流程。在处理布局复杂的图片(如文档或图表)时,该模型的表现优于传统视觉-语言模型,实现了更智能、更具因果推理能力的视觉理解。