DeepSeek开源新模型,实现高效视觉文本压缩
快速阅读: DeepSeek开源DeepSeek-OCR新模型,通过光学2D映射压缩长上下文,首次实现此技术。模型由DeepEncoder和DeepSeek3B-MoE-A570M组成,可在高分辨率下保持低激活状态,大幅减少计算成本,受到业界高度评价。
DeepSeek开源新模型:用视觉模式实现上下文压缩。
10月20日,DeepSeek宣布开源最新大模型DeepSeek-OCR。该模型旨在通过光学2D映射压缩长上下文,这是首次对此技术进行的初步研究。DeepSeek-OCR由两部分组成:DeepEncoder和作为解码器的DeepSeek3B-MoE-A570M。DeepEncoder作为核心组件,设计用于在高分辨率输入下保持低激活状态,同时实现高压缩比,确保视觉token的数量既优化又可管理。
简而言之,这是一种视觉-文本压缩方法,通过少量的视觉token来表示原本需要大量文本token的信息,从而减少大模型的计算成本。
根据公开的论文名单,该项目由DeepSeek的三位研究员Haoran Wei、Yaofeng Sun和Yukun Li共同完成。这三位核心作者相对低调,其中第一作者Haoran Wei曾就职于阶跃星辰,并主导开发了旨在实现“第二代OCR”的GOT-OCR2.0系统。
DeepSeek-OCR的架构分为两部分:一是专为高压缩、高分辨率文档处理设计的视觉编码器DeepEncoder;二是轻量级混合专家语言解码器DeepSeek3B-MoE。这款新模型自开源以来,受到了海外科技媒体的广泛赞誉,有网民称赞其为“AI的JPEG时刻”。前特斯拉AI总监、OpenAI创始成员安德烈·卡帕西(Andrej Karpathy)也在社交媒体上高度评价DeepSeek的新模型,他表示非常喜欢这篇关于DeepSeek-OCR的论文,并对其提出的观点——即像素是否比文本更适合用作大模型的输入——感到特别兴趣。
特斯拉创始人埃隆·马斯克(Elon Musk)也在评论区发表意见,他认为从长远来看,AI模型超过99%的输入和输出都将是光子,没有其他形式能够实现规模化的应用。知名科技媒体《麻省理工科技评论》指出,DeepEncoder是整个系统的中心。它的设计目的是在处理高分辨率输入图像的同时,保持较低的激活内存,并实现极高的压缩比。为了达到这一目标,DeepEncoder结合了两种成熟的视觉模型架构:SAM(Segment Anything Model)和CLIP(Contrastive Language–Image Pre-training)。前者以其窗口注意力机制擅长处理局部细节,构成编码器的前半部分;后者依赖密集的全局注意力机制,能够捕捉整体知识信息。
《麻省理工科技评论》还提到,除了文本识别性能外,DeepSeek-OCR还具有强大的“深度解析”能力,这得益于其训练数据中包含的各种视觉内容,如图表、化学分子式、几何图形等。因此,该模型不仅能够识别标准文本,还能对文档中嵌入的复杂元素进行结构化解析,例如将报告中的图表转换为表格数据,将化学文献中的分子式输出为SMILES格式,或解析几何图形中的线段关系。这些能力扩展了其在金融、科研、教育等领域的应用潜力。
实验结果显示,当文本token数量在视觉token的10倍以内(即压缩比小于10倍)时,模型的OCR精度可达97%。即使在20倍压缩比下,OCR精度仍保持在约60%。这为历史长上下文压缩和大模型中的记忆遗忘机制等研究领域提供了广阔的前景。
DeepSeek-OCR初步验证了上下文光学压缩的可行性,证明模型可以从少量视觉token中有效解码出超过10倍数量的文本token。此外,该模型具有高度实用性,能够大规模生产预训练数据。未来,研究团队计划进行数字-光学文本交错预训练、大海捞针测试等进一步评估,继续推动这一有前景的研究方向。
海外科技媒体分析指出,研究团队在基准测试中发现,DeepSeek-OCR在使用较少视觉token的情况下优于多个主流模型。此外,单张A100-40G GPU每天可生成超过20万页的训练数据,为大型语言模型和视觉-语言模型的开发提供了有力支持。
前网易副总裁、杭州研究院执行院长汪源发文表示,DeepSeek-OCR是一款能够“理解”图片中文字的AI模型。其独特之处不仅在于简单的“识字”,而是采用了创新的方法:将文字视为图片进行处理和压缩。汪源认为,可以将其视为一个超级高效的“视觉压缩器”。传统的AI模型直接“读取”文本,而DeepSeek-OCR则是先“查看”文本的图像,然后将一页文档的图片信息高度压缩成少量的视觉token。DeepSeek-OCR的强大之处在于,它可以将一篇1000字的文章压缩成100个视觉token,在10倍压缩下,识别准确率可达到96.5%。
(以上内容均由Ai生成)