AI

DeepSeek开源新模型,实现高效视觉文本压缩

发布时间:2025年10月21日    来源:szf
DeepSeek开源新模型,实现高效视觉文本压缩

快速阅读: DeepSeek开源DeepSeek-OCR新模型,通过光学2D映射压缩长上下文,首次实现此技术。模型由DeepEncoder和DeepSeek3B-MoE-A570M组成,可在高分辨率下保持低激活状态,大幅减少计算成本,受到业界高度评价。

DeepSeek开源新模型:用视觉模式实现上下文压缩。

10月20日,DeepSeek宣布开源最新大模型DeepSeek-OCR。该模型旨在通过光学2D映射压缩长上下文,这是首次对此技术进行的初步研究。DeepSeek-OCR由两部分组成:DeepEncoder和作为解码器的DeepSeek3B-MoE-A570M。DeepEncoder作为核心组件,设计用于在高分辨率输入下保持低激活状态,同时实现高压缩比,确保视觉token的数量既优化又可管理。

简而言之,这是一种视觉-文本压缩方法,通过少量的视觉token来表示原本需要大量文本token的信息,从而减少大模型的计算成本。

根据公开的论文名单,该项目由DeepSeek的三位研究员Haoran Wei、Yaofeng Sun和Yukun Li共同完成。这三位核心作者相对低调,其中第一作者Haoran Wei曾就职于阶跃星辰,并主导开发了旨在实现“第二代OCR”的GOT-OCR2.0系统。

DeepSeek-OCR的架构分为两部分:一是专为高压缩、高分辨率文档处理设计的视觉编码器DeepEncoder;二是轻量级混合专家语言解码器DeepSeek3B-MoE。这款新模型自开源以来,受到了海外科技媒体的广泛赞誉,有网民称赞其为“AI的JPEG时刻”。前特斯拉AI总监、OpenAI创始成员安德烈·卡帕西(Andrej Karpathy)也在社交媒体上高度评价DeepSeek的新模型,他表示非常喜欢这篇关于DeepSeek-OCR的论文,并对其提出的观点——即像素是否比文本更适合用作大模型的输入——感到特别兴趣。

特斯拉创始人埃隆·马斯克(Elon Musk)也在评论区发表意见,他认为从长远来看,AI模型超过99%的输入和输出都将是光子,没有其他形式能够实现规模化的应用。知名科技媒体《麻省理工科技评论》指出,DeepEncoder是整个系统的中心。它的设计目的是在处理高分辨率输入图像的同时,保持较低的激活内存,并实现极高的压缩比。为了达到这一目标,DeepEncoder结合了两种成熟的视觉模型架构:SAM(Segment Anything Model)和CLIP(Contrastive Language–Image Pre-training)。前者以其窗口注意力机制擅长处理局部细节,构成编码器的前半部分;后者依赖密集的全局注意力机制,能够捕捉整体知识信息。

《麻省理工科技评论》还提到,除了文本识别性能外,DeepSeek-OCR还具有强大的“深度解析”能力,这得益于其训练数据中包含的各种视觉内容,如图表、化学分子式、几何图形等。因此,该模型不仅能够识别标准文本,还能对文档中嵌入的复杂元素进行结构化解析,例如将报告中的图表转换为表格数据,将化学文献中的分子式输出为SMILES格式,或解析几何图形中的线段关系。这些能力扩展了其在金融、科研、教育等领域的应用潜力。

实验结果显示,当文本token数量在视觉token的10倍以内(即压缩比小于10倍)时,模型的OCR精度可达97%。即使在20倍压缩比下,OCR精度仍保持在约60%。这为历史长上下文压缩和大模型中的记忆遗忘机制等研究领域提供了广阔的前景。

DeepSeek-OCR初步验证了上下文光学压缩的可行性,证明模型可以从少量视觉token中有效解码出超过10倍数量的文本token。此外,该模型具有高度实用性,能够大规模生产预训练数据。未来,研究团队计划进行数字-光学文本交错预训练、大海捞针测试等进一步评估,继续推动这一有前景的研究方向。

海外科技媒体分析指出,研究团队在基准测试中发现,DeepSeek-OCR在使用较少视觉token的情况下优于多个主流模型。此外,单张A100-40G GPU每天可生成超过20万页的训练数据,为大型语言模型和视觉-语言模型的开发提供了有力支持。

前网易副总裁、杭州研究院执行院长汪源发文表示,DeepSeek-OCR是一款能够“理解”图片中文字的AI模型。其独特之处不仅在于简单的“识字”,而是采用了创新的方法:将文字视为图片进行处理和压缩。汪源认为,可以将其视为一个超级高效的“视觉压缩器”。传统的AI模型直接“读取”文本,而DeepSeek-OCR则是先“查看”文本的图像,然后将一页文档的图片信息高度压缩成少量的视觉token。DeepSeek-OCR的强大之处在于,它可以将一篇1000字的文章压缩成100个视觉token,在10倍压缩下,识别准确率可达到96.5%。

(以上内容均由Ai生成)

你可能还想读

微软Windows 11 Copilot如何卸载

微软Windows 11 Copilot如何卸载

快速阅读: 微软宣布Windows 11更新,引入Copilot为核心的人工智能助手,实现文本语音互动、指导支持及代理操作。此举虽与谷歌等公司类似,但引发部分用户隐私担忧,微软已调整部分AI功能计划。 上周,微软宣布了一系列更新,使每一台W […]

发布时间:2025年10月23日
NEXCOM推出新平台,加速AI洞察

NEXCOM推出新平台,加速AI洞察

快速阅读: NEXCOM,总部位于中国台湾,自1992年成立以来,通过其NCS部门提供涵盖网络安全、SD-WAN、5G uCPE等领域的先进平台,助力企业构建可靠、可扩展的网络基础设施,推动未来连接技术发展。 成立于1992年,总部位于中国 […]

发布时间:2025年10月23日
Zonetail与FUTR在加拿大推出AI租房报告计划

Zonetail与FUTR在加拿大推出AI租房报告计划

快速阅读: Zonetail与The FUTR Corporation合作,推出加拿大首个人工智能驱动的租金报告项目,租户支付租金可建立信用并获FUTR代币奖励,2025年四季度启动,初期覆盖12,000个单位,计划2026年初扩展至70, […]

发布时间:2025年10月23日
Meta联手Blue Owl资本,270亿美元打造AI数据中心巨无霸项目

Meta联手Blue Owl资本,270亿美元打造AI数据中心巨无霸项目

快速阅读: Meta与Blue Owl Capital合作,成立270亿美元合资企业,开发路易斯安那州Hyperion数据中心园区,占地2,250英亩,使用SPV结构融资,Meta持有20%股份,项目计划2030年前完成,初期计算能力2吉瓦 […]

发布时间:2025年10月23日
CoreWeave推出专为AI优化的高速对象存储

CoreWeave推出专为AI优化的高速对象存储

快速阅读: CoreWeave推出专为AI工作负载优化的对象存储,解决GPU驱动任务中数据移动瓶颈,提高数据访问速度和效率,支持大规模模型训练,减少成本和操作复杂性。 在部署人工智能工作负载时,随着对数据需求量大的模型的压力增大,存储架构中 […]

发布时间:2025年10月23日
亚马逊展示智能眼镜和机器人,加速最后一公里配送

亚马逊展示智能眼镜和机器人,加速最后一公里配送

快速阅读: 亚马逊在“未来交付”活动上展示智能配送眼镜Amelia,内置小屏提供导航和扫描功能,旨在提高配送效率和安全性,已开始实地测试,同时推出新机器人和AI系统优化仓储与配送流程。 在位于加州米尔皮塔斯的DUR3配送站举行的“未来交付” […]

发布时间:2025年10月23日
Meta裁减AI部门600岗位,加速全球竞赛

Meta裁减AI部门600岗位,加速全球竞赛

快速阅读: Meta重组AI部门,计划裁员600人,旨在缩小规模、加快决策,增强竞争力。首席AI官Alexandr Wang宣布,此举涉及产品、基础设施及研究团队,但TBD实验室不受影响。 Meta正在对其人工智能部门进行重组,计划裁员约6 […]

发布时间:2025年10月23日
马斯克计划年底前扩大特斯拉无人出租车运营范围

马斯克计划年底前扩大特斯拉无人出租车运营范围

快速阅读: 特斯拉计划年底前在8至10个新州推出机器人出租车,包括内华达、佛罗里达和亚利桑那,需克服监管障碍。奥斯汀现有约20辆车,行驶超25万英里,旧金山超100万英里。 马斯克还表示,特斯拉计划在年底前在8到10个新的州运营机器人出租车 […]

发布时间:2025年10月23日