当前位置：前瞻产业研究院 » 经济学人 » 观察家专栏

DeepSeek-OCR：大模型技术，正站在一个新的十字路口

分享到：

硅基星芒 • 2025-10-22 17:54:55 　来源：硅基星芒　E9136G1

（图片来源：摄图网）

作者|加西亚来源|硅基星芒

想象一下，在这个AI技术如潮水般涌来的时代，我们忽然发现，一张简单的图像，竟然能以惊人的效率承载海量文字信息。这已不是“想象”，而是刚刚发生的现实。

本周，DeepSeek开源了一个名为“DeepSeek-OCR”的模型，它首次提出了“上下文光学压缩”（Context Optical Compression）的概念，技术细节和背后的论文也随之公开。

虽然市场上的讨论还不多，但这或许是AI演进史上一个悄然却深刻的转折点——它让我们开始质疑：图像，是否才是信息处理的真正王者？

一

图像的隐秘力量：为什么图像可能胜过文本

回想一下，我们日常处理的文档、报告、书籍，往往被分解成无数的文本标记（tokens），这些标记像砖块一样堆砌成模型的“理解墙”。

但DeepSeek-OCR却另辟蹊径：它将文字视为图像来处理，通过视觉编码，将整页内容压缩成少量“视觉标记”，然后再解码还原为文字、表格甚至图表。

结果呢？效率提升了十倍之多，准确率高达97%。

这不仅仅是技术优化，而试图证明：图像不是信息的奴隶，而是它的高效载体。

拿一篇千字文章来说，传统方法可能需要上千个标记来处理，而DeepSeek只需约100个视觉标记，就能以97%的保真度还原一切。这意味着，模型可以轻松应对超长文档，而不必为计算资源发愁。

二

架构与工作原理

DeepSeek-OCR的系统设计像一部精密的机器，分成两个模块：强大的DeepEncoder负责捕捉页面信息，轻量级的文本生成器则像一位翻译家，将视觉标记转化为可读输出。

编码器融合了SAM的局部分析能力和CLIP的全局理解，再通过一个16倍压缩器，将初始的4096个标记精简到仅256个。这正是效率的核心秘密。

更聪明的是，它能根据文档复杂度自动调整：简单的PPT只需64个标记，书籍报告约100个，而密集的报纸最多800个。

相比之下，它超越了GOT-OCR 2.0（需要256个标记）和MinerU 2.0（每页6000+标记），标记量减少了90%。解码器采用混合专家（MoE）架构，拥有约30亿参数（激活时约57亿），能快速生成文本、Markdown或结构化数据。

在实际测试中，一台A100显卡，每天能处理超过20万页文档；如果扩展到20台八卡服务器，日处理量可达3300万页。这已不是实验室玩具，而是工业级利器。

三

一个深刻的悖论：图像为何更“节约”？

这里藏着一个有趣的悖论：图像明明包含更多原始数据，为什么在模型中反而能用更少标记表达？答案在于信息密度。

文本标记虽表面简洁，但在模型内部需展开成数千维度的向量；图像标记则像连续的画卷，能更紧凑地封装信息。这就好比人类记忆：近期事件清晰如昨，遥远往事渐趋模糊，却不失本质。

DeepSeek-OCR证明了视觉标记的可行性，但纯视觉基础模型的训练仍是谜题。传统大模型靠“预测下一词”这个清晰目标成功，而图像文字的预测目标模糊不清——预测下一个图像片段？评估太难；转为文本，又回到了老路。

所以，目前它只是现有体系的增强，而非替代。我们正站在十字路口：前方是无限可能，却需耐心等待突破。

如果这项技术成熟推广，它将如涟漪般扩散影响：

首先，改变“标记经济”：长文档不再受上下文窗口限制，处理成本大幅降低。其次，提升信息提取：财务图表、技术图纸能直接转为结构化数据，精准高效。最后，增强灵活性：在非理想硬件下仍稳定运行， democratize AI应用。

更妙的是，它还能改善聊天机器人的长对话记忆。通过“视觉衰减”：将旧对话转为低分辨率图像存储，模拟人类记忆衰退，扩展上下文而不爆表标记。

四

结语

DeepSeek-OCR的探索意义，不止于十倍效率提升，更在于它重绘了文档处理的边界。它挑战了上下文限制，优化了成本结构，革新了企业流程。

虽然纯视觉训练的曙光尚遥，但光学压缩无疑是我们迈向未来的一个新选项。

问：为什么不能直接从文字图像开始训练基础模型？

答：大模型成功靠“预测下一词”的明确目标和易评估方式。对于文字图像，预测下一个图像片段评估困难、速度慢；转为文本标记，又回到了传统路径。DeepSeek选择在现有模型基础上微调，解码视觉表征，但未取代标记基础。

问：与传统OCR系统相比，速度表现如何？

答：处理一张3503×1668像素图像，基础文本提取需24秒，结构化Markdown需39秒，带坐标框的完整解析需58秒。传统OCR更快，但准确率同等时需数千标记——如MinerU 2.0每页6000+，DeepSeek仅需800以内。

问：这项技术能否改善聊天机器人的长对话记忆？

答：是的。通过“视觉衰减”：旧对话转为低分辨率图像，模拟记忆衰退，扩展上下文而不增标记消耗。适用于长期记忆场景，但生产实现细节待详述。

编者按：本文转载自微信公众号：硅基星芒，作者：加西亚

本文来源硅基星芒，内容仅代表作者本人观点，不代表前瞻网的立场。本站只提供参考并不构成任何投资及应用建议。（若存在内容、版权或其它问题，请联系：service@qianzhan.com）　品牌合作与广告投放请联系：0755-33015062 或 hezuo@qianzhan.com

p30 q1 我要投稿

标签： DeepSeek-OCR 大模型技术图像

品牌、内容合作请点这里：寻求合作 ››

前瞻经济学人

专注于中国各行业市场分析、未来发展趋势等。扫一扫立即关注。

前瞻产业研究院

中国产业咨询领导者，专业提供产业规划、产业申报、产业升级转型、产业园区规划、可行性报告等领域解决方案，扫一扫关注。

DeepSeek-OCR：大模型技术，正站在一个新的十字路口

前瞻经济学人

前瞻产业研究院

相关阅读RELEVANT

咨询·服务

研究员周关注榜

决策精品报告

DeepSeek-OCR：大模型技术，正站在一个新的十字路口

前瞻经济学人

前瞻产业研究院

相关阅读RELEVANT

咨询·服务

研究员周关注榜