用图像替代纯文本,AI模型能否突破令牌限制?
快速阅读: 探讨将文本转换为图像输入AI的新理念,旨在解决LLM处理文本标记数量限制问题,实验显示图像输入可大幅提高压缩比,未来潜力巨大。
在今日专栏中,我探讨了一个创新的理念,该理念巧妙地颠覆了生成式人工智能(AI)和大型语言模型(LLM)的传统设计。简单来说,这个大胆的想法是:与其让生成式AI接收纯文本,不如先将文本捕捉为图像,再将这些图像输入到AI中。
这听起来似乎很荒诞。对于了解LLM技术基础的人来说,这种做法显得非常怪异且不合逻辑。你可能会大声质疑,认为这样做毫无意义。原因在于,LLM被设计为处理自然语言,如英语,因此大量依赖于文本。文本是我们通常用来向LLM输入提示或提问的方式。选择使用文本图像而非实际文本,似乎是一个离谱的概念,甚至可以说是亵渎性的。
然而,请稍安勿躁,因为一些认真的研究者尝试了这种方法,并发现其具有足够的价值,值得我们给予一定的关注。让我们来讨论一下这个问题。
### 分词至关重要
问题的核心在于现代生成式AI和LLM的分词方面。我曾在其他文章中详细讨论过分词过程(详情见此链接)。这里提供一个简要概述以帮助您快速理解。
当您向AI输入文本时,文本会被转换成一系列数字。这些数字在整个处理过程中被使用,直到AI得出答案。实际上,答案最初是以数字形式存在,需要转换回文本,以便用户能够阅读。这一整个过程称为分词。您输入的文本被编码成一组数字,这些数字被称为“标记”。这些标记通过AI系统流动,用于解答您的问题。最终的回答最初是以数字形式的标记呈现,需要解码回文本。
幸运的是,普通用户无需了解分词过程。他们不必知道这些细节。这个话题对AI开发者来说非常重要,但对公众来说兴趣不大。为了提高分词过程的速度,人们常常会使用各种数值技巧,以确保AI在编码和解码过程中不会被延误。
### 标记是一个问题
我提到,普通公众通常不了解LLM的分词特性。但这并非总是如此。任何将AI推向极限的人都可能对分词有所了解。
问题在于,大多数当代的LLM,如OpenAI的ChatGPT和GPT-5、Anthropic的Claude、Meta的Llama、Google的Gemini、xAI的Grok等,由于能处理的标记数量有限,因此存在一定的局限性。当ChatGPT首次推出时,单次对话允许的标记数非常有限。
您会突然发现,ChatGPT无法再回忆起您对话的早期部分。这是因为AI达到了同时处理的最大标记数限制,早期对话的标记被直接丢弃。如果您正在进行长时间和复杂的对话,这些限制令人沮丧,几乎排除了使用生成式AI进行大规模问题解决的可能性。当您通过RAG等方法导入文本时,同样的问题也会出现。文本需要被分词,并再次计入AI可以处理的标记数上限。
这令那些希望利用生成式AI进行更大规模问题解决的人感到非常不满。
### 限制提高了但仍存在
早期版本的ChatGPT在同一时间点只能处理不到10,000个标记。如果将一个标记视为代表一个小词,如“the”或“dog”,这意味着一旦您的对话消耗了大约一万个简单的词,就会达到上限。这在当时对于任何长时间或复杂的使用都是无法忍受的。
如今,常规版GPT-5的上下文窗口大小约为400,000个标记,这是输入和输出标记总数的总容量。上下文窗口的大小可以有所不同。例如,Claude的一些模型限制在约200,000个标记,而其他模型则可扩展至约500,000个标记。
未来的愿景是,人工智能在处理令牌数量上将不再有任何限制。目前有先进的研究致力于所谓的无限或无尽内存技术,这几乎可以支持任意数量的令牌。当然,从实际角度来看,服务器内存总是有限的,因此真正的无限是不可能的,但这一说法既吸引人又相对合理。有关AI无限内存的工作原理,请参阅链接。
应对令牌问题
由于令牌化是大多数大型语言模型(LLM)设计和使用的核心,因此许多努力都集中在优化令牌化方面。目标是在系统内存限制内尽可能多地容纳令牌,这可能通过减小令牌大小来实现。
AI设计者们不断尝试压缩令牌,这样做可能会带来很大帮助。例如,如果一个令牌窗口通常限制为20万个令牌,而每个令牌的大小能减半,那么限制就能翻倍至40万个令牌。这是个不错的方案。
然而,压缩令牌有一个棘手的问题。虽然通常可以缩小令牌的大小,但这会降低精度。这很糟糕,但不一定致命,因为它们仍然可用。关键在于牺牲了多少精度。
理想情况下,我们希望在不损失任何精度的情况下达到最大压缩。这是一个崇高的目标。实际上,往往需要在压缩水平和精度准确性之间做出权衡。正如生活中的许多事情一样,没有免费的午餐。
跳出思维定势
假设我们允许自己跳出传统框架思考。
通常,对于LLM,我们会接受纯文本输入,将其编码为令牌,然后按部就班地处理。我们几乎总是默认用户的输入是纯文本,他们通过键盘输入文本,这些文本随后被转换成令牌。这是一种直接的方法。
现在,让我们思考其他可能性。
假设我们将文本视为图像。
你已经知道,可以通过拍摄文本的照片并进行光学扫描,将其保存为图像或转换为文本。这个过程被称为OCR(光学字符识别),自计算机早期就已经存在。
传统的OCR过程是将图像转换为文本,称为图像到文本。有时,你可能希望反向操作,即将文本转换为图像,这称为文本到图像处理。有许多现有的软件应用程序可以轻松完成图像到文本和文本到图像的转换,这已经不是什么新鲜事了。
关于LLM和令牌化的疯狂想法如下:
我们仍然让用户输入文本,但将这些文本转换为图像(即文本到图像)。接下来,图像文本由令牌编码器处理。因此,编码器不是基于纯文本编码,而是基于文本图像编码。当AI准备向用户提供响应时,令牌将通过图像到文本的转换转换回文本。这就是所谓的“一击即中”。
理解这种惊喜
你可能会问,玩弄图像有什么好处?
如果图像到令牌的转换能够使令牌变小,我们或许可以压缩令牌。这反过来意味着在有限的内存范围内,我们可以容纳更多的令牌。记住,压缩令牌是我们始终关注的目标。
在最近发表的一篇名为《DeepSeek-OCR:上下文光学压缩》的研究论文中,作者Wei Haoran、Sun Yaofeng和Li Yukun提出了以下观点(摘录):
“单张包含文档文本的图像可以使用远少于等效数字文本的令牌表示丰富信息,表明通过视觉令牌实现的光学压缩可以达到更高的压缩比。”
“这一见解促使我们从LLM的角度重新审视视觉-语言模型(VLM),专注于视觉编码器如何提高LLM处理文本信息的效率,而不是人类擅长的基本视觉问答(VQA)。”
“OCR任务作为视觉和语言之间的中间模态,为这种视觉-文本压缩范式提供了理想的测试平台,因为它在视觉和文本表示之间建立了自然的压缩-解压缩映射,同时提供定量评估指标。”
“我们的方法在Fox基准测试中实现了96%以上的OCR解码精度,压缩比为9-10倍;约90%的精度,压缩比为10-12倍;以及约60%的精度,压缩比为20倍,这些测试涉及多样化的文档布局(考虑到输出和真实值之间的格式差异,实际准确率甚至更高)。”
实验结果显示,有时可以实现高达10倍的压缩比,同时保持96%的精度。如果这一成果能够普遍实现,则意味着目前的40万令牌窗口限制可以提高到400万令牌,尽管精度会降低至96%。这种精度水平是否可接受,取决于人工智能的具体应用场景。天下没有免费的午餐,至少目前如此。20倍的压缩率会更好,但60%的精度显然不太吸引人。即便如此,在某些情况下,人们或许不得不勉强接受60%的精度以换取20倍的压缩率。
著名的人工智能专家Andrej Karpathy在网上发表了他对这种方法的初步看法:“我对新的DeepSeek-OCR论文非常感兴趣。这是一个很好的OCR模型(可能略逊于dots),数据收集等方面的问题暂且不论,这些都不重要。对我来说,更有趣的部分在于,像素是否比文本更适合用作大语言模型的输入。是否文本令牌在输入时显得浪费且糟糕。或许所有输入到大语言模型的数据都应该仅限于图像。”(来源:Twitter/X,2025年10月20日)。
集思广益是有效的
研究还尝试了多种自然语言。这进一步证明了使用图像而非纯文本的价值。众所周知,有些自然语言使用图画字符和词汇,这类语言特别适合基于图像的标记化方法。
另一个引人入胜的方面是我们已经有了视觉语言模型(VLMs),即专门处理视觉图像而非文本的人工智能。我们无需重新发明轮子来在大语言模型(LLMs)中实现类似功能。只需借鉴VLMs的成功经验并适当调整以适用于LLMs即可。这是一种充分利用已有资源的方法。
这一理念值得肯定并进一步探索。我并不建议立即宣称所有大语言模型都应转向这种方法。目前的结论尚未定论。我们需要更多的研究来了解这一方法能走多远,同时也要全面评估其优缺点。
与此同时,我们可以大胆地宣布:“有时候,一张图片确实抵得上千言万语。”
(以上内容均由Ai生成)