用图像替代纯文本,AI模型能否突破令牌限制?

发布时间:2025年10月25日    来源:szf
用图像替代纯文本,AI模型能否突破令牌限制?

快速阅读: 探讨将文本转换为图像输入AI的新理念,旨在解决LLM处理文本标记数量限制问题,实验显示图像输入可大幅提高压缩比,未来潜力巨大。

在今日专栏中,我探讨了一个创新的理念,该理念巧妙地颠覆了生成式人工智能(AI)和大型语言模型(LLM)的传统设计。简单来说,这个大胆的想法是:与其让生成式AI接收纯文本,不如先将文本捕捉为图像,再将这些图像输入到AI中。

这听起来似乎很荒诞。对于了解LLM技术基础的人来说,这种做法显得非常怪异且不合逻辑。你可能会大声质疑,认为这样做毫无意义。原因在于,LLM被设计为处理自然语言,如英语,因此大量依赖于文本。文本是我们通常用来向LLM输入提示或提问的方式。选择使用文本图像而非实际文本,似乎是一个离谱的概念,甚至可以说是亵渎性的。

然而,请稍安勿躁,因为一些认真的研究者尝试了这种方法,并发现其具有足够的价值,值得我们给予一定的关注。让我们来讨论一下这个问题。

### 分词至关重要

问题的核心在于现代生成式AI和LLM的分词方面。我曾在其他文章中详细讨论过分词过程(详情见此链接)。这里提供一个简要概述以帮助您快速理解。

当您向AI输入文本时,文本会被转换成一系列数字。这些数字在整个处理过程中被使用,直到AI得出答案。实际上,答案最初是以数字形式存在,需要转换回文本,以便用户能够阅读。这一整个过程称为分词。您输入的文本被编码成一组数字,这些数字被称为“标记”。这些标记通过AI系统流动,用于解答您的问题。最终的回答最初是以数字形式的标记呈现,需要解码回文本。

幸运的是,普通用户无需了解分词过程。他们不必知道这些细节。这个话题对AI开发者来说非常重要,但对公众来说兴趣不大。为了提高分词过程的速度,人们常常会使用各种数值技巧,以确保AI在编码和解码过程中不会被延误。

### 标记是一个问题

我提到,普通公众通常不了解LLM的分词特性。但这并非总是如此。任何将AI推向极限的人都可能对分词有所了解。

问题在于,大多数当代的LLM,如OpenAI的ChatGPT和GPT-5、Anthropic的Claude、Meta的Llama、Google的Gemini、xAI的Grok等,由于能处理的标记数量有限,因此存在一定的局限性。当ChatGPT首次推出时,单次对话允许的标记数非常有限。

您会突然发现,ChatGPT无法再回忆起您对话的早期部分。这是因为AI达到了同时处理的最大标记数限制,早期对话的标记被直接丢弃。如果您正在进行长时间和复杂的对话,这些限制令人沮丧,几乎排除了使用生成式AI进行大规模问题解决的可能性。当您通过RAG等方法导入文本时,同样的问题也会出现。文本需要被分词,并再次计入AI可以处理的标记数上限。

这令那些希望利用生成式AI进行更大规模问题解决的人感到非常不满。

### 限制提高了但仍存在

早期版本的ChatGPT在同一时间点只能处理不到10,000个标记。如果将一个标记视为代表一个小词,如“the”或“dog”,这意味着一旦您的对话消耗了大约一万个简单的词,就会达到上限。这在当时对于任何长时间或复杂的使用都是无法忍受的。

如今,常规版GPT-5的上下文窗口大小约为400,000个标记,这是输入和输出标记总数的总容量。上下文窗口的大小可以有所不同。例如,Claude的一些模型限制在约200,000个标记,而其他模型则可扩展至约500,000个标记。

未来的愿景是,人工智能在处理令牌数量上将不再有任何限制。目前有先进的研究致力于所谓的无限或无尽内存技术,这几乎可以支持任意数量的令牌。当然,从实际角度来看,服务器内存总是有限的,因此真正的无限是不可能的,但这一说法既吸引人又相对合理。有关AI无限内存的工作原理,请参阅链接。

应对令牌问题

由于令牌化是大多数大型语言模型(LLM)设计和使用的核心,因此许多努力都集中在优化令牌化方面。目标是在系统内存限制内尽可能多地容纳令牌,这可能通过减小令牌大小来实现。

AI设计者们不断尝试压缩令牌,这样做可能会带来很大帮助。例如,如果一个令牌窗口通常限制为20万个令牌,而每个令牌的大小能减半,那么限制就能翻倍至40万个令牌。这是个不错的方案。

然而,压缩令牌有一个棘手的问题。虽然通常可以缩小令牌的大小,但这会降低精度。这很糟糕,但不一定致命,因为它们仍然可用。关键在于牺牲了多少精度。

理想情况下,我们希望在不损失任何精度的情况下达到最大压缩。这是一个崇高的目标。实际上,往往需要在压缩水平和精度准确性之间做出权衡。正如生活中的许多事情一样,没有免费的午餐。

跳出思维定势

假设我们允许自己跳出传统框架思考。

通常,对于LLM,我们会接受纯文本输入,将其编码为令牌,然后按部就班地处理。我们几乎总是默认用户的输入是纯文本,他们通过键盘输入文本,这些文本随后被转换成令牌。这是一种直接的方法。

现在,让我们思考其他可能性。

假设我们将文本视为图像。

你已经知道,可以通过拍摄文本的照片并进行光学扫描,将其保存为图像或转换为文本。这个过程被称为OCR(光学字符识别),自计算机早期就已经存在。

传统的OCR过程是将图像转换为文本,称为图像到文本。有时,你可能希望反向操作,即将文本转换为图像,这称为文本到图像处理。有许多现有的软件应用程序可以轻松完成图像到文本和文本到图像的转换,这已经不是什么新鲜事了。

关于LLM和令牌化的疯狂想法如下:

我们仍然让用户输入文本,但将这些文本转换为图像(即文本到图像)。接下来,图像文本由令牌编码器处理。因此,编码器不是基于纯文本编码,而是基于文本图像编码。当AI准备向用户提供响应时,令牌将通过图像到文本的转换转换回文本。这就是所谓的“一击即中”。

理解这种惊喜

你可能会问,玩弄图像有什么好处?

如果图像到令牌的转换能够使令牌变小,我们或许可以压缩令牌。这反过来意味着在有限的内存范围内,我们可以容纳更多的令牌。记住,压缩令牌是我们始终关注的目标。

在最近发表的一篇名为《DeepSeek-OCR:上下文光学压缩》的研究论文中,作者Wei Haoran、Sun Yaofeng和Li Yukun提出了以下观点(摘录):

“单张包含文档文本的图像可以使用远少于等效数字文本的令牌表示丰富信息,表明通过视觉令牌实现的光学压缩可以达到更高的压缩比。”

“这一见解促使我们从LLM的角度重新审视视觉-语言模型(VLM),专注于视觉编码器如何提高LLM处理文本信息的效率,而不是人类擅长的基本视觉问答(VQA)。”

“OCR任务作为视觉和语言之间的中间模态,为这种视觉-文本压缩范式提供了理想的测试平台,因为它在视觉和文本表示之间建立了自然的压缩-解压缩映射,同时提供定量评估指标。”

“我们的方法在Fox基准测试中实现了96%以上的OCR解码精度,压缩比为9-10倍;约90%的精度,压缩比为10-12倍;以及约60%的精度,压缩比为20倍,这些测试涉及多样化的文档布局(考虑到输出和真实值之间的格式差异,实际准确率甚至更高)。”

实验结果显示,有时可以实现高达10倍的压缩比,同时保持96%的精度。如果这一成果能够普遍实现,则意味着目前的40万令牌窗口限制可以提高到400万令牌,尽管精度会降低至96%。这种精度水平是否可接受,取决于人工智能的具体应用场景。天下没有免费的午餐,至少目前如此。20倍的压缩率会更好,但60%的精度显然不太吸引人。即便如此,在某些情况下,人们或许不得不勉强接受60%的精度以换取20倍的压缩率。

著名的人工智能专家Andrej Karpathy在网上发表了他对这种方法的初步看法:“我对新的DeepSeek-OCR论文非常感兴趣。这是一个很好的OCR模型(可能略逊于dots),数据收集等方面的问题暂且不论,这些都不重要。对我来说,更有趣的部分在于,像素是否比文本更适合用作大语言模型的输入。是否文本令牌在输入时显得浪费且糟糕。或许所有输入到大语言模型的数据都应该仅限于图像。”(来源:Twitter/X,2025年10月20日)。

集思广益是有效的

研究还尝试了多种自然语言。这进一步证明了使用图像而非纯文本的价值。众所周知,有些自然语言使用图画字符和词汇,这类语言特别适合基于图像的标记化方法。

另一个引人入胜的方面是我们已经有了视觉语言模型(VLMs),即专门处理视觉图像而非文本的人工智能。我们无需重新发明轮子来在大语言模型(LLMs)中实现类似功能。只需借鉴VLMs的成功经验并适当调整以适用于LLMs即可。这是一种充分利用已有资源的方法。

这一理念值得肯定并进一步探索。我并不建议立即宣称所有大语言模型都应转向这种方法。目前的结论尚未定论。我们需要更多的研究来了解这一方法能走多远,同时也要全面评估其优缺点。

与此同时,我们可以大胆地宣布:“有时候,一张图片确实抵得上千言万语。”

(以上内容均由Ai生成)

你可能还想读

人工智能双刃剑:博物馆的新机遇与挑战

人工智能双刃剑:博物馆的新机遇与挑战

快速阅读: 来自世界各地的20位博物馆馆长参加“未来博物馆圆桌会议”,探讨人工智能在博物馆的应用及挑战,强调博物馆需审慎选择合适的人工智能工具,同时关注技术不平等和数据整合问题。 在今年的“未来博物馆圆桌会议”(MTR)第四天,来自世界各地 […]

发布时间:2025年10月26日
ChatGPT Atlas遭破解,恶意指令伪装成URL威胁用户安全

ChatGPT Atlas遭破解,恶意指令伪装成URL威胁用户安全

快速阅读: OpenAI新推ChatGPT Atlas浏览器融合AI与网络导航,但存在安全漏洞,易受恶意指令攻击,可能导致钓鱼或数据盗窃。NeuralTrust研究揭示,通过构造特定字符串可欺骗Atlas执行有害操作,如访问假冒网站或执行未 […]

发布时间:2025年10月26日
WhatsApp测试新AI功能,文字秒变图片状态

WhatsApp测试新AI功能,文字秒变图片状态

快速阅读: WhatsApp推出AI驱动的新功能,可将文字转化为引人注目的在线状态图片,用户可即时生成并编辑图片。此功能面向部分用户开放,旨在提升分享体验。此外,WhatsApp还推出了多项更新,包括提高隐私保护、使用便捷性和媒体分享体验。 […]

发布时间:2025年10月26日
通信部鼓励公众培养批判性思维以智慧利用AI

通信部鼓励公众培养批判性思维以智慧利用AI

快速阅读: 印尼通信与数字事务部副部长Nezar Patria鼓励公众培养批判性思维,确保AI的明智和道德使用,正制定国家AI路线图,面临互联网速度慢和数字人才短缺挑战,优先发展医疗保健等五大领域。 东爪哇马朗(ANTARA)——通信与数字 […]

发布时间:2025年10月26日
Cognizant CEO:AI时代需更多中学毕业生

Cognizant CEO:AI时代需更多中学毕业生

快速阅读: Cognizant CEO Ravi Kumar S 表示,AI 将创造更多入门级就业机会,而非取代工作。公司计划招聘更多高中毕业生,改革教育体系以适应 AI 时代需求,重视跨学科技能。 Cognizant Technology […]

发布时间:2025年10月26日
Facebook与Reliance合投855亿卢比,进军企业级AI市场

Facebook与Reliance合投855亿卢比,进军企业级AI市场

快速阅读: 信实工业成立子公司REIL,与Facebook合资开发企业级AI服务,初期投资855亿卢比,将利用Llama模型提供定制化AI工具和解决方案,覆盖多行业领域。 信实工业有限公司(RIL)宣布成立一家名为信实企业智能有限公司(RE […]

发布时间:2025年10月26日
NASA工程师谈为何企业需建立与航天技术同等可信的AI系统

NASA工程师谈为何企业需建立与航天技术同等可信的AI系统

快速阅读: 前NASA工程师强调,信任对于AI技术的发展至关重要。预计2027年50%企业将部署AI代理,但需确保安全可靠。学习航天工程经验,建立透明、持续、自主的信任机制,推动AI健康发展。 在我担任NASA航天飞机项目工程师时,信任至关 […]

发布时间:2025年10月25日
AI多次出错,从Taco Bell灾难到失控事件

AI多次出错,从Taco Bell灾难到失控事件

快速阅读: 人工智能近年来成为生活必需,但也频现失误:塔可贝尔AI点餐助手故障频发;AI医疗建议致溴中毒;Replit助手删除数据库;麦当劳AI泄露求职者信息;Claude管理店铺亏损;格罗克聊天机器人不当言论;苹果AI错误总结新闻。 多年 […]

发布时间:2025年10月25日