Microsoft 的 BitNet 展示了 AI 在仅 400MB 且没有 GPU 的情况下可以做什么

发布时间:2025年4月21日    来源:szf
Microsoft 的 BitNet 展示了 AI 在仅 400MB 且没有 GPU 的情况下可以做什么

快速阅读: 据《技术点》称,微软推出比特网BitNet b1.58 2B4T,采用三值量化技术(-1、0、+1),显著降低内存消耗,可在普通硬件上运行。该模型含20亿参数,经四万亿标记训练,表现媲美或超越顶级对手。凭借高内存效率(仅400MB)和低能耗,它有望推动AI在个人设备上的应用,研究正聚焦扩展其功能。

微软推出了比特网BitNet b1.58 2B4T,这是一款专为高效能设计的新一代大型语言模型。与传统AI模型不同,该模型采用三值量化技术,仅使用三种值:-1、0和+1。这种技术使得每个权重只需占用1.58位的空间。这一创新显著降低了内存消耗,并且能够在普通硬件上流畅运行,无需依赖昂贵的高端GPU。

比特网b1.58 2B4T由微软通用人工智能团队研发,包含20亿个参数值,这些参数使模型具备理解并生成语言的能力。为了弥补低精度权重带来的限制,该模型在包含四万亿个标记的大规模数据集上进行了训练,这相当于约3300万本书的内容。这样的广泛训练使得比特网的表现与——甚至在某些情况下优于——其他相似规模的顶级模型,例如Meta的Llama 3.2 1B、谷歌的Gemini 3 1B以及阿里巴巴的通义千问2.5 1.5B。

在多项基准测试中,比特网b1.58 2B4T展现了卓越的能力,涵盖了从小学数学到需要常识推理的各种任务。在某些评估中,它甚至超过了竞争对手。真正让这款模型脱颖而出的是其极高的内存效率。该模型仅需占用400MB内存,仅为同类模型通常所需内存的三分之一左右。因此,它可以在普通的CPU上顺利运行,包括苹果M2芯片,而不需要依赖高端GPU或专用的AI硬件。

这一切高效的背后,是一个名为“bitnet.cpp”的定制化软件框架,确保了日常计算设备上的快速高效性能。目前流行的AI库,如Hugging Face的Transformers,难以达到比特网b1.58 2B4T的效果,因此使用这个定制的bitnet.cpp框架至关重要。该框架已发布于GitHub,目前主要针对CPU进行了优化,但未来的版本计划支持更多的处理器类型。

减少模型精度以节省内存并不是新鲜事,研究人员一直在探索模型压缩的方法。然而,大多数以往的努力都是在训练完成后将全精度模型转换,这往往会损害准确性。比特网b1.58 2B4T采用了全新的策略:它从零开始,仅用三种权重值(-1、0和+1)进行训练。这种方法帮助它避开了早期方法中常见的许多性能下降问题。

通常运行大型AI模型需要高性能硬件和大量的能源,这些都会导致成本上升和环境负担加重。由于比特网主要依赖简单的运算——主要是加法而非乘法——相比传统的全精度模型,它可以节省85%到96%的能耗。这或许能让高级AI直接在个人设备上运行成为现实。不过,目前比特网b1.58 2B4T仅适用于特定硬件,并且需要使用自定义的bitnet.cpp框架。此外,它的上下文窗口——即一次性可处理的文本量——比最先进的模型要小。研究人员正在努力探索为何这款模型能在如此简化的结构下表现得如此出色。未来的研究方向将集中在扩大其功能上,比如支持更多语言和处理更长的文本内容。

(以上内容均由Ai生成)

你可能还想读

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

快速阅读: 美国能源部17个国家实验室构成顶尖科研体系,在基础科学、能源安全、气候变化等领域发挥关键作用。拥有全球领先的超算资源及顶尖人才,年经费约220亿美元。随着“创世纪计划”启动,实验室将形成协同网络,推动美国在清洁能源、量子计算等前 […]

发布时间:2025年12月8日
谷歌Gemini 3 Pro发布

谷歌Gemini 3 Pro发布

快速阅读: 谷歌发布新一代推理模型Gemini 3 Pro,显著提升数学、编程和视觉理解能力。一经发布,Gemini 3 Pro几乎横扫各大评测榜单,在LMArena大模型竞技场中以1501的Elo得分高居榜首。在MathArena数学竞赛 […]

发布时间:2025年11月19日
独具创新,直击痛点:深度解析华为十大最新方案

独具创新,直击痛点:深度解析华为十大最新方案

快速阅读: 第三个方案,是华为的U6GHzAAU天线。综合来看,华为的U6GAAU,真正实现了容量覆盖双优,助力全球U6G商用。LampSiteX,是LampSite系列的最新型号。第五个方案,是华为有源天线产品——EasyAAU。Easy […]

发布时间:2025年11月13日
Palantir估值承压仍领跑AI赛道

Palantir估值承压仍领跑AI赛道

快速阅读: 近期,美国AI概念股整体承压,Palantir与英伟达遭遇做空传闻,引发市场短暂震荡。然而,在宏观调整与估值质疑中,Palantir仍凭借强劲业绩与差异化AI布局维持长期增长势头。分析人士认为,该公司正处于由“政府数据支撑”向“ […]

发布时间:2025年11月12日
Palantir与Snowflakes深化AI合作

Palantir与Snowflakes深化AI合作

快速阅读: Snowflake 与 Palantir 宣布建立战略合作,整合双方的数据与AI能力,使企业能够在统一的数据基础上直接调用 Palantir 的AI分析与智能应用工具,加速企业级AI落地。 2025年10月,Snowflake […]

发布时间:2025年11月10日
Palantir与迪拜控股共建AI公司

Palantir与迪拜控股共建AI公司

快速阅读: Dubai Holding 与 Palantir 宣布成立合资公司 Aither,致力于为中东地区政府与企业提供人工智能转型解决方案。该合作标志着 Palantir 在中东技术布局的进一步深化,也为当地公共服务与产业数字化提供新 […]

发布时间:2025年11月10日
Palantir携手Lumen共建企业AI平台

Palantir携手Lumen共建企业AI平台

快速阅读: 2025年10月,Palantir Technologies与Lumen Technologies宣布达成战略合作,联合打造面向企业级应用的人工智能服务平台。双方将以Palantir的Foundry与AIP平台为核心,推动通信与 […]

发布时间:2025年11月7日
Palantir携手Hadean拓展英国国防部AI战场模拟平台

Palantir携手Hadean拓展英国国防部AI战场模拟平台

快速阅读: 2025年10月,数据智能公司 Palantir Technologies 宣布与英国分布式计算企业 Hadean 达成战略合作,双方将共同为英国国防部(UK Ministry of Defence, UK MoD)扩展基于人工 […]

发布时间:2025年11月7日