AI 解释:什么是小语言模型,企业如何使用它?

发布时间:2025年4月8日    来源:szf
AI 解释:什么是小语言模型,企业如何使用它?

快速阅读: 《PYMNTS.com》消息,小型语言模型(SLMs)是大型语言模型(LLMs)的精简版,虽参数少但成本低、速度快,在特定领域可媲美甚至超越LLMs。Meta的Llama系列最受欢迎,谷歌、微软等也有相关产品。尽管SLMs在复杂任务和通用性上稍逊,但在隐私保护和行业应用上有独特优势。

重点
小型语言模型(SLMs)是大型语言模型(LLMs)的精简版本,在降低成本的同时能达到甚至超越大型模型的性能。然而,由于知识覆盖面不够广,在处理通用或复杂任务时,SLMs 可能会遇到困难。截至目前,最受欢迎的 SLM 是 Meta 开源的 Llama 模型。

多亏了像 ChatGPT 这样的大型语言模型的流行,人工智能(AI)已经成为家喻户晓的词汇。这些大型模型在全网训练,并且通常有数百亿个参数——模型内部帮助其预测序列中下一个单词的设置。参数越多,模型越复杂且功能越强大。

一个小型语言模型(SLM)是大型语言模型(LLM)的缩小版本。它没有那么多参数,但用户可能不需要额外的强大功能,具体取决于任务需求。打个比方,人们不需要超级计算机来做基础的文字处理工作,普通的个人电脑就足够了。

然而,尽管 SLMs 体积较小,它们仍然可以非常强大。根据 IBM 的数据,在很多情况下,它们运行更快、成本更低,且提供了更多的可控性——这对希望以低成本部署强大 AI 的公司来说至关重要。

语言模型甚至可以拥有数万亿个参数,例如 OpenAI 的 GPT-4。相比之下,小型语言模型通常只有几百万到几十亿个参数。

根据亚马逊研究人员在 2025 年 1 月发表的一篇论文,参数范围在 10 亿到 80 亿之间的 SLMs 表现得与大型模型一样好,甚至更好。

例如,SLMs 在某些领域可以超越 LLMs,因为它们针对特定行业进行了训练。而 LLMs 在一般知识方面表现更佳。

SLMs 还需要更少的计算能力。它们可以在个人电脑、移动设备或公司服务器上运行,而不是依赖云服务。这使得它们更快、更便宜,并更容易针对特定业务需求进行微调。

参见:
AI 解释:什么是大型语言模型以及为什么企业应该关注?

SLMs 的优缺点
小型语言模型正迅速成为那些希望享受 AI 带来的好处但又不想承担 LLMs 高昂成本和复杂性的企业的热门选择。

以下是 SLMs 相较于 LLMs 的优势:

**成本效率**:
大型语言模型运行起来非常昂贵,尤其是在大规模使用时。而小型模型则可以在个人电脑或智能手机、物联网传感器等设备上运行。将 SLMs 与 LLMs 结合使用,可以降低 AI 成本。

**数据隐私和控制**:
使用 LLM 时,意味着要将数据发送到云端,这始终存在隐私问题。而小型模型可以完全在本地部署,这意味着公司可以完全掌控自己的数据和工作流程。这对于金融和医疗等受监管行业尤为重要。

**速度和响应性**:
由于体积轻便,小型模型能够更快地提供响应,并且可以减少延迟。这对于客户服务聊天机器人等实时场景尤其有价值。

英特尔表示:“SLMs 较低的数据和训练要求可以转化为快速的周转时间和加速的投资回报率。”

SLMs 的缺点:

**从 LLMs 中学习到的偏差**:
由于小型模型是大型模型的简化版,因此来自母模型的偏差可能会被传递下去。

**在复杂任务上的表现较差**:
由于它们不如大型模型强大,所以在需要广泛主题知识的复杂任务中可能表现不佳。

**不擅长通用任务**:
SLMs 更倾向于专业化,因此在通用任务中不如 LLMs 出色。

至于幻觉现象,由于 SLMs 建立在更小、更集中的数据集上,因此非常适合行业应用。因此,“在为特定行业、领域或公司构建的数据集上训练可以帮助 SLMs 发展出深刻而细致的理解,从而降低错误输出的风险”,英特尔表示。

阅读更多:
人工智能与 Web3、区块链及加密货币有何区别

Meta 的 Llama 独占鳌头
根据亚马逊的研究论文,在过去两年中,最受欢迎的 SLMs 非 Meta 开源的 Llama 2 和 3 系列莫属。

Llama 3 提供参数规模分别为 80 亿、700 亿和 4050 亿的模型,而 Llama 2 则有参数规模分别为 70 亿、130 亿、340 亿和 700 亿的版本。SLMs 将采用 Llama 3 的 80 亿参数模型和 Llama 2 的 70 亿和 130 亿参数模型。(Meta 本周刚刚发布了 Llama 4。)

新进入者 DeepSeek R1-1.5B 提供 15 亿参数,作为中国 AI 初创公司推出的首个推理模型。

其他 SLMs 包括谷歌的 Gemini Nano(参数规模分别为 18 亿和 32.5 亿)及其开源模型 Gemma 家族。上个月,谷歌推出了 Gemma 3,参数规模分别为 10 亿、40 亿、120 亿和 270 亿。

去年十月,法国 AI 初创公司和 OpenAI 的竞争对手 Mistral 推出了新的 SLM 家族:
Ministraux,参数规模分别为 30 亿和 80 亿。其首个 SLM 是 Mistral 7B,参数量为 70 亿。

另一个值得注意的 SLM 是微软的 Phi-2。尽管参数量仅为 27 亿,Phi-2 在数学、代码和推理任务中表现优异。它通过精心策划的数据集进行训练,证明了智能数据选择可以使即使是极小的模型变得强大。

代码库 Hugging Face 提供了数百款开源 SLM,供企业使用。

若想获取 PYMNTS 全面的 AI 资讯,请订阅每日 AI 新闻通讯。

订阅
注册以接收我们的每日新闻通讯。

合作机会
我们一直在寻找与创新者和颠覆者合作的机会。

了解更多
推荐
AI 解释:什么是小型语言模型以及企业如何使用它?
Knot 与 PayPal 合作以简化结账流程
欧盟准备对美国行动作出两轮关税回应
联邦贸易委员会:假冒骗局在 2024 年给消费者造成了近 30 亿美元的损失

参见更多:
人工智能,
人工智能,
人工智能,
聊天机器人,
ChatGPT,
DeepSeek,
谷歌,
大型语言模型,
LLMs,
Meta,
微软,
Mistral,
新闻,
OpenAI,
PYMNTS 新闻,
SLMs,
小型语言模型,
科技

(以上内容均由Ai生成)

你可能还想读

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

快速阅读: 美国能源部17个国家实验室构成顶尖科研体系,在基础科学、能源安全、气候变化等领域发挥关键作用。拥有全球领先的超算资源及顶尖人才,年经费约220亿美元。随着“创世纪计划”启动,实验室将形成协同网络,推动美国在清洁能源、量子计算等前 […]

发布时间:2025年12月8日
谷歌Gemini 3 Pro发布

谷歌Gemini 3 Pro发布

快速阅读: 谷歌发布新一代推理模型Gemini 3 Pro,显著提升数学、编程和视觉理解能力。一经发布,Gemini 3 Pro几乎横扫各大评测榜单,在LMArena大模型竞技场中以1501的Elo得分高居榜首。在MathArena数学竞赛 […]

发布时间:2025年11月19日
独具创新,直击痛点:深度解析华为十大最新方案

独具创新,直击痛点:深度解析华为十大最新方案

快速阅读: 第三个方案,是华为的U6GHzAAU天线。综合来看,华为的U6GAAU,真正实现了容量覆盖双优,助力全球U6G商用。LampSiteX,是LampSite系列的最新型号。第五个方案,是华为有源天线产品——EasyAAU。Easy […]

发布时间:2025年11月13日
Palantir估值承压仍领跑AI赛道

Palantir估值承压仍领跑AI赛道

快速阅读: 近期,美国AI概念股整体承压,Palantir与英伟达遭遇做空传闻,引发市场短暂震荡。然而,在宏观调整与估值质疑中,Palantir仍凭借强劲业绩与差异化AI布局维持长期增长势头。分析人士认为,该公司正处于由“政府数据支撑”向“ […]

发布时间:2025年11月12日
Palantir与Snowflakes深化AI合作

Palantir与Snowflakes深化AI合作

快速阅读: Snowflake 与 Palantir 宣布建立战略合作,整合双方的数据与AI能力,使企业能够在统一的数据基础上直接调用 Palantir 的AI分析与智能应用工具,加速企业级AI落地。 2025年10月,Snowflake […]

发布时间:2025年11月10日
Palantir与迪拜控股共建AI公司

Palantir与迪拜控股共建AI公司

快速阅读: Dubai Holding 与 Palantir 宣布成立合资公司 Aither,致力于为中东地区政府与企业提供人工智能转型解决方案。该合作标志着 Palantir 在中东技术布局的进一步深化,也为当地公共服务与产业数字化提供新 […]

发布时间:2025年11月10日
Palantir携手Lumen共建企业AI平台

Palantir携手Lumen共建企业AI平台

快速阅读: 2025年10月,Palantir Technologies与Lumen Technologies宣布达成战略合作,联合打造面向企业级应用的人工智能服务平台。双方将以Palantir的Foundry与AIP平台为核心,推动通信与 […]

发布时间:2025年11月7日
Palantir携手Hadean拓展英国国防部AI战场模拟平台

Palantir携手Hadean拓展英国国防部AI战场模拟平台

快速阅读: 2025年10月,数据智能公司 Palantir Technologies 宣布与英国分布式计算企业 Hadean 达成战略合作,双方将共同为英国国防部(UK Ministry of Defence, UK MoD)扩展基于人工 […]

发布时间:2025年11月7日