Timescale 通过 pgai 向量化工具来增强 PostgreSQL 的 AI 能力
作者|MohitPalriwal
译者|刘雅梦
策划|丁晓昀
Timescale最近通过pgai向量化工具(pgaiVectorizer)扩展了其PostgreSQLAI产品。该更新使开发人员能够创建、存储和管理向量嵌入以及关系数据,而无需外部工具或额外的基础设施。
TimescaleDB是针对时间序列数据量身定制的PostgreSQL开源扩展,它首先通过实时分析功能增强了PostgreSQL。现在,Timescale正在增强与pgai套件的AI集成,并引入了pgai向量化工具(pgaiVectorizer),使开发人员能够在PostgreSQL中无缝地进行AI开发。
贡献者指出了开发过程中的一些挑战。一位贡献者Tostino强调了OpenAIAPI的合规性问题,并指出当前的实现缺乏在开源推理服务器上使用代理解决方案或自定义采样器所需的几个参数。此外,Tostino建议,在返回JSON而不是严格数据类型的原始函数之上构建提供”简单”包装器的函数,以增强灵活性。
构建搜索引擎和AI代理等人工智能系统通常需要复杂的工作流程。pgai向量化工具(pgaiVectorizer)通过将整个AI工作流程集成到PostgreSQL中来简化这一过程,使开发人员能够使用熟悉的SQL命令快速有效地创建高级AI应用程序。
来源
Timescale认为,将向量嵌入视为独立数据的标准方法会导致同步问题和数据过时。伦理人工智能与机器学习研究所评论道:
pgvector和pgvectorscale扩展允许我们在数据库中存储向量嵌入,并执行快速高效的向量搜索。pgai向量化工具(pgaiVectorizer)构建在这些扩展之上,可以自动创建和同步数据库中任何文本数据的嵌入。
只需一行代码,我们就可以定义一个向量化工具,为表中的数据创建嵌入。机器学习顾问SuvarnaKadam评论道:
SELECTai.create_vectorizer(
在同一周,Neon数据库实验室(NeonDatabaseLabs)还推出了Pgrag,这是一个实验性的PostgreSQL扩展,旨在支持端到端的检索增强生成(RAG)管道,进一步扩展了他们自己的AI能力。
除了最近推出的pgai向量化工具(pgaiVectorizer)外,社区还对将支持的嵌入模型范围扩展到OpenAI之外感兴趣。贡献者claudeomusic询问了使嵌入模型选择可配置的可能性,强调了灵活性对用户的重要性。作为回应,Timescale的alejandrodnm证实,虽然目前的Vectorizer功能仅支持OpenAI模型,但计划在未来纳入其他提供商。该团队对社区的贡献持开放态度,以帮助实现这一目标。另一位撰稿人wang分享了他关于如何使用Openrouter的解决方案。
要使用预构建的Docker开发环境快速尝试嵌入,请参阅Vectorizer快速入门。有关更详细的技术规范,请参阅VectorizerAPI参考资料。
作者介绍
MohitPalriwal是Netflix的高级软件工程师,也是Netflix可观测性团队的重要成员。他是NetflixAtlas项目团队的一员,该项目是一个开源的多维时间序列数据库,旨在处理大规模需求。在加入Netflix之前,Mohit是Salesforce的首席软件工程师,在那里他与人合作构建了AWS上的可观测性云。Mohit的经验还延伸到了亚马逊网络服务(AWS),在那里他花了四年多的时间开发和推出了基于无服务器架构的AWSPinpoint。
原文链接:
https://www.infoq.com/news/2024/11/timescale-pgai-vectorizer/
声明:本文为InfoQ翻译,未经许可禁止转载。
今日好文推荐
Greenplum原班人马的”换皮”数据库加入孵化器,Apache力挺:PG内核升级,性能大幅提升
知名UP主被锤用开源项目”伪装原创”,原作者越南AI工程师愤怒维权,网友:把收益赔给他!
Chrome被强制出售?谷歌或将抛弃ChromeOS全面转向Android系统
一朝成名,一夜破产!这家谷歌前高管创立的AI公司突然宣布倒闭,专家:这个行业不适合AI
会议推荐
就在12月13日-14日,AICon将汇聚70+位AI及技术领域的专家,深入探讨大模型与推理、AIAgent、多模态、具身智能等前沿话题。此外,还有丰富的圆桌论坛、以及展区活动,满足你对大模型实践的好奇与想象。现在正值9折倒计时,名额有限,快扫码咨询了解详情,别错过这次绝佳的学习与交流机会!