独家:Anomalo 将数据质量洞察扩展到非结构化信息
快速阅读: 《硅角度》消息,阿纳莫洛公司推出新工具扩展其数据质量平台,专注监控非结构化数据,助力AI系统。新工具可一次性分析大量文档,快速识别和修复质量问题,提取商业洞察。此举被视为数据可观测性市场整合新时代的开端。
阿纳莫洛公司今日宣布,将通过推出一款新工具来扩展其旗舰数据质量平台,旨在帮助企业监控日益重要的非结构化信息,以助力人工智能系统的成功。这家由达塔布里克斯公司支持的初创公司表示,其新的非结构化数据监控工具自即日起全面推出,为企业提供了一种轻松识别和解决非结构化数据问题的方法,例如托管于任何位置的海量文本文件和图像等。
阿纳莫洛公司以其数据质量平台闻名,该平台被企业用于扫描构成业务记录的结构化数据以检测质量问题。它通过扫描整齐存放在数据库行和列中的信息,检查需要被新鲜数据替换的过时记录、重复的数据库行、缺失字段等来工作。除了识别错误记录外,阿纳莫洛公司还提供了修复这些记录的工具,自动化识别数据质量问题的根源。
借助其新工具,阿纳莫洛公司将专业知识扩展到云数据仓库和数据湖中大量的非结构化信息,旨在帮助公司确保对每种类型数据的信任。这是一个关键的发展,应该会极大地扩展阿纳莫洛公司平台在非结构化数据上的实用性,因为非结构化数据实际上占大多数公司存储的所有记录的绝大部分。在普通企业中,存储在数据库中的结构化数据仅占所有文件的约20%,其余80%通常是非结构化数据,包括通话记录、文字和PDF文档、电子邮件、消息、订单表单、音频和图像文件等。
尽管过去这些信息一般不被视为任务关键型,但随着AI的快速兴起,高质量且领域特定的信息对于训练和定制驱动生成式AI工作负载的大语言模型至关重要。公司通常拥有大量此类信息,但挑战在于他们对这些信息的内容知之甚少,也不知道是否可以信任。阿纳莫洛公司的非结构化数据监控工具旨在改变这一现状。
它引入了一项名为阿纳莫洛工作流的新功能,作为管理及监控非结构化信息的枢纽。借助这款新工具,公司可以识别并修复诸如重复文件、错误、个人身份信息和滥用语言等质量问题。它还提供了一种分析大量非结构化信息的方法,尝试提取有用的商业洞察,并最终将其转换为干净、可重用的数据集以训练AI模型。
令人印象深刻的是阿纳莫洛工作流能够处理的信息量。该公司表示,它可以在一次操作中分析多达10万份文档,并设置为在新信息输入时持续运行。据称,以前需要几个月手动筛选的内容现在可以在几分钟内实现自动化。
阿纳莫洛公司联合创始人兼首席执行官埃利奥特·舒姆克勒(Elliot Shmukler)表示,每个人都急于获取尽可能多的非结构化信息以输入其AI模型,但没有人关注这种数据的质量或可能提供的见解。“你可以将我们的非结构化监控产品和阿纳莫洛工作流视为可以组装成数千种配置的构建模块,以实现几乎任何针对非结构化数据质量或见解的客户应用场景。”
首席执行官表示,例如,一家大型零售商可以使用该工具挖掘数以千计的支持票证和通话日志,以了解为什么客户对其新产品或服务不满意。一位餐厅经营者可以使用它从数十条社交媒体评论、评价和其他类型的反馈中挖掘出有意义的见解。
舒姆克勒指出:“在阿纳莫洛公司之前,这种分析并不容易实现。正如我们重新定义了结构化数据的质量一样,我们现在正在帮助企业信任并从非结构化数据中提取价值。”
阿纳莫洛公司在一家竞争对手数据质量公司蒙特卡洛数据公司推出所谓的行业首个非结构化数据监控平台后一天推出了其新工具。据恒星研究公司分析师迈克尔·尼(Michael Ni)称,这些发展似乎标志着AI和数据可观测性市场快速整合新时代的开始。
尼认为企业将欢迎这种整合。因为AI工作负载主要由非结构化数据驱动,公司需要对其向量数据库存储和每个提示背后的数据有可见性,分析师说。仅仅监控数据管道和表格已经不够了。
“阿纳莫洛公司将可观测性带入文档、聊天日志和录音中,这可能标志着一个新时代的开始,在这个时代,对AI的信任开始了,”尼说。“这也是孤立的数据观测性的终结,下一个平台之战将是‘决策观测性’,其中AI信号在一个可信视图中汇聚。”
图片:硅立方/梦象
来自硅立方联合创始人约翰·弗瑞尔的一封信:
您的支持对我们非常重要,它帮助我们保持内容免费。只需点击一下即可支持我们提供免费、深入且相关的内容的使命。
加入我们的YouTube社区
加入包括超过15,000名#立方校友专家在内的社区,其中包括亚马逊公司首席执行官安迪·贾西、戴尔科技公司创始人兼首席执行官迈克尔·戴尔、英特尔首席执行官帕特·基辛格等众多名人和专家。
“立方体是我们行业的关键伙伴。你们真的是我们活动的一部分,我们非常感谢你们的参与,我们也知道人们很欣赏你们创造的内容。”——安迪·贾西
谢谢您!
(以上内容均由Ai生成)