S&P 如何使用深度网络抓取、集成学习和 Snowflake 架构收集 5 倍以上的中小企业数据
快速阅读: 《VentureBeat 公司》消息,标普全球利用AI技术构建的风险计量平台,通过抓取两亿个网站数据,为中小企业提供信用评分,覆盖范围扩大五倍。平台采用多层算法处理非结构化数据,自动更新变化信息,解决中小企业数据缺乏问题,助力金融机构评估信用风险。
订阅我们的每日和每周通讯,获取行业领先的人工智能报道的最新动态和独家内容。了解更多投资界在关于中小型企业(SMEs)的数据方面存在一个重大问题。这与数据质量和准确性无关——而是根本缺乏数据。评估中小企业的信用资质一直是个难题,因为小型企业的财务数据并非公开,因此很难获取。
标普全球市场情报公司,作为标普全球的一个部门和领先的信用评级及基准提供商,声称已经解决了这个长期存在的问题。该公司的技术团队构建了风险计量平台,这是一个由人工智能驱动的平台,可以从超过两亿个网站上抓取原本难以获得的数据,通过多种算法进行处理并生成风险评分。基于Snowflake架构,该平台使标普对中小企业的覆盖范围扩大了五倍。
“我们的目标是扩展和提高效率,”标普全球风险解决方案新产品开发主管穆迪·哈迪解释道。“该项目提高了数据的准确性和覆盖率,使客户受益。”
风险计量平台的底层架构交易对手信用管理本质上是根据多个因素评估一家公司的信用资质和风险,包括财务状况、违约概率和风险偏好。标普全球市场情报向机构投资者、银行、保险公司、财富管理公司等提供这些见解。
“大型金融机构和企业实体会向供应商放贷,但它们需要知道贷多少、多久监测一次、贷款期限是多少,”哈迪解释说。“它们依赖第三方来制定一个可靠的信用评分。”
然而,长期以来中小企业覆盖范围存在缺口。哈迪指出,虽然像IBM、微软、亚马逊、谷歌这样的大型上市公司需要披露季度财务报告,但中小企业没有这样的义务,从而限制了财务透明度。从投资者的角度来看,在美国大约有一千万家中小企业,而公共公司只有约六万家。标普全球市场情报声称现在已将所有这些公司覆盖:之前该公司只有约两百万家企业数据,但风险计量平台将其扩大到一千万家。
该平台于今年一月投入生产,基于哈迪团队构建的一个系统,从非结构化网页内容中提取企业数据,结合匿名化的第三方数据集,并应用机器学习(ML)和先进的算法生成信用评分。该公司使用Snowflake挖掘公司页面并将它们加工成企业特征驱动因素(市场细分器),然后输入风险计量平台。
该平台的数据管道包括:爬虫/网络抓取工具预处理层 数据采集器 编辑人员 风险计量评分
具体来说,哈迪的团队在预处理、挖掘和编辑步骤的中间使用了Snowflake的数据仓库和Snowflake容器服务。在这个过程结束时,中小企业根据财务、业务和市场风险的综合得分进行评分;一分最高,一百分最低。投资者还会收到风险计量平台的详细报告,包括财务状况、企业特征、商业信用报告、历史表现和发展关键点。他们还可以比较公司与其同行的表现。
标普如何收集有价值的公司数据
哈迪解释说,风险计量平台采用多层抓取过程,从公司的网页域中提取各种详细信息,如基本的“联系我们”和登录页面以及新闻相关的信息。爬虫会深入几个URL层级以抓取相关信息。“你可以想象,一个人无法做到这一点,”哈迪说。“这对人类来说将是非常耗时的,尤其是当你处理两亿个网页时。”
他指出,这会产生数TB的网页信息。收集数据后,下一步是运行算法去除任何不是文本的内容;哈迪指出,系统不感兴趣的是JavaScript甚至HTML标签。数据被清理以便成为人类可读的,而不是代码。然后,它被加载到Snowflake中,并对页面运行多个数据挖掘算法。
集成算法在预测过程中至关重要;这些算法结合了多个单独模型(基础模型或‘弱学习者’,本质上略好于随机猜测)的预测,以验证公司信息,如名称、业务描述、行业、位置和运营活动。系统还考虑了公告中的任何情感倾向。
“当我们抓取一个网站后,算法会击中不同组件的页面,并投票给出推荐,”哈迪解释说。“这一过程中无人介入,算法基本上是在相互竞争。这有助于提高效率以增加我们的覆盖范围。”
在初始加载之后,系统会监控网站活动,自动运行每周扫描。它不会每周更新信息;只有在检测到变化时才会更新,哈迪补充道。在执行后续扫描时,一个哈希键跟踪前一次抓取的登录页面,并生成另一个键;如果它们相同,则未做更改,无需采取行动。然而,如果哈希键不匹配,系统将被触发更新公司信息。
这种持续抓取对于确保系统尽可能保持最新状态非常重要。“如果他们经常更新网站,那告诉我们它们还活着,对吧?”哈迪指出。
处理速度、大数据集和不干净网站的挑战
当然,在构建系统时遇到了一些挑战,尤其是在数据集巨大且需要快速处理的情况下。哈迪的团队不得不在准确性与速度之间做出权衡。
“我们一直在优化不同的算法以运行得更快,”他解释说。“调整;有些算法确实很好,具有高准确率、高精度、高召回率,但它们在计算上成本太高。”
网站并不总是遵循标准格式,因此需要灵活的抓取方法。“你经常听到关于设计网站的讨论,因为我们最初开始时认为,‘嘿,每个网站都应该遵循网站地图或XML,’”哈迪说。“猜猜怎么着?没人遵守那个规则。”
哈迪说,他们不想在系统中硬编码或引入机器人流程自动化(RPA),因为网站差异很大,他们知道最重要的信息在文本中。这导致创建了一个只提取必要部分的系统,然后清理实际文本并丢弃代码和任何JavaScript或TypeScript。
正如哈迪所指出的,“最大的挑战在于性能和调优,以及网站设计本身就不规范的事实。”
(以上内容均由Ai生成)