Bill Inmon:数据湖为何需要BLM而非LLM
快速阅读: 据相关媒体最新报道,Gartner数据显示,2023年数据湖达152亿美元,但企业难从中提取价值。Bill Inmon指出85%大数据项目失败,数据湖常变“污水池”。他建议使用商业语言模型(BLM)提升文本分析效率与准确性。
据Gartner研究显示,2023年,尽管数据湖市场规模达到了152亿美元,并实现了20%以上的增长,但大多数企业仍难以从文本数据中提取价值。数据仓库之父Bill Inmon指出,85%的大数据项目以失败告终,许多所谓的“数据湖”实际上变成了“污水池”或“数据沼泽”。
Inmon认为,当前许多企业采用的方法存在根本性问题。例如,将大型语言模型如ChatGPT直接应用于数据湖,不仅成本高昂,而且效果有限。据统计,ChatGPT每天的运营成本高达70万美元,而对于中型企业而言,每月的运行成本在3,000至15,000美元之间,API成本更是高达3,000至7,000美元。此外,ChatGPT生成的是文本而非结构化数据,这对于数据分析和决策支持来说并不适用。
Inmon进一步指出,大型语言模型的知识中只有5%与特定业务相关,这意味着大部分投资实际上是在为无关紧要的信息买单。更重要的是,ChatGPT可能会产生错误的信息,这对关键任务决策构成了威胁。据统计,87%的数据科学项目从未投入生产,而不可靠的人工智能则加剧了这一问题。
面对这些问题,Inmon提出了一种新的解决方案——商业语言模型(BLM)。与通用的大型语言模型不同,BLM专注于特定行业,包含行业特定词汇(ISV)和通用商业词汇(GBV),能够提供更精准的服务。例如,在银行业,BLM可以涵盖贷款、信用卡、储蓄账户等术语;在餐饮业,则可以包括服务模式、菜系、厨房运营等内容。
据麦肯锡报告,如果高级文本分析部署得当,呼叫处理时间可减少40%,转化率可提高50%。BLM的精确性和效率为企业提供了新的机遇。例如,医疗保健行业可以利用BLM进行医疗记录和药物试验分析;金融行业可以进行客户情绪和合同评估;保险行业可以优化保修索赔和风险评估;法律行业可以进行合同分析和合规性监控;制造业则可以利用BLM进行质量报告和维护日志分析。
Inmon建议,企业应评估当前的文本分析方法,确定行业特定词汇需求,并选择适合的预先构建的BLM选项。通过这种方式,企业可以将非结构化数据转化为有价值的资产,从而在激烈的市场竞争中脱颖而出。随着人工智能市场规模到2028年预计将增长至6310亿美元,商业语言模型将成为企业将数据负债转化为竞争优势的关键工具。
(以上内容均由AI生成)