企业成功和未成功 – AI 代理需要评估，但董事会需要 AI 吗？

快速阅读: 《Diginomica （数码化）》消息，本文探讨了正确使用AI代理的重要性，强调了实时评估指标和行业专家的角色。文章还涉及AI在企业中的应用、数据偏见、伦理问题及董事会层面的AI使用，同时提出了对AI效率承诺的质疑，并呼吁更多批判性思考。

(© Black Salmon – Shuttterstock)主故事 – 想正确使用AI代理吗？首先得正确设置实时评估指标。不久前，我分享了我努力促使AI供应商公开承认：大型语言模型（有时）会忽略RAG/上下文信息，转而依赖自己的预训练知识。我发现了一家特别的供应商，它有一种方法可以测量（并可能缓解）这个问题：想要更好的大型语言模型结果？那么是时候使用AI评估工具了——从伽利略的RAG和代理指标中学习。但对话并没有就此停止。代理的问题变得更加复杂。将工具选择错误和复合错误问题加入这个组合：伽利略的评估工具评估了这些问题——其CTO回答了我的一些关键问题，包括复合错误问题以及代理评估对客户影响最大的方面。还有关于最新代理协议和方法的内容，包括工具验证器和MCP。一张启发性的截图展示了一个RAG幻觉，其中大型语言模型虽然提供了正确的信息（完整性评级为100%），但却忽视了它，转而选择了自己的（不正确的）答案。这一切都朝着什么方向发展？首先：打破这些问题是即将被解决的神话（例如，OpenAI的新o3和o4推理模型比它们的前辈更容易产生幻觉）。正如我所述：但这也关乎实时代理评估的价值，以及这如何能带来更好的项目成果——以及更多的用户信任：我还回顾了我关于正确使用AI代理的十个经验教训，包括：追踪这些技术的法律责任和知识产权问题，并在数据集中的偏见导致法律风险之前加以防范……你经过伦理筛选、自愿提供的数据可能是你最大的AI优势——或者，如果滥用的话，可能是你最大的责任。让员工/用户参与到激发活力并赢得信任的AI叙事中，而不是通过过度兴奋地谈论“遇见你的新数字队友”来煽动对失业的恐惧。构建一个治理/协调框架以管理AI代理，并开始思考跨供应商的代理间交互。这应该能让我们忙碌一阵子……

Dginomica精选内容——本周我在diginomica上的热门文章

CIO访谈——东京海上集团谈AI的力量以及保险行业需要现实检查——Mark Chillingworth最新的CIO访谈聚焦于当今AI的潜力及其局限性。正如这位CIO所言：“LLM的本质、向量数据库以及RAG都可能导致即使使用相同的底层模型和数据，也得不到相同的结果。我在使用Chat GPT和Grok AI时就遇到过这种情况，得到的答案略有不同……我认为关于应用程序死亡和代理崛起的预言为时过早。”

Tessl如何重新构想AI驱动的开发——以及原因——George探讨了AI对软件开发的影响：“如何以一种方式引入这些工具，从而在财务、业务、开发、安全和运营专家之间建立信任？Maple认为两件事情将是重要的：验证和文化。”

另请参阅：George的私人投资者为何对数据中心增长持乐观态度。这是为什么。

单身的Albertsons即将上任的首席执行官强调了零售商的技术北极星——Albertson与Kroger的超级合并被取消，接下来会发生什么？Stuart再次跟进……

供应商分析，diginomica风格。这是我们供应商报道中的三个顶级选择：

Confluent——没有实时数据流，AI代理就像石头一样愚蠢——这不是你每天都能看到的标题！Derek说：“Confluent专注于特定的高价值用例，如防止AI幻觉和启用模型灵活性，解决了企业愿意资助的即时痛点。”

速度是关键——流程智能如何支持关税中断世界中的供应链敏捷性——Derek有一个新的（且及时的）用例来自Celonis。

活动季继续进行——我们也继续前行……

新鲜的报道和分析：

灰色思维：Workday的都柏林超能力让AI融入人类流程——Katy说：“这一切的关键在于Workday在实时可用的深度HR数据集，使代理软件能够感知、计划并与人类管理者一起工作，当员工角色发生变化时触发预期的工作流（需要找到替代者）。”

商业领袖在最糟糕的时候遭遇了数据信心危机。代理来了帮忙，但传统数据分析师的未来何去何从？——Stuart通过Tableau的“代理分析”深入研究了Tableau Next的计划。

Atlassian团队‘25：为什么Atlassian正在践行自身的企业变革建议——更多关于我们全面覆盖Atlassian团队的文章，这篇文章来自Alyx。

另请参阅：Phil的Atlassian团队‘25——早期采用者表示不再使用PowerPoint规划。

另外几个供应商推荐，没有引语：

Box CIO Ravi Malick——代理技术如何帮助组织消除数据追逐并改善决策——Stuart

Certinia春季发布以AI为主导，代理将在今年晚些时候推出——Phil

Jon的杂项——George继续探讨英国开放政府主题：“这些是否封闭政府的最后日子？民主3.0正以开源形式出现。”

Stuart解释为什么这次“烤扎克伯格”有所不同：“享受扎克伯格的失意，但在FTC的Meta垄断游戏中，有很多企业高风险在进行。”

最后，Cath询问CEO是否可以被技术取代：“周末小贴士——如果AI偷走了CEO的工作，那可不是开玩笑的……但人类智慧能否战胜人工智能？”这是一个有趣/揭示性的前提，但如果今天的AI可以取代你的CEO，不是针对AI个人，而是也许是时候进行一些领导力培训或Toastmasters了……

“周末小贴士——如果AI偷走了CEO的工作，那可不是开玩笑的……但人类智慧能否战胜人工智能？”企业网络最佳我的七个最佳从座位到成功：为AI产品构建灵活的SaaS定价——传统的定价模式不会适用于AI，接下来会是什么？这篇来自The New Stack的文章推动了这一讨论。

DeepSeek：好坏与丑陋——第二部分——Dr. Michael Wu带来了DeepSeek分析的第二部分，包括偏见、隐私、安全和安全性问题。如果这是“坏”的话，“丑陋”的将会变得更糟……

AI杀死了平台明星——还是没有？——Thomas Wieberneit强化了代理不会很快取代SaaS的原因：“真相在于商业和其他应用实际构建方式的潜在变化。”我的补充：代理也将改变过程如何被监控和优化——以及用户如何与企业系统互动。

身份作为新的边界：NOV阻止79%无恶意软件攻击的方法——Louis Columbus有一个显著的安全用例：“本质上，我们希望在几秒钟内使被盗令牌变得无用。”

关键网络安全漏洞数据库资金告罄——一个令人担忧的发展，需要密切监测，或许需要一种新的方式来记录漏洞。

你的SI还在创造价值吗？如何在项目中期重新评估而不搞砸——UpperEdge的John Belden在这篇文章中游刃有余：“最明显的杠杆可能正在减弱的迹象之一是存在失控且不透明的变更请求。”

当AI获得董事会席位时——一篇评论。首先，我要批评这篇文章，所以让我们从这一点开始：这是关于AI在现实环境中董事会级别使用的必读文章。我在LLM评估研究中关注的重点是如何挑战将LLM（及LLM代理）推向概率极限——也许是在确定性/合规性设置中需要注入新数据的情况：LLM并未真正接受过训练或设计用于这些情况。但是，如果考虑大型语言模型（LLMs）最擅长的场景会怎样呢？例如：创造性浓缩、头脑风暴支持、总结以及交互（尽管是通过机器人界面）。这正是我们在这篇《哈佛商业评论》（HBR）文章中看到的内容：利用LLMs的优势作为潜在的董事会“顾问”和讨论发起者。

我还补充一个有争议的优点：LLMs不关心我们的情感（或组织的政治和假设）。虽然前者导致了一些消费者LLMs引发的人类自我伤害的悲剧事件，但这对组织来说可以说是一个优点，并且我们在这一案例中发现了这一点，因为LLMs被整合到董事会层面的讨论中，例如外包的利弊。ChatGPT的广泛训练揭示了被忽略的想法或问题。正如作者所指出的：

ChatGPT的全面列举包括新想法，但真正改变局面的是互动的语气转变：

有几个注意事项：作者指出，具有批判性思维的人的存在对于将输出从通用建议中提炼出来至关重要（“无监督”使用ChatGPT的效果差得多）。积极参与的管理需求也是至关重要的。

这一案例进一步印证了我的看法，即许多最佳的生成式人工智能用例并不是效率提升，而是添加一个新的元素，使疲惫/有限的过程更加稳健。显然，这需要新的指标来衡量这些好处，否则高管们将继续被AI效率/裁员的承诺所迷惑。

现在谈谈我的异议。作者写道：

嗯？我不确定作者今年春天听了哪些企业软件主题演讲？事实上，准确性在活动中仍在被忽视或迅速归类并错误地认为即将解决的问题。我们可以同时处理多个任务。在这个特定用例中，准确性并不十分重要，这就是为什么ChatGPT能够在似乎没有太多微调或强调RAG/上下文数据的情况下被使用。他们继续说：

对于这个用例，价值体现在其他方面。并非所有供应商都在探索的用例都有同样的价值。其中两个最大的？代码生成和客户服务机器人。认为准确性在那里不重要吗？是的，这个场景中的高管已经习惯于处理不完整的信息，但他们真的会反对从生成式AI获得更准确的供应链数据吗？

这篇文章包含了一个关于工厂翻新成本的轶事：

但如果估计不准确，只是看起来准确呢？谁来决定这一点？AI不是更能引发关于工厂翻新利弊的全面讨论，而不是提供实际的估计吗？这个估计难道不会依赖于区域/劳动力因素、工厂位置的天气因素等吗？

总之：

“这打破了现有的考虑，并因此拓宽了考虑范围”——这是一个不可否认的胜利——如果相关董事会愿意质疑自己的假设的话（我知道很多董事会不愿意这样做，但作者已经提到了这一点）。“在某些情况下，快速提供信息以推进工作。”我认为这有点夸大其词，需要比文章中提到的更多的架构和人为验证。快速发布新闻稿？这只能算作一个小进步。基于ChatGPT的估计快速推进工厂翻新？要小心行事；让我们战略性地对待这件事。

最后：

我最近经常看到这种情况——人类行业专家角色的弱化。我无法对这个用例发表意见，它听起来进行得很顺利，但尽管批判性思维是基础，面对ChatGPT及其同类提供的那种过度自信且令人信服的信息时，唯有行业专家能敏锐察觉问题端倪，并知道哪二十个生成式AI事实中有可疑之处，需要调查。

然后，一个批判性思考者可以调查标记的问题。一个不了解行业专业知识的批判性思考者可能不会发现可疑的问题。他们会检查所有这些问题吗？如果你只是用它来激发讨论，没问题，但作者强烈暗示数据有时也被用来“推进”。如果是这样的话，人类行业专家仍然可能发挥潜在的重要作用。

我们需要更多此类文章。（感谢Esteban Kolsky提供的文章链接，他在这一领域正在进行着令人着迷的工作。）

小提示

我感受到了复活节的气息，你呢？

有没有注意到那个不可靠的第三方（你信任并给予特权访问权限的那个）总是在安全漏洞中成为替罪羊？

某种“帮助”是我们所有人都不需要的那种……

下次见……如果你找到一篇符合“命中与未命中”标准的文章——无论是好是坏——请在评论区告诉我，就像Clive（几乎）总是做的那样。

大多数企业的“命中与未命中”文章都选自我精心策划的@jonerpnewsfeed。

(以上内容均由Ai生成)