如何消除 AI 炒作并构建真正的解决方案

快速阅读: 《文华酒店》消息，牛津大学专家劳拉·吉尔伯特认为，要让人们接受人工智能，关键是以问题为导向，而非技术本身。她强调理解用户需求、融入现有流程，并确保工具提供有价值功能。她举例说明了Caddy和Redbox的成功案例，并指出平衡AI的伦理性和公平性需要专业标准和测试机制。她建议公共部门领导者聚焦问题，吸引早期采纳者，并让培训更具实践性。

与牛津大学艾利森理工学院政府人工智能负责人劳拉·吉尔伯特博士（OBE）进行访谈

如何让人们在对人工智能持怀疑态度时接受它？

对于牛津大学艾利森理工学院政府人工智能负责人劳拉·吉尔伯特以及前唐宁街10号人工智能孵化器主任来说，关键在于以问题为导向，而非技术本身。他们需要的是让工作更轻松、提升公共服务质量的解决方案。

人工智能并非是为了取代政府中的人性化元素，而是为了提高效率、降低成本，并帮助公务员专注于重要的事情。在这次访谈中，吉尔伯特讨论了如何设计有效的AI解决方案，解决采用过程中的挑战，并将人工智能有效整合到政府服务中。

问：您的职业经验如何塑造了您对人工智能增强一线公共服务潜力的理解？

如何让人们在对人工智能持怀疑态度时接受它？

从各个角度讨论人工智能的声音很多——有好的、坏的，也有奇怪的。但在政府中，真正重要的是听取前线人员的意见。我们对这项技术本身有一定的了解。大型语言模型（LLM）可能感觉很新，但各种形式的人工智能已经存在了几十年。甚至几年前，我们就使用早期版本的LLM来分析导致医院产妇死亡率的因素。

因此，在某种程度上，这不是全新的工作。然而，关键在于用户如何与人工智能互动。当人们只是简单地构建工具并交给用户说“给你，用这个”时，问题就出现了——而没有充分理解前线的工作流程。公务员都很忙，如果一个工具不能无缝融入他们的日常工作，它就不会被有效使用。我们的许多工作都集中在直接与将使用AI工具的人接触，确保我们所构建的东西确实满足他们的需求。

问：您在构建新的AI产品时采取了哪些步骤？

第一步是确定我们要解决的问题。这包括评估投资回报，但更重要的是理解如何实际交付解决方案。谁会使用它？我们如何与他们互动？他们真的想要这个产品吗？它是否适合他们的工作流程？最关键的是，我们如何使其对公众有用、吸引人且易于获取？接下来，我们会经历通常的软件开发生命周期，结合产品设计专家和用户研究人员与我们的专业工程师一起，将产品从原型阶段推进到alpha（内部测试）、beta（用户测试），再到全面部署。

最重要的是，我们在过程中尽早让一线工作人员——即提供公共服务的人参与进来。他们解释自己的日常挑战，分享他们的观点，并与团队合作，确保AI解决方案真正满足他们的需求。与需要使用这些产品的人员共同构建产品是成功的关键。我们团队的很大一部分工作涉及黑客马拉松，但我们的运作方式与其他团队略有不同。我们运行了一个名为Evidence House的项目，已有超过一千名公务员注册。有些人具备编码经验，而其他人则带来了政策、品牌或服务交付方面的专业知识。我们将他们聚集在一起，给他们一个问题和相关数据，并根据他们的技能组建多元化的团队。有时，这些活动中会诞生真实的产品原型，但更重要的是，让人们参与到如何将想法转化为可行的数据驱动型技术解决方案的过程中。我们在这些会议中还教会了成千上万的人基本的编程知识。

问：能否举一个通过这种方式成功推出新产品的例子？

一个例子是Caddy，这是我们为公民咨询局开发的一款工具，现在正在其他政府服务中推广，其中有人类顾问与有需要的人互动。在公民咨询局，许多客户处于脆弱状态，他们专门来找人——而不是AI交谈。因此，我们并没有取代这种人性化连接，而是设计了Caddy，以支持顾问更有效地完成工作。

许多顾问是新人或志愿者，传统上，他们会依赖主管、谷歌搜索或一堆参考资料来验证他们的指导。通过了解他们实际的工作方式，我们能够设计出能无缝融入他们工作流程的人工智能。

Caddy可以直接集成到Google Meet、Microsoft Teams或Slack中，像同事一样工作。顾问只需简单地问：“@Caddy，我在这个情况下应该给出什么建议？”——不需要安装新工具或中断他们的工作流程。主管会自动被标记以便监督和验证回复，但整个过程快得多。

影响显著。我们的评估显示，使用Caddy的顾问对自己提供的建议的信心提高了2.5倍，公众报告的解决率提高了60%。该工具通过内置评估持续改进，使我们能够依据真实用户的反馈进行优化。

政府提供了独特的机会接触到提供公共服务的人，当你将他们的专业知识、关系和对工作的关注视为产品设计的核心时，你就能创造出既有效又广泛采用的解决方案。

问：Caddy是如何通过多轮评估逐步完善的？

Caddy是一个罕见的例子，我们一开始就做对了。那时，我们已经学到了一些关键教训，并在整个开发过程中与公民咨询局密切合作。核心设计——直接集成到Teams和Google以适应现有工作流程——保持不变。大多数变化集中在提高建议的质量和微调响应以使其更加准确和有用。

话虽如此，我们也确实开发了一些随着时间推移发生巨大变化的产品。一个很好的例子是Redbox，我们的第一个主要项目，最初是一个黑客马拉松的想法，旨在帮助部长的私人办公室管理部长的红箱。部长常常需要在缺乏背景的情况下对复杂的200页法规文件形成观点，所以他们的私人办公室必须阅读所有内容，提取要点并提供建议。我们的目标是自动化这一过程的一部分，使其更快更容易获得相关见解。

然而，第一版完全不符合用户需求。我们将其推广到几个私人办公室，虽然他们喜欢这个概念，但执行并不理想。大约花了六个月的时间——并且进行了重大调整——才将其转变为人们真正想使用的东西。有一次，我们不得不退一步承认自己没有完全理解用户的需求，从而重新思考并重建了工具的大部分内容。

如今，Redbox在内阁办公室蓬勃发展，通过口碑传播开来。它的净推荐值（NPS）约为57——与苹果（61）相当，远高于微软（38）——这意味着人们强烈向同事推荐它。从一个平庸的原型转变为广泛采用、评分高的工具，这表明倾听用户意见并在必要时调整方向的重要性。

问：在推出AI赋能服务时，您学到的最大教训是什么？

最重要的教训是理解人们实际上如何使用这项服务——并对此给予重视。如果你不针对现实世界的工作流程进行设计，采用率就不会发生。一个很好的例子是我们的早期工作在处方方面的AI。

问：在推出AI赋能服务时，您学到的最大教训是什么？

在英国，研究表明，每年有多达22,000人因有害的处方相互作用而死亡。随着年龄的增长，人们往往会积累更多的药物，有时一次多达19种处方——这带来了严重的风险。虽然现有的系统可以防止全科医生同时开具两种直接冲突的药物，但在添加新处方到现有列表时，它们不会标记危险的相互作用。结果不仅对患者不利，还造成了约10亿英镑的损失，其中四分之一来自浪费的药品，其余来自治疗不良反应。

我们的第一反应是为全科医生提供一种工具来预防这些有害的相互作用。但当我们接近他们时，他们的反应很清楚：“请走开。”他们已经被弹窗和警报弄得不知所措——再增加一个中断不可行。

相反，我们转向药剂师，他们更适合这种干预。他们已经在进行结构化的药物审查，我们的AI可以帮助自动化这一过程的部分内容。它可以对患者进行分类，优先考虑高风险人群，并建议安全高效地优化处方的方法。对于药剂师来说，这不仅仅是一个警报——这是一个自然融入其工作流程的有价值的工具。该解决方案目前正处于测试和评估阶段。

结论：你必须找到合适的用户群体。如果预期受众无法或不愿使用你的产品，那么技术本身并不重要。成功在于理解用户需求，融入现有流程，并确保工具提供有价值的功能。

问：您认为应该如何平衡推动AI驱动解决方案的需求与确保其伦理性和公平性的需求？

我们往往忽略了AI产品不道德的原因——除非你是营销巨头或社交媒体平台，否则可以说大多数不道德的AI并非故意为之。没有人会坐下来想，“你知道吗，我们要做的就是做一个检查护照照片的AI解决方案，但我们确保它拒绝黑人女性的概率是其他人的两倍。”这种情况发生时，这是一种意外的专业失误，而不是有意制造不公平的技术。

例如，在美国，当人们构建假释决定算法时，结果是让所有黑人都留在监狱，而让所有白人获得假释时，他们并不是有意识地这样做。他们根本未能理解统计数据。他们未能理解数据中的偏见，也未能构建出他们本应构建的工具。至于伦理方面，对我来说，关键是确保雇佣非常合格、经验丰富且理解统计和数据并关心结果的专业人士。你需要懂得如何构建工具并对偏见进行测试的人，还需要一套机制，让你的团队可以阅读并允许外部人员尝试它，看看是否能让它变得有偏见。然后你可以通过迭代过程来修正这些问题，并使用统计措施来确保不会产生有偏见的结果。

如果你不做这些事情，你就没有履行好你的基本职责。对于任何你开发的产品，都需要有这些检查机制。我认为，就这方面而言，最大的问题是专业标准。

至于我们选择构建工具的方式，当然，当前这一波生成式AI仍然非常新。会有工作岗位流失，有趣的是，我们看到的是我们未曾预料到的地方。创意产业显然在政府中较早开始应用人工智能。我们最早的一个用例实际上是替代那些进行政府咨询的分析师。这是我们在早期构建的一个工具，确实节省了资金，你可以将其用于癌症治疗。

我最喜欢的一个例子来自工作与养老金部，那里有人写信来咨询。那些写纸质信件而非电子邮件的人可能并不那么擅长使用技术。历史上，有人可能需要长达50周的时间才能读到这些信件，而写信的人——他们可能是弱势群体。结果是，有些人甚至撑不过这50周，等到你读到信时，他们已经不在了。工作与养老金部做得非常出色的一点是，他们让人工智能立即读取所有信件，并进行情感分析，判断信件是否表现出绝望和脆弱的情绪。如果是这样，就会有人打电话给他们。这是一种很好地利用人工智能使政府更显人性化的做法。

当我们构建这些算法时，我们在努力挑选合适的应用场景，尝试用人工智能替代纸质文档、加速决策流程或为人们提供更佳信息以便决策，而非试图取代人际接触。没有人真心希望取代人类的决策过程——我们在社会和技术成熟度方面还未达到大多数情况下都适合这样做的阶段。但我们也要意识到，政府的运作成本非常高昂，医疗服务的成本更是极其高昂。我们缺乏足够的税收来承担所有必要的支出。如果良好的人工智能实施结果是减少公务员的数量，这在一定程度上对国家有益。有些岗位将会被取代，希望我们能对这些人进行再培训，引导他们转向因人工智能而蓬勃发展的领域。这在经济层面是一大利好，但对某些职业，特别是像我这样的职业——软件工程和数据科学在很大程度上可实现自动化。

问题：技能对于政府成功采用人工智能有多重要？

掌握相关技能至关重要。若缺乏这些技能，我们可能构建出加剧不平等、造成不良后果甚至威胁人们福祉的工具，这完全背离了人工智能应有的应用方向。这是一项颇具难度的挑战，因为公共服务部门中技术专业人员并不多，对非技术背景的招聘方而言，招聘他们也颇具难度。简历上可能堆满了恰当的行业术语，但这无法确保其实际能力。因此，高质量的招聘显得尤为重要。在我们团队里，我们采取技术测试，候选人有四小时时间，需处理部分数据并解决一个具体问题。你需要由专业人士来甄选专业人士。

提升技能同样非常重要。公务员需掌握基础的人工智能知识，从提示工程到了解现有工具。若缺乏这些，人工智能的普及将难以推进。采购是另一项关键因素。政府在技术领域投入数十亿美元，但若谈判桌上缺乏技术专家，部门可能为不符合需求的方案付出过高代价。有时，人们甚至意识不到自己在索求不当之物，因为他们并非该领域的专家。为节省开支、高效部署人工智能并规避算法失误，我们需要一支高水平的专业人才队伍。

人工智能行动计划的核心在于引入这些专业人才，并确保政府能负责任且高效地运用人工智能。

问题：你会给面临人工智能采用阻力或焦虑的公共部门领导者什么建议？

这是一项典型的领导力难题，关键是聚焦问题本身，而非技术手段。在引入人工智能解决方案时，我通常不会首先提及“我们正利用人工智能优化处方”。这一表述难以奏效。相反，我会这样表述：“你知道吗？每年有高达22,000人因有害的处方交互而丧生？这给英国国家医疗服务体系带来了10亿英镑的损失，这笔资金本可用于癌症治疗？我们认为我们找到了一种解决方案。我们正在患者群体中测试它，其运作方式如何？”通过现实世界的影响来阐述人工智能，使其更易理解且更具紧迫感。若人们未察觉问题，便不会意识到解决问题的必要性。

优先吸引早期采纳者。根据创新扩散理论，约16%的人属于创新者或早期采纳者——锁定这部分人群。激发他们的兴趣，激励他们分享经验，让热情自然蔓延。过早劝服怀疑者可能徒劳无功。

让培训更具实践性。观看视频或阅读关于人工智能的内容难以促成行为转变。人们需要在实际情境下亲自体验工具，并在指导下操作。若在那之后仍遭抗拒，这或许并非合适工具——这恰恰是宝贵的反馈。

人工智能的推广并非强制变革，而是寻得切实改进人们工作的合适方案。归根到底，我们要始终铭记从事公共服务的初衷是改善民众生活。

本文源自Apolitical。

延伸阅读：人工智能及其他忧虑

(以上内容均由Ai生成)