Copilot 来到堪培拉：世界上最大的全政府 AI 试验的经验教训

快速阅读: 据《文华酒店》称，澳大利亚政府对微软365 Copilot的试验显示，69%参与者任务完成加速，61%工作质量改善，77%对其满意。试验强调克服技术、法律、文化和治理障碍的重要性，并关注包容性及技能担忧等问题。

人工智能已进入职场，公共和私营部门都在努力最大化其带来的好处。2023年11月，澳大利亚政府宣布了一项为期六个月的微软365 Copilot政府范围试验，这是一个生成式人工智能聊天机器人和助手，结合了大型语言模型来理解和总结、预测以及生成内容。试验从2024年1月持续到6月，涉及近60个参与机构中的超过5000名APS工作人员。

我们对这次试验的评估测试了人工智能承诺在多大程度上转化为公务员的实际采用。由此产生的关于人工智能采用的益处和挑战的见解非常有趣。驾驶舱中的人工智能Copilot被选为试验对象有几个原因。除了被视为生成式人工智能的一般合适代理外，还提供了与其他现成AI产品相当的功能，Copilot已经在许多机构中可用，并且可以快速部署在整个APS中。其使用也可以被控制和监控。

试验是非随机的，各机构提名员工参与。参与者包括各种职位类别和职业领域的人员，具有不同的AI经验水平和期望。参与者被鼓励在一系列日常工作活动中使用Copilot：内容生成——起草文件、电子邮件和PowerPoint演示文稿；总结与主题化——提供会议、文件和电子邮件线程的概览，识别关键信息；任务管理——从会议、文件和电子邮件中建议后续行动和下一步；以及数据分析——创建公式、分析数据集并生成可视化效果。

试验也有明确的目标，这是我们随后评估的主题。评估目标主要调查方向员工相关结果确定Copilot作为生成式人工智能的一个例子，是否能提高APS在效率、输出质量、流程改进和机构实现优先事项的能力方面的生产力。Copilot对APS员工有何影响？生产力评估APS工作人员对使用Copilot的态度。Copilot的生产力优势是什么？政府整体采用生成式人工智能确定Copilot作为一个生成式人工智能的例子，能否以安全和负责任的方式在整个政府范围内实施。政府整体采用生成式人工智能作为生成式人工智能的例子，Copilot在APS中的短期和长期采用面临哪些挑战？意外结果识别并理解实施Copilot作为生成式人工智能的例子所带来的意外好处、后果或挑战，以及这些对APS生成式人工智能采用的影响。Copilot的采用是否会产生任何意外结果？Copilot是否会对APS产生更广泛的影响？

评估Copilot的表现为了确保洞察力的广度和深度，我们采用了混合方法进行评估，评估了Copilot在APS试验期间的使用、好处、风险和意外结果。由于混合方法利用了定量和定性研究技术，因此非常适合评估Copilot试验，因为它提供了对可测量结果和细微背景洞察的全面理解。

总的来说，超过2000名参与者参与了此次评估。在这次评估和机构特定评估中使用Copilot的用户一致报告称，在三个关键领域：内容总结、创建初稿和信息搜索方面，质量和效率都有所提高。试验参与者估计完成这三个任务之一时效率提高了大约一个小时，初级水平（APS3-6）、EL1和信息技术角色的参与者在这些活动中感知到最多的效率提升。此外，40%的使用后调查受访者表示他们能够将时间重新分配至更高价值的活动中，如员工互动、文化建设、指导以及与最终用户和利益相关者建立关系。这与更广泛的观点一致，即人工智能能够解放知识工作者脱离枯燥工作，让他们更多地参与工作中独特的人类方面。我们怀疑未来的试验将显示出更大的生产力增长。APS——实际上，任何转向人工智能的组织——可能直到人工智能完全嵌入关键工作流之前，不会看到全部的生产力收益。

人工智能的应用潜力真的没有上限吗？我们怀疑未来的试验将显示出更大的生产力增长。APS——实际上，任何转向人工智能的组织——可能直到人工智能完全嵌入关键工作流之前，不会看到全部的生产力收益。虽然所有职位类别和职业领域的试验参与者都对Copilot感到满意，而且大多数希望继续使用它，但人工智能在公共服务和其他地方的采用需要集中力量克服技术、法律、文化和治理等障碍，以提高使用率。

我们的评估发现，机构在试验期间面临技术和文化上的采用挑战。能力挑战也得到了强调，试验参与者需要接受既针对机构特定用例的定制培训，也需要接受通用生成式人工智能培训。文化障碍包括对使用人工智能的污名——没有人想被视为懒惰的人——而一些参与者报告说在会议中被录音和转录时感到不适。对政府机构的访谈强调，生成式人工智能可能会对APS的工作和技能构成重大影响，特别是对女性和初级员工，她们被认为有更大的工作替代风险。

试验参与者注意到需要明确的指导和信息，以了解他们的责任，并承认需要有变革管理支持，包括在工作场所内的“倡导者”，他们可以展示生成式人工智能的好处并推动采用。我们的评估发现，机构在试验期间面临技术和文化上的采用挑战。能力挑战也得到了强调，试验参与者需要接受既针对机构特定用例的定制培训，也需要接受通用生成式人工智能培训。这些都是所有组织都需要面对的挑战。

对于APS来说，机构需要仔细权衡效率和质量改进的潜在好处与生成式人工智能的成本、风险和适合其机构需求的程度。我们的评估发现，机构在试验期间面临技术和文化上的采用挑战。能力挑战也得到了强调，试验参与者需要接受既针对机构特定用例的定制培训，也需要接受通用生成式人工智能培训。最终，这是一个领导挑战。那些好奇并鼓励“刻意练习”的领导者最有可能赢得胜利。此刻领导者所能犯的最昂贵错误就是将生成式人工智能的兴起视为一个技术问题，而不是适应性领导挑战。这在其他行业也是如此，就像在APS中一样。

接下来呢？公开可用AI工具的日益普及和快速采用速度意味着APS和其他组织一样，必须迅速采取主动行动。其决定进行这样的试验，并对其进行严格评估是正确的。在整个采用和使用新技术的过程中，澳大利亚政府必须保持公众信任。适当的是，公众对政府当前和未来使用生成式人工智能存在很多担忧。在这种情况下，进行高度稳健的评估是至关重要的。

同时，重要的是要记住，这只是澳大利亚政府内第一次生成式人工智能工具的试验。随着其他工具的出现，以及使用案例的范围变得更加广泛，提高生产力和保持竞争力的需求将愈发迫切。这只是未来的冰山一角，还有更多的未来等待着我们。

公开可用AI工具的日益普及和快速采用速度意味着APS和其他组织一样，必须迅速采取主动行动。其决定进行这样的试验，并对其进行严格评估是正确的。在整个采用和使用新技术的过程中，澳大利亚政府必须保持公众信任。适当的是，公众对政府当前和未来使用生成式人工智能存在很多担忧。在这种情况下，进行高度稳健的评估是至关重要的。

评估的关键发现：每日使用——三分之一的参与者在试验期间每天都使用Copilot。生产力提升——69%的参与者报告任务完成速度有所加快，61%的人看到了工作质量的改善。时间节省——参与者每天节省多达一小时，将这些时间重新分配至更高价值的活动中。高满意度——77%的参与者对这款AI工具感到满意，86%的人希望在试验结束后继续使用它。高采用努力——需要集中力量克服技术、法律、文化和治理等障碍，并不断培养员工能力以推动采用。包容性和无障碍性——特别是对神经多样性人士、残疾人或来自文化和语言多样性背景的人，预计会有改进。工作和技能担忧——特别是在行政岗位、边缘群体、入门级职位和女性中，以及写作技能的侵蚀。

(以上内容均由Ai生成)