社区驱动的小型语言模型的力量

快速阅读: 《数据智慧城市解决方案》消息，在这期播客中，主持人斯蒂芬·戈德史密斯与麻省理工学院教授莎拉·威廉姆斯和波士顿首席信息官桑蒂·加尔塞斯探讨了人工智能如何改变城市数据使用。他们讨论了生成式人工智能在处理定性数据和提升社区洞察力方面的潜力，以及小型语言模型在增强城市服务透明度和效率方面的可能性。

2025年2月19日人工智能（AI）在这集节目中，主持人斯蒂芬·戈德史密斯与麻省理工学院教授莎拉·威廉姆斯和波士顿首席信息官桑蒂·加尔塞斯一起探讨了人工智能（AI）如何改变城市及其居民使用数据的方式。威廉姆斯分享了她在市民数据设计实验室（市民数据设计实验室）的工作见解，讨论了生成式人工智能（生成式AI）如何帮助解读从市议会会议记录到社区反馈的大量定性数据。加尔塞斯反思了将人工智能（AI）融入市政决策和公民参与的机会和挑战。他们共同强调了社区驱动的小型语言模型的潜力，这些模型能够赋予居民权力，并使城市服务更加透明和高效。您可以在此处收听，或在您获取播客的地方收听。以下是我们的对话的文字记录。

斯蒂芬·戈德史密斯：我是哈佛大学布隆伯格城市研究中心政府学教授斯蒂芬·戈德史密斯。欢迎回到《数据智能城市》播客。今天我邀请了两位嘉宾：一位是波士顿首席信息官桑蒂·加尔塞斯，在第67集中也有出现。另一位是麻省理工学院技术与城市规划副教授、市民数据设计实验室（市民数据设计实验室）和利文索尔高级城市主义中心的主任莎拉·威廉姆斯。欢迎你，莎拉，也欢迎再次见到你，桑蒂。

莎拉·威廉姆斯：非常感谢您的介绍。

斯蒂芬·戈德史密斯：我们的听众已经认识桑蒂了，但在我们深入主题之前，莎拉，请给我们简要介绍一下你在麻省理工学院的背景以及你的工作，以及为什么桑蒂和我认为你如此出色。

莎拉·威廉姆斯：哇，这真是太棒了。非常感谢您的介绍。我在麻省理工学院开始时负责一个叫做市民数据设计实验室（市民数据设计实验室）的项目，这个实验室真正思考的是我们如何利用数据和数据分析来推动政策变革。我们实验室的一个思考方式是通过为政策专家提供数据可视化和沟通策略来实现这一点。所以我们可以拥有世界上所有的开放数据，但如果不能清晰地传达这些信息以做出我们需要的决定，那么数据就很难被使用。因此，我们真的试图让这些过程和程序更容易理解，更易于使用。利文索尔中心认为城市是非常跨学科的地方，对吧？我们需要建筑师，我们需要城市规划师，我们需要数据科学家。我们需要所有不同的领域来应对城市的未来问题。而我们真正尝试做的是与城市建立长期关系。这是我们在波士顿开始思考的问题之一。资助利文索尔中心的艾伦·利文索尔对波士顿确实很感兴趣。利文索尔家族一直支持各种城市项目，但最近通过利文索尔中心和我们40位附属教师，我们对如何在城市中使用和应用生成式人工智能（生成式AI）产生了浓厚的兴趣，以及这样做的一些注意事项是什么？如果我们回顾我最初对城市数据分析的兴趣，我们应该考虑一些什么？我们应该考虑哪些偏见，以及我们如何真正将我们输入生成式人工智能（生成式AI）的数据用于行动？

斯蒂芬·戈德史密斯：好吧，让我们稍微谈谈行动。大约十二年前，当我为迈克·彭博在纽约市议会工作时，通过了一个开放数据条例，当时合规性就是上传丑陋的PDF文件并打勾。那是个早期阶段。后来我们不再使用PDF文件，但现在有一种观点认为，虽然有大量开放数据，但这反而限制了其使用。那么，我们如何使用生成式人工智能（生成式AI）来改进对话并提升洞察力，从而帮助社区团体访问和理解城市数据？

莎拉·威廉姆斯：嗯，我认为生成式人工智能（生成式AI）的一大优点是它能够处理定性信息。我要回避你的问题，转而讨论这种定性数据，这对于城市来说一直难以开放，难以解释，难以理解。我们城市拥有的很多数据都是定性的，无论是市议会会议记录、社区会议记录，还是简单的记录和文档。我认为生成式人工智能（生成式AI）在帮助我们综合和解析来自社区的大量评论方面有很大的潜力。这包括传统的数据集，如311热线数据。当我们进入更传统的数据集并考虑它们可能如何受益于生成式人工智能（生成式AI）时，我认为通过与生成式人工智能（生成式AI）系统进行对话来提出他们可能想要询问的问题是一种方法，看看那些定性数据集，对吧？因此，突出显示可能影响居民的问题，然后思考如何将开放数据应用于这些问题。我认为生成式人工智能（生成式AI）还擅长的一件事是帮助你编码和帮助你推进可视化。所以如果我们想快速查看某些内容，已经在城市工作的先进程序员和高级数据科学家可以很快地提出这些问题，并且能够迅速地与它们进行编码并获得答案。所以它在许多方面都是我们工作的一个助手。我认为它真的应该被视为这样的助手，因为就像世界上任何事物一样，我们需要检查和验证其结果。无论是与社区合作还是处理311数据，都需要有专门人员来进行这些检查和平衡，这非常有帮助。

嗯，我认为生成式人工智能（生成式AI）的一大优点是它能够处理定性信息。我要回避你的问题，转而讨论这种定性数据，这对于城市来说一直难以开放，难以解释，难以理解。我们城市拥有的很多数据都是定性的，无论是市议会会议记录、社区会议记录，还是简单的记录和文档。我认为生成式人工智能（生成式AI）在帮助我们综合和解析来自社区的大量评论方面有很大的潜力。这包括传统的数据集，如311热线数据。当我们进入更传统的数据集并考虑它们可能如何受益于生成式人工智能（生成式AI）时，我认为通过与生成式人工智能（生成式AI）系统进行对话来提出他们可能想要询问的问题是一种方法，看看那些定性数据集，对吧？嗯，我的意思是这很有趣。在某种程度上，你是说社区能众包他们的绩效评估吗？我认为这与其他形式的众包一样存在问题，即你不知道谁在贡献数据，谁没有贡献，以及是否某些人比其他人贡献得更多。因此，尽管技术上可能实现并允许我们这样做，我们可以利用人们的门铃视频或其他方式来获取某些层次的关注。但是，这只会偏向于那些拥有这些门铃应用或能够贡献的人。所以我认为城市提供的一件好事是，他们会主动去收集那些如果没有被贡献就可能缺失的数据。但在你提到的城市进行自我评估的问题上，我思考了很多，因为许多评估都是通过数据可视化来呈现的。数据可视化可能会倾向于某些特定的答案。我认为有时这些数据绩效评估也会这样，或者它们使评估变得过于复杂，以至于很难真正理解信息。所以我认为可以采用一种方法，就是将那些PDF评估带入生成式人工智能，也许我们可以更好地解释其中的结果，比如对社区成员来说。我只是在想，我曾与纽约市环卫部门合作过，关于他们的投诉，他们的绩效评估表是我见过的最复杂的东西。那么，你能简化这些东西以便更容易传达吗？

它将会是一个小型语言模型。就像大型语言模型一样，但小型语言模型包含特定的上下文和信息。这就是它们之间的区别。因此，大型语言模型是基于OpenAI或谷歌能够获取的所有可用数据进行训练的。而对于小型语言模型，我们则是根据特定的数据和信息进行训练，这种模型通常会被存储在单独的服务器上。这使得模型的所有者能够控制它的使用和访问权限。它确实利用了大型语言模型的能力，这正是其中一项令人惊叹的功能，对吧？小型语言模型则是专门针对这些数据进行训练的，因此它们利用了大型语言模型的优势，但它们是专为社区设计的。我认为任何为该模型做出贡献的社区成员都应该能够访问它。因此，我们需要为此建立某种治理结构。我觉得第一步是真正进行实验并深入研究。我觉得选择一个小问题或需求社区，真正尝试看看构建这样一个模型会涉及什么会很有趣。正是通过这样做，我们才能更深入地理解这里的一些理论背后的细微差别。不仅仅是停留在理论层面，而是将这些理论应用于具体主题，这是我非常兴奋的。无论环卫部门是否准备好了与我们合作，还是其他社区的议程，无论是考虑洪水相关的问题，甚至是在蓝山大道的情况，如果我们能够策略性地选择一个想要试验的地方，我认为我们可以真正看到其中的优势和潜在的注意事项，并成为这一领域的领头羊，因为我认为这个新研究领域有很大的潜力。

(以上内容均由Ai生成)