MIT团队AI系统获90%用户青睐
快速阅读: 截至发稿时,麻省理工学院联合谷歌DeepMind等机构开发出融合视觉与语言模型的AI系统,可理解文本与图像指令,辅助用户完成多组件物体的人机协同设计。该系统支持个性化调整并解释决策逻辑,在用户测试中获得超九成偏好,未来有望应用于家具本地化制造等领域。
近日,麻省理工学院(MIT)研究团队开发出一种融合视觉与语言模型的人工智能系统,可辅助用户高效完成多组件物体的设计与制造。该系统能理解文本指令和图像输入,自动规划结构件与面板的装配方式,并支持用户全程参与调整,实现人机协同设计。
研究人员指出,当前多数生成式AI虽可根据文字提示生成三维模型,却难以输出具备组件级细节、适用于机器人组装的几何表示。为此,团队引入预训练的视觉-语言模型(VLM),使其既能“看”懂物体几何形态,又能“理解”功能需求,从而判断面板应安装在座椅、靠背等关键部位。
用户只需输入“制作一把椅子”等简单指令并提供参考图像,系统便会基于大量示例推理出合理布局,并以文字标注各部件功能。随后,用户可进一步细化要求,例如“仅在靠背使用面板”,系统据此优化设计。这种人在回路机制有效缩小了庞大的设计空间,兼顾个性化偏好与实用性。
在用户测试中,超过90%的参与者更青睐该系统生成的设计,优于仅在水平面上随机或全覆盖安装面板的对照算法。研究还发现,VLM能解释其决策依据,体现出对“坐”“靠”等功能需求的基本理解,而非盲目分配。
该框架目前适用于快速原型制造,如航空航天部件或建筑构件。长远来看,有望应用于家庭场景,实现本地化生产家具等物品,减少对集中式物流的依赖。团队下一步计划支持更复杂的材质描述(如“玻璃与金属桌”),并引入铰链、齿轮等可动组件,提升成品功能性。
相关成果已在神经信息处理系统大会(NeurIPS)上发表。论文由MIT电气工程与计算机科学系、建筑系联合谷歌DeepMind及Autodesk Research共同完成。
戴维斯表示,团队希望大幅降低设计工具的使用门槛。通过生成式人工智能与机器人技术,已实现将创意快速、便捷且可持续地转化为实体物品,有望提升设计制造的可及性与效率。
(以上内容均由Ai生成)
引用自:麻省理工学院新闻网站