从语音到实物—麻省理工展示生成式AI与机器人协同制造潜力
原创 2025-12-08 09:06 Mulan 来源:AGV网生成式人工智能与机器人技术正在把“张口要一件东西,几分钟就能拿到”从科幻场景推向现实。近日,美国麻省理工学院(MIT)公布了一套名为“Speech-to-Reality(从语音到现实)”的实验系统:研究人员只需说出“我想要一把凳子”,桌面上的机械臂就能在几分钟内,用模块化部件自动装配出一把可坐的凳子,实现真正意义上的“开口即造物”。
作为全球知名的科研与工程学府,美国麻省理工学院在人工智能、机器人和数字制造领域一直处于前沿。本次项目由MIT Morningside设计学院(Morningside Academy for Design)、建筑学院、电气工程与计算机科学系以及比特与原子中心(Center for Bits and Atoms)多学科联合完成,体现了该校在“设计—算法—机器人”一体化创新上的综合实力。
项目的核心研究者、MIT研究生Alexander Htet Kyaw介绍,这套系统把自然语言处理、三维生成式AI和离散机器人装配串联成一条完整链路,让用户可以不懂三维建模、不懂机器人编程,仅凭一句自然语言完成从创意到实物的闭环。他表示,以往这些技术多是各自为战,如今第一次以“可直接造物”的方式被整合到一套工作流之中。
Speech-to-Reality系统大致分为五步。首先,语音识别模块接收用户指令,并交给大型语言模型进行语义解析,提炼出目标物体的大致形态和功能要求;随后,三维生成式AI会基于指令生成一份数字模型网格;第三步,体素化算法将连续的三维网格拆分为可装配的离散模块;第四步,几何处理进一步修正结构,确保在部件数量、悬挑形态和连接稳定性等方面符合真实世界的制造约束;最后,系统为机械臂规划出一条可行的装配序列和轨迹,实现从“数字件”到“物理件”的自动搭建。
目前,研究团队采用的是带磁性连接的立方体模块作为标准“积木”。在公开演示中,系统已经可以在几分钟内完成凳子、椅子、小桌子、两层搁板以及装饰性“狗”雕塑等多个结构的搭建——对应的语音指令仅仅是“我想要一个简单的凳子”“一个有两层的架子”或“我想要一只高一点的狗”等。研究者同时也在着手改进连接方式,用更坚固的连接件替代磁吸,以提升家具类结构的承重能力,为未来真正进入实际使用做准备。
从应用视角看,这一系统与传统的3D打印有明显差异。3D打印往往需要数小时甚至更长时间才能完成复杂结构的成型,而MIT团队的目标是在五分钟量级完成“语音到成品”的闭环,尤其适合考虑快速原型、个性化小家具和教学演示等场景。同时,模块化装配的思路也为后续拆解、重构留下空间,有助于构建可重用、可循环的物理“物料库”。
值得注意的是,Speech-to-Reality并不仅仅是单个实验装置,而是一个可以扩展的接口构想。Alexander Htet Kyaw在介绍中提到,他此前曾探索通过手势识别和增强现实与机器人交互,下一步计划把语音与手势融合到同一套交互框架中,实现用户“说一句话、比一个手势”,系统便能理解期望形态、尺寸和摆放位置,从而进一步降低制造门槛。
在学术传播层面,本项研究以《Speech to Reality: On-Demand Production using Natural Language, 3D Generative AI, and Discrete Robotic Assembly》为题,已在美国计算机协会(ACM)旗下的计算制造专题会议SCF ’25上进行报告,会议今年由麻省理工学院承办。 这也意味着,相关工作将进入更广泛的计算设计与数字制造学术圈,接受同行评议和产业界的进一步关注。
MIT的这项探索至少释放出三层信号:其一,生成式AI正从“屏幕里的内容生成”走向“直接驱动现实世界制造”,算法不再只是设计助手,而是实际装配流程的“调度中枢”;其二,机器人正在从预设任务执行者转变为“开放接口”,可以根据自然语言和高层语义自适应地完成不同装配任务,为未来柔性制造与按需生产提供新范式;其三,面向非专业用户的设计与制造工具,将在未来人机协同工厂、创客空间和教育场景中扮演愈发重要的角色。
据悉,该系统仍然处在实验验证阶段,但已清晰勾勒出“语音驱动、AI生成、机器人装配”的新型制造路线。随着连接方式、材料系统和多机器人协同等关键环节的持续优化,这类“开口即造物”的技术路径有望成为未来按需制造和个性化生产的重要支撑之一。
相关资讯
更多- 软银拟全面收购Balyo:自动化叉车玩家迎来“资本与战略双重加持”
- AI导航走进光伏工地——Civ Robotics重构施工物流
- 人形机器人正在走上“前线哨位”
- 让机器人充当卡车车厢“苦力”--Pickle Robot在供应链一线落地“Physical AI”
- 让存储成为“AI大脑”——日本铠侠AiSAQ为物流图像识别打开新路径
- 现代汽车量产级MobED释放机器人“移动底盘”的想象力
- 云端“解算器”亮相--Realtime携Resolver亮相iREX 2025
- 从语音到实物—麻省理工展示生成式AI与机器人协同制造潜力
- DHL携手Robust.AI推进下一代物流自动化
- 科研案例 | GigaWorld-0:用世界模型破解具身智能数据难题
