资讯

清华&天创&达摩院&东南大学联合首发工业多模态安全数据集InspecSafe

转载 2026-02-02 14:35 天创机器人 来源:天创机器人
北京天创万安科技装备有限公司

工业智能和无人巡检发展迅猛,但AI如何在复杂、危险且动态变化的真实工厂环境中可靠地“看”懂场景、评估安全,仍是阻碍其大规模落地的核心瓶颈。现有公开数据集大多来自仿真环境或静态近景拍摄,缺乏真实扰动、多模态对齐和细粒度的安全语义标注,导致训练出的模型“纸上谈兵”,在实际部署中频频失效。

为攻克这一难题,清华大学、天创机器人、达摩院与东南大学团队联合发布InspecSafe-V1——业界首个基于真实巡检机器人日常作业构建的工业多模态安全评估基准数据集。该数据集旨在将真实工业场景的动态复杂性转化为结构化基准,为开发下一代可靠的工业视觉-语言大模型奠定坚实的数据基石。

为什么工业AI需要“更真、更全”的数据? 

当前已公开的工业视觉数据集多在受控的实验室环境下采集,背景干净、光照稳定、视角固定。然而,真实的巡检现场充斥着剧烈光照变化、粉尘烟雾遮挡、金属表面强反射、复杂背景干扰等挑战。仅用“纯净”数据训练的模型,面对真实场景往往表现“失明”。更重要的是,工业安全评估远不止识别物体。它需要系统理解物体状态及其关联,例如:人员是否闯入危险区、设备温度是否异常攀升、气体泄漏与通风状况的耦合关系。这要求数据必须提供:

细粒度物体标注:支撑对设备、部件、隐患的精确识别。

多模态同步信息:融合视觉、热成像、声音、气体等多维度传感证据。

场景级安全语义:明确的安全等级描述与风险评估。

来自工业一线的“全景记忆”档案 

研究团队摒弃了传统的固定机位采集方式,直接将数据采集前端部署于41台正在实际服役的轮式与轨道式巡检机器人上。这些机器人穿梭于隧道、电力设施、冶金烧结、石油化工、输煤栈桥这五大典型工业场景中,从2239个有效巡检点收集了5013个巡检实例

1

双重机器人平台,覆盖全场景视角

轮式机器人:地面灵活移动,提供对设备的近距离特写视图。

轨道式机器人:沿固定轨道运行,可跨越障碍,执行长距离、连续性的广域巡检。

二者结合,实现了对工业环境“由近及远、动静结合” 的全方位覆盖。

2

多模态同步感知,构建安全证据链

每个巡检实例都提供了严格时间同步的八种模态数据,宛如为机器人装备了“超感官”:

核心视觉:高清RGB视频、热红外视频

三维几何:深度点云、雷达点云

环境感知:气体浓度、温度、湿度监测

音频监听:环境噪音

3

层级精细标注,定义安全评估新标准

数据集不仅提供原始数据,更提供了深度加工的“知识”

像素级实例分割:对234类关键工业对象(如管道、阀门、螺栓、防护网)进行精细勾勒。

语义场景描述:用自然语言概括场景环境、关键对象和可见事件。

安全等级标签:依据行业安全规范,将场景安全分为I级(高风险)至 IV级(无异常)。例如,在石油化工场景中,“明火”、“烟雾”、“人员倒地”被定义为I级风险。

VLMs大模型面临真实工业场景大考 

研究团队基于InspecSafe-V1设立了标准化的安全评估基准任务,用于衡量现有通用视觉-语言大模型在复杂工业环境下的理解与推理能力。

评测任务:模型需要根据输入的工业场景RGB图像,输出场景描述安全等级判断

核心发现

模型性能不单纯取决于参数规模。一些参数量较小的模型,由于具备更好的推理对齐能力,其表现可能优于参数量更大的模型。

“推理增强型”模型显著优于“仅指令微调”的模型。例如,在Qwen3-VL家族中,具备推理能力的版本比指令微调版本准确率高出约8个百分点,并减少了误报。

真实工业场景干扰是主要错误来源。多数误报并非源于真实危险,而是由强烈反光、逆光、高对比度阴影、颗粒物散射等恶劣视觉条件引发的模型“幻觉”。部分保守模型(如GPT-5.2)误报率超30%,这在真实场景中会导致警报泛滥,增加运维成本。

存在两类典型错误

场景误判引发连锁失败:如将输煤栈桥误判为化工厂,导致后续安全标准完全错用。

细粒度违规漏检:如未能检测出人员未戴安全手套、使用手机等行为,暴露了通用模型在细粒度行为识别上的局限。

数据开源与应用展望 

InspecSafe-V1数据集已公开发布,包含所有多模态原始数据、精细标注文件、标定参数与元数据索引。主要应用方向:

工业安全评估与预警模型开发

多模态感知与融合算法研究

视觉-语言联合建模与具身推理

领域自适应与跨场景泛化能力测试

使用说明:数据集以“巡检实例”为中心组织,格式通用(MP4, WAV, ROS bag, JSON)。每个实例均包含RGB图像及其对应的像素级标注和语义标签,确保研究起点的一致性。

通往可靠工业智能的基石 

InspecSafe-V1的发布,标志着工业AI数据建设从“实验室洁净数据”迈向 “现场复杂数据”的关键一步。其核心贡献在于:

真实性:源自真实作业机器人,内置了光照变化、遮挡等核心挑战。

多模态性:八种传感器同步,支撑跨模态融合推理。

语义丰富性:提供实例、场景、安全三层级标注,直接服务于安全理解任务。

要构建真正可信、可用的工业基础模型,必须首先为其提供能够反映物理世界复杂性和任务语义多样性的“养料”。InspecSafe-V1正是这样一块坚实的基石,天创机器人为探索工业环境下可靠感知与安全的下一代AI开启了大门。

取消