摘要
本发明涉及混合现实与人工智能融合应用技术领域,尤其涉及一种基于多模态融合的混合现实智能巡检方法及系统。其技术方案包括以下步骤:通过混合现实设备同步采集用户视野图像与语音流数据;采用改进的YOLOv10模型对所述视野图像进行目标检测,输出候选目标区域及其置信度分数;通过Whisper语音识别模型转写语音输入,并利用BERT语义嵌入模型生成语义向量。本发明通过融合图像、语音与空间注视信息的多模态协同感知机制,结合上下文语义优化与轻量化终端部署,在复杂工业巡检场景中实现高精度、实时性、强鲁棒性的智能目标识别与自然交互。
技术关键词
智能巡检方法
语义向量
多模态
混合现实设备
智能巡检系统
语音识别模型
多尺度特征金字塔
检测损失
图像
视野
决策
工业巡检
语音识别模块
强鲁棒性
头戴设备
注意力机制
系统为您推荐了相关专利信息
交通流量预测方法
交通流量预测系统
时空注意力机制
子模块
加权插值法
多模态数据融合
故障诊断方法
全寿命周期管理
液压系统部件
故障传播路径
路面附着系数
低附路面
扩张状态观测器
横摆角速度
多模态环境
防尘式汽车
多重防护结构
汽车充电桩
事件特征
壳体