摘要
本发明公开了一种多模态感知方法、装置、设备、存储介质及产品,方法包括:构建由多种感知器组成的多模态感知群,其中,感知器包括数学分析器、视觉分析器、深度感知器、地图感知器和视觉检测器;构建可推理感知器中的大语言模型,并对多模态感知群进行感知管理;基于大语言模型,将自然语言描述的原始任务解析为抽象多模态的预期感知状态;通过多模态感知群和大语言模型,感知实际场景中的信息并进行语义表征,得到实际感知状态;通过大语言模型对预期感知状态和实际感知状态进行的一致性匹配,得到匹配结果,以评估原始任务最终的真实完成情况。采用本发明实施例,能降低资源消耗和开发成本,提高多模态感知和任务分析的效率和准确性。
技术关键词
大语言模型
多模态
视觉检测器
分析器
导航机器人
计算机程序产品
数学
自然语言
场景深度信息
可读存储介质
推算功能
路径规划算法
语义地图
感知装置
模块
系统为您推荐了相关专利信息
神经网络模型
数据采集层
驱动信号
多维特征向量
服务器散热控制
多模态医学影像
脑胶质瘤
高阶统计量
肿瘤
医学影像设备