摘要
本申请公开了一种基于多模态融合的视觉意图目标定位方法,方法包括:构建两条独立且平行处理管道,管道包括:第一管道及第二管道,第一管道用于对输入的待检测的自然语言意图,结合大语言模型及视觉定位模型进行处理,输出第一处理结果;第二管道用于对输入的待检测的场景图像,结合物体检测模型及所述大语言模型进行处理,输出第二处理结果;基于预构建的多模态大语言模型,对两条管道输出的第一处理结果和第二处理结果进行融合,基于整体多模态关联性自适应选择最优检测结果,输出综合决策,实现视觉意图目标定位。本发明方法大幅提升了复杂视觉场景的隐式意图理解与匹配表现。
技术关键词
大语言模型
多模态
意图
定位方法
物体检测模型
管道
视觉
自然语言
决策
场景
图像
处理器
列表
定位系统
标签
模板
可读存储介质
文本
存储器
电子设备
系统为您推荐了相关专利信息
安保模块
多模态协同
燃气泄露监控
监测模块
油雾探测器
大语言模型
文本
关键词
风险控制方法
风险预测模型
情绪识别方法
终端设备
频段
拉普拉斯噪声
噪声量
采油工人
区域环境数据
精准定位方法
作业现场
动态调度算法