一种基于多模态融合的视觉意图目标定位方法及其系统

正文

推荐专利

申请号：CN202510831552

申请日期：2025-06-20

公开号：CN120852924A

公开日期：2025-10-28

类型：发明专利

摘要

本申请公开了一种基于多模态融合的视觉意图目标定位方法，方法包括：构建两条独立且平行处理管道，管道包括：第一管道及第二管道，第一管道用于对输入的待检测的自然语言意图，结合大语言模型及视觉定位模型进行处理，输出第一处理结果；第二管道用于对输入的待检测的场景图像，结合物体检测模型及所述大语言模型进行处理，输出第二处理结果；基于预构建的多模态大语言模型，对两条管道输出的第一处理结果和第二处理结果进行融合，基于整体多模态关联性自适应选择最优检测结果，输出综合决策，实现视觉意图目标定位。本发明方法大幅提升了复杂视觉场景的隐式意图理解与匹配表现。

技术关键词

大语言模型多模态意图定位方法物体检测模型管道视觉自然语言决策场景图像处理器列表定位系统标签模板可读存储介质文本存储器电子设备

系统为您推荐了相关专利信息

基于多模态协同控制的320缸径双燃料发动机电控系统及方法

安保模块多模态协同燃气泄露监控监测模块油雾探测器

一种风险控制方法、装置、存储介质及电子设备

大语言模型文本关键词风险控制方法风险预测模型

一种基于用户行为的商品感兴趣度分析方法、计算机设备及存储介质

度分析方法感兴趣报告画像计算机可执行指令

多模态信号融合情绪识别方法

情绪识别方法终端设备频段拉普拉斯噪声噪声量

一种作业现场人员精准定位方法和系统

采油工人区域环境数据精准定位方法作业现场动态调度算法

一种基于多模态融合的视觉意图目标定位方法及其系统

站点导航

APP 下载