一种基于多模态融合的视觉意图目标定位方法及其系统

AITNT
正文
推荐专利
一种基于多模态融合的视觉意图目标定位方法及其系统
申请号:CN202510831552
申请日期:2025-06-20
公开号:CN120852924A
公开日期:2025-10-28
类型:发明专利
摘要
本申请公开了一种基于多模态融合的视觉意图目标定位方法,方法包括:构建两条独立且平行处理管道,管道包括:第一管道及第二管道,第一管道用于对输入的待检测的自然语言意图,结合大语言模型及视觉定位模型进行处理,输出第一处理结果;第二管道用于对输入的待检测的场景图像,结合物体检测模型及所述大语言模型进行处理,输出第二处理结果;基于预构建的多模态大语言模型,对两条管道输出的第一处理结果和第二处理结果进行融合,基于整体多模态关联性自适应选择最优检测结果,输出综合决策,实现视觉意图目标定位。本发明方法大幅提升了复杂视觉场景的隐式意图理解与匹配表现。
技术关键词
大语言模型 多模态 意图 定位方法 物体检测模型 管道 视觉 自然语言 决策 场景 图像 处理器 列表 定位系统 标签 模板 可读存储介质 文本 存储器 电子设备
系统为您推荐了相关专利信息
1
基于多模态协同控制的320缸径双燃料发动机电控系统及方法
安保模块 多模态协同 燃气泄露监控 监测模块 油雾探测器
2
一种风险控制方法、装置、存储介质及电子设备
大语言模型 文本 关键词 风险控制方法 风险预测模型
3
一种基于用户行为的商品感兴趣度分析方法、计算机设备及存储介质
度分析方法 感兴趣 报告 画像 计算机可执行指令
4
多模态信号融合情绪识别方法
情绪识别方法 终端设备 频段 拉普拉斯噪声 噪声量
5
一种作业现场人员精准定位方法和系统
采油工人 区域环境数据 精准定位方法 作业现场 动态调度算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号