摘要
本发明属于多模态人工智能、语义推理与目标检测分割技术领域,公开了一种用于智能驾驶的多模态推理分割方法及相关装置,包括如下步骤:获取数据,所述数据包括文本提示和云端服务器采集的初始图像数据;利用LLaVA模型对所述文本提示和初始图像数据进行处理,得到推理语言响应;对所述文本提示提取关键词;利用已训练好的Grounded SAM模型对所述关键词和初始图像数据进行处理,得到分割后的图像,实现目标物体的划分。本发明能够融合音频、图像与文本这些多模态输入信息,具备高精度推理能力,能够以满足智能驾驶系统对安全性、准确性与实时性的综合要求。
技术关键词
分割方法
文本
关键词
图像
云端服务器
数据处理单元
音频特征
视觉特征
数据获取单元
多模态
物体
分割系统
音频编码
处理器
标签
存储装置
指令
模块
系统为您推荐了相关专利信息
绑扎机器人
训练神经网络模型
钢筋骨架
视频流
尺寸测量方法
意图识别
文本
问答方法
大语言模型
数据获取模块
图像特征信息
深度残差
对象
子模块
生成提示信息
深度图重建方法
彩色图像
优化训练数据
边缘检测算法
联合双边滤波
医学图像分割方法
计算机程序指令
策略
医学图像分割系统
动态上下文信息