一种用于智能驾驶的多模态推理分割方法及相关装置

正文

推荐专利

申请号：CN202511018074

申请日期：2025-07-23

公开号：CN120876861A

公开日期：2025-10-31

类型：发明专利

摘要

本发明属于多模态人工智能、语义推理与目标检测分割技术领域，公开了一种用于智能驾驶的多模态推理分割方法及相关装置，包括如下步骤：获取数据，所述数据包括文本提示和云端服务器采集的初始图像数据；利用LLaVA模型对所述文本提示和初始图像数据进行处理，得到推理语言响应；对所述文本提示提取关键词；利用已训练好的Grounded SAM模型对所述关键词和初始图像数据进行处理，得到分割后的图像，实现目标物体的划分。本发明能够融合音频、图像与文本这些多模态输入信息，具备高精度推理能力，能够以满足智能驾驶系统对安全性、准确性与实时性的综合要求。

技术关键词

分割方法文本关键词图像云端服务器数据处理单元音频特征视觉特征数据获取单元多模态物体分割系统音频编码处理器标签存储装置指令模块

系统为您推荐了相关专利信息

一种基于钢筋绑扎机器人的钢筋骨架尺寸测量方法及装置

绑扎机器人训练神经网络模型钢筋骨架视频流尺寸测量方法

基于意图识别的检索增强生成、问答方法及系统

意图识别文本问答方法大语言模型数据获取模块

目标对象的行为检测方法、装置、设备、存储介质及产品

图像特征信息深度残差对象子模块生成提示信息

一种RGB-D图像的深度图重建方法、产品、介质及设备

深度图重建方法彩色图像优化训练数据边缘检测算法联合双边滤波

基于自适应分组策略及Kolmogorov-Arnold Networks的医学图像分割方法

医学图像分割方法计算机程序指令策略医学图像分割系统动态上下文信息

一种用于智能驾驶的多模态推理分割方法及相关装置

站点导航

APP 下载