一种基于多模融合的车载对话识别方法及系统

正文

推荐专利

申请号：CN202410982115

申请日期：2024-07-22

公开号：CN118571220B

公开日期：2025-01-24

类型：发明专利

摘要

本申请涉及一种基于多模融合的车载对话识别方法及系统，通过信息采集系统，采集语音信息和图像信息，结合语音、文本和图像信息，将相关信息通过对齐后，基于大模型的技术以更准确地判断用户对话意图。具体的，解析语音信息和图像信息，生成特征数值，并利用时间戳对齐语音信息和图像信息。将对齐的语音信息和图像信息特征，通过三级仲裁机制，简单规则、简化模型、深度模型进行最终决策。多模态方法提供了更丰富的信息来源，能够更准确地判断用户的对话意图。结合语音、文本、图像信息和车辆状态信息，并对齐时间信息后，系统具有更好的适应性和鲁棒性，能够在复杂环境下准确判断据识意图，通过多级仲裁的设计，可以兼顾响应速度和据识效果。

技术关键词

多模态识别方法数值机器学习模型意图信息采集系统生成特征语音输入设备模块通信文本图像处理模型语音识别模型图像采集模块深度学习模型大语言模型数据生成深度学习生成机器学习

系统为您推荐了相关专利信息

一种基于容量变化的进出料阀门开关控制方法及系统

阀门开关控制 PID控制算法参数灰狼优化算法进出料

一种基于预训练LLMs轨迹预测的车辆最佳换道时机提示方法和系统

运动编码器运动轨迹数据意图提示方法长短期记忆神经网络

多模态数据的信息存储方法及相关设备

图像块信息存储方法数据文本特征向量多模态

一种基于图像处理的巨噬细胞结构特征可视化方法及系统

三维微结构可视化方法三维点云建模结构特征分析图像处理

视频生成模型训练方法、视频生成方法、装置及电子设备

视频生成模型多模态特征深度特征信息噪声预测融合特征

一种基于多模融合的车载对话识别方法及系统

站点导航

APP 下载