摘要
本申请涉及一种基于多模融合的车载对话识别方法及系统,通过信息采集系统,采集语音信息和图像信息,结合语音、文本和图像信息,将相关信息通过对齐后,基于大模型的技术以更准确地判断用户对话意图。具体的,解析语音信息和图像信息,生成特征数值,并利用时间戳对齐语音信息和图像信息。将对齐的语音信息和图像信息特征,通过三级仲裁机制,简单规则、简化模型、深度模型进行最终决策。多模态方法提供了更丰富的信息来源,能够更准确地判断用户的对话意图。结合语音、文本、图像信息和车辆状态信息,并对齐时间信息后,系统具有更好的适应性和鲁棒性,能够在复杂环境下准确判断据识意图,通过多级仲裁的设计,可以兼顾响应速度和据识效果。
技术关键词
多模态
识别方法
数值
机器学习模型
意图
信息采集系统
生成特征
语音输入设备
模块通信
文本
图像处理模型
语音识别模型
图像采集模块
深度学习模型
大语言模型
数据
生成深度学习
生成机器学习
系统为您推荐了相关专利信息
阀门开关控制
PID控制算法
参数
灰狼优化算法
进出料
运动编码器
运动轨迹数据
意图
提示方法
长短期记忆神经网络
三维微结构
可视化方法
三维点云建模
结构特征分析
图像处理
视频生成模型
多模态特征
深度特征信息
噪声预测
融合特征