一种基于语音与视线多模态融合的意图识别方法及系统

正文

推荐专利

申请号：CN202411730078

申请日期：2024-11-29

公开号：CN119206424B

公开日期：2025-04-25

类型：发明专利

摘要

本发明涉及一种基于语音与视线多模态融合的意图识别方法及系统，属于意图识别技术领域。包括：特征提取：从语音和脸部提取文本、语音和视线特征；多模态表示：包括：1）模态共享表示；2）模态特异表示；多模态融合：包括：3）模态内融合；4）跨模态融合；意图识别：将最终的融合特征输入多层感知机，并连接softmax层输出分类结果，进行意图识别。本发明在每个训练步骤中随机选择训练集中的一个受试者，并应用元学习方法，即基于一阶梯度的算法来更新模型，缓解过拟合问题，使模型能够优化新的参数。本发明通过应用基于全脸外观和随机身份对抗网络的视线特征提取方法，实现与外观无关的视线估计以及脸部重点特征的提取。

技术关键词

交叉注意力机制融合特征意图识别方法多模态文本编码器跨模态人脸身份语音特征多层感知机元学习策略解码器特异重建误差元学习方法参数

系统为您推荐了相关专利信息

一种信息安全传输的图像识别与文本还原方法及装置

文本还原方法还原装置数据图片视频录制设备

一种基于大数据联合训练的智能驾驶仿真方法及装置

驾驶仿真方法仿真场景构建状态转移模型场景特征大数据

低空医疗无人机的多模态环境感知方法及系统

医疗无人机环境感知方法障碍物分布图多模态障碍物识别

转向架检测系统及其控制方法

转向架检测系统图像检测装置工位激光测距仪防护装置

人脸属性编辑模型的训练和应用方法、装置、设备及介质

人脸属性编辑标签文本编码器结构

一种基于语音与视线多模态融合的意图识别方法及系统

站点导航

APP 下载