摘要
本发明涉及一种基于语音与视线多模态融合的意图识别方法及系统,属于意图识别技术领域。包括:特征提取:从语音和脸部提取文本、语音和视线特征;多模态表示:包括:1)模态共享表示;2)模态特异表示;多模态融合:包括:3)模态内融合;4)跨模态融合;意图识别:将最终的融合特征输入多层感知机,并连接softmax层输出分类结果,进行意图识别。本发明在每个训练步骤中随机选择训练集中的一个受试者,并应用元学习方法,即基于一阶梯度的算法来更新模型,缓解过拟合问题,使模型能够优化新的参数。本发明通过应用基于全脸外观和随机身份对抗网络的视线特征提取方法,实现与外观无关的视线估计以及脸部重点特征的提取。
技术关键词
交叉注意力机制
融合特征
意图识别方法
多模态
文本
编码器
跨模态
人脸身份
语音特征
多层感知机
元学习策略
解码器
特异
重建误差
元学习方法
参数
系统为您推荐了相关专利信息
驾驶仿真方法
仿真场景
构建状态转移模型
场景特征
大数据
医疗无人机
环境感知方法
障碍物分布图
多模态
障碍物识别
转向架检测系统
图像检测装置
工位
激光测距仪
防护装置