一种基于语音与视线多模态融合的意图识别方法及系统

AITNT
正文
推荐专利
一种基于语音与视线多模态融合的意图识别方法及系统
申请号:CN202411730078
申请日期:2024-11-29
公开号:CN119206424B
公开日期:2025-04-25
类型:发明专利
摘要
本发明涉及一种基于语音与视线多模态融合的意图识别方法及系统,属于意图识别技术领域。包括:特征提取:从语音和脸部提取文本、语音和视线特征;多模态表示:包括:1)模态共享表示;2)模态特异表示;多模态融合:包括:3)模态内融合;4)跨模态融合;意图识别:将最终的融合特征输入多层感知机,并连接softmax层输出分类结果,进行意图识别。本发明在每个训练步骤中随机选择训练集中的一个受试者,并应用元学习方法,即基于一阶梯度的算法来更新模型,缓解过拟合问题,使模型能够优化新的参数。本发明通过应用基于全脸外观和随机身份对抗网络的视线特征提取方法,实现与外观无关的视线估计以及脸部重点特征的提取。
技术关键词
交叉注意力机制 融合特征 意图识别方法 多模态 文本 编码器 跨模态 人脸身份 语音特征 多层感知机 元学习策略 解码器 特异 重建误差 元学习方法 参数
系统为您推荐了相关专利信息
1
一种信息安全传输的图像识别与文本还原方法及装置
文本还原方法 还原装置 数据 图片 视频录制设备
2
一种基于大数据联合训练的智能驾驶仿真方法及装置
驾驶仿真方法 仿真场景 构建状态转移模型 场景特征 大数据
3
低空医疗无人机的多模态环境感知方法及系统
医疗无人机 环境感知方法 障碍物分布图 多模态 障碍物识别
4
转向架检测系统及其控制方法
转向架检测系统 图像检测装置 工位 激光测距仪 防护装置
5
人脸属性编辑模型的训练和应用方法、装置、设备及介质
人脸属性 编辑 标签 文本 编码器结构
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号