摘要
本发明提供一种多模态意图识别方法及系统,方法包括以下步骤:获取若干个初始文本向量、初始视频向量的视频特征集及初始音频向量;获取与初始文本向量对应的第一融合向量及第二融合向量;判断第一融合向量是否为第一待用向量,并判断第二融合向量是否为第二待用向量;通过第一待用向量获取初始视频待融向量,通过第二待用向量获取初始音频待融向量,对两者进行交互增强,以获取最终视频待融向量及最终音频待融向量;将两者与初始文本向量融合为多模态特征集。通过将初始文本向量分别与不同的初始视频向量及不同的初始音频向量进行关联,一重抑制无关噪声的影响;通过提取高相似度的第一融合向量及第二融合向量,二重抑制无关噪声的影响。
技术关键词
意图识别方法
视频
文本
多模态特征
语义关键词
语义向量
特征协方差矩阵
语义标签
意图识别系统
音频特征
模块
噪声
因子
网络
系统为您推荐了相关专利信息
空气质量检测方法
视频
时间段
空气质量治理
摄像设备
知识图谱构建方法
校园
三元组
BiLSTM模型
文本数据提取
视频录入设备
人工智能图像
视频识别系统
数据平台
人体解剖学