摘要
本发明公开了一种面向视觉文本交互的多模态数据融合方法及系统,其中,所述方法包括:对原始视频数据和原始文本数据进行预处理;基于时空图卷积模型对该原始视频数据进行视觉特征嵌入,获得视觉特征表示;基于BERT模型对该原始文本数据进行分层语义聚合处理,获得文本特征表示;基于交互关系矩阵利用视觉特征表示和文本特征表示生成聚合外观节点表示和聚合运动节点表示以生成目标视觉表示;对目标视觉表示和文本特征表示进行融合,获得视觉文本联合表示,并基于视觉文本联合表示执行视觉文本交互任务。本发明解决了现有的多模态数据融合技术中,语义融合层次浅和视觉文本交互简单的问题。
技术关键词
数据融合方法
文本
视觉特征
运动特征
节点
BERT模型
矩阵
卷积模型
对象
表达式
视频
实体
语义模板
集成视觉
关系
句法分析技术
系统为您推荐了相关专利信息
分布式边缘计算方法
数据通信
数学模型
最大化资源利用率
分布式计算网络
线路
时间序列算法
模块
预加载机制
协同过滤算法