一种面向视觉文本交互的多模态数据融合方法及系统

正文

推荐专利

申请号：CN202411115252

申请日期：2024-08-14

公开号：CN119203021A

公开日期：2024-12-27

类型：发明专利

摘要

本发明公开了一种面向视觉文本交互的多模态数据融合方法及系统，其中，所述方法包括：对原始视频数据和原始文本数据进行预处理；基于时空图卷积模型对该原始视频数据进行视觉特征嵌入，获得视觉特征表示；基于BERT模型对该原始文本数据进行分层语义聚合处理，获得文本特征表示；基于交互关系矩阵利用视觉特征表示和文本特征表示生成聚合外观节点表示和聚合运动节点表示以生成目标视觉表示；对目标视觉表示和文本特征表示进行融合，获得视觉文本联合表示，并基于视觉文本联合表示执行视觉文本交互任务。本发明解决了现有的多模态数据融合技术中，语义融合层次浅和视觉文本交互简单的问题。

技术关键词

数据融合方法文本视觉特征运动特征节点 BERT模型矩阵卷积模型对象表达式视频实体语义模板集成视觉关系句法分析技术

系统为您推荐了相关专利信息

一种用于数据通信的分布式边缘计算方法

分布式边缘计算方法数据通信数学模型最大化资源利用率分布式计算网络

一种CDN多源站

线路时间序列算法模块预加载机制协同过滤算法

区域健康管理责任的智能分配方法、装置及设备

居民风险评估模型智能分配方法节点时序特征

一种基于人工智能的诊断方法、装置、电子设备和存储介质

诊断方法数学模型医学电子设备诊断装置

一种基于纹理分析的快速划分编码块和预测块的方法与装置

像素点纹理复杂度编码树单元图像块

一种面向视觉文本交互的多模态数据融合方法及系统

站点导航

APP 下载