一种面向视觉文本交互的多模态数据融合方法及系统

AITNT
正文
推荐专利
一种面向视觉文本交互的多模态数据融合方法及系统
申请号:CN202411115252
申请日期:2024-08-14
公开号:CN119203021A
公开日期:2024-12-27
类型:发明专利
摘要
本发明公开了一种面向视觉文本交互的多模态数据融合方法及系统,其中,所述方法包括:对原始视频数据和原始文本数据进行预处理;基于时空图卷积模型对该原始视频数据进行视觉特征嵌入,获得视觉特征表示;基于BERT模型对该原始文本数据进行分层语义聚合处理,获得文本特征表示;基于交互关系矩阵利用视觉特征表示和文本特征表示生成聚合外观节点表示和聚合运动节点表示以生成目标视觉表示;对目标视觉表示和文本特征表示进行融合,获得视觉文本联合表示,并基于视觉文本联合表示执行视觉文本交互任务。本发明解决了现有的多模态数据融合技术中,语义融合层次浅和视觉文本交互简单的问题。
技术关键词
数据融合方法 文本 视觉特征 运动特征 节点 BERT模型 矩阵 卷积模型 对象 表达式 视频 实体 语义模板 集成视觉 关系 句法分析技术
系统为您推荐了相关专利信息
1
一种用于数据通信的分布式边缘计算方法
分布式边缘计算方法 数据通信 数学模型 最大化资源利用率 分布式计算网络
2
一种CDN多源站
线路 时间序列算法 模块 预加载机制 协同过滤算法
3
区域健康管理责任的智能分配方法、装置及设备
居民 风险评估模型 智能分配方法 节点 时序特征
4
一种基于人工智能的诊断方法、装置、电子设备和存储介质
诊断方法 数学模型 医学 电子设备 诊断装置
5
一种基于纹理分析的快速划分编码块和预测块的方法与装置
像素点 纹理 复杂度 编码树单元 图像块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号