一种基于视觉增强实体级交互网络的多模态摘要生成方法

正文

推荐专利

申请号：CN202410755744

申请日期：2024-06-12

公开号：CN118520417A

公开日期：2024-08-20

类型：发明专利

摘要

本发明提出了一种视觉增强实体级交互网络的多模态摘要方法，设计了跨模态实体交互模块，该模块包括句子级、实体级和物体级三个级别的特征，从而更好地融合文本中的实体信息与图像中的物体信息，提供更丰富的多模态表示。同时，将提取的图像特征融入物体引导的视觉增强模块中。该模块能够全面提取视觉特征，并增强图像对物体区域的关注度，能够更有效地将视觉信息注入多模态解码器中，提高多模态摘要的性能。

技术关键词

实体物体交互网络解码器视觉特征摘要方法融合特征多模态跨模态交互特征摘要生成方法图像注意力机制索引文本网格特征模块

系统为您推荐了相关专利信息

结合领域知识的新型电力系统威胁实体识别方法及系统

新型电力系统实体识别方法实体识别模型实体识别系统术语

一种基于潜在掩码的图像修复方法、装置、设备及介质

图像修复模型图像修复方法图片特征信息解码器架构非暂态计算机可读存储介质

基于六自由度信息引导的沉浸式视频质量评价方法及装置

沉浸式视频关键帧语言编码器视频块纹理

一种肺动脉血流动力学参数预测方法及系统

血流动力学参数图像分割模型交叉注意力机制混合损失函数分支

基于大模型与数据同化的作物知识图谱问答方法及系统

知识图谱问答方法路径优化方法生成图谱大语言模型门控循环单元

一种基于视觉增强实体级交互网络的多模态摘要生成方法

站点导航

APP 下载