摘要
本发明提出了一种视觉增强实体级交互网络的多模态摘要方法,设计了跨模态实体交互模块,该模块包括句子级、实体级和物体级三个级别的特征,从而更好地融合文本中的实体信息与图像中的物体信息,提供更丰富的多模态表示。同时,将提取的图像特征融入物体引导的视觉增强模块中。该模块能够全面提取视觉特征,并增强图像对物体区域的关注度,能够更有效地将视觉信息注入多模态解码器中,提高多模态摘要的性能。
技术关键词
实体
物体
交互网络
解码器
视觉特征
摘要方法
融合特征
多模态
跨模态
交互特征
摘要生成方法
图像
注意力机制
索引
文本
网格特征
模块
系统为您推荐了相关专利信息
新型电力系统
实体识别方法
实体识别模型
实体识别系统
术语
图像修复模型
图像修复方法
图片特征信息
解码器架构
非暂态计算机可读存储介质
血流动力学参数
图像分割模型
交叉注意力机制
混合损失函数
分支
知识图谱问答方法
路径优化方法
生成图谱
大语言模型
门控循环单元