一种基于视觉增强实体级交互网络的多模态摘要生成方法

AITNT
正文
推荐专利
一种基于视觉增强实体级交互网络的多模态摘要生成方法
申请号:CN202410755744
申请日期:2024-06-12
公开号:CN118520417A
公开日期:2024-08-20
类型:发明专利
摘要
本发明提出了一种视觉增强实体级交互网络的多模态摘要方法,设计了跨模态实体交互模块,该模块包括句子级、实体级和物体级三个级别的特征,从而更好地融合文本中的实体信息与图像中的物体信息,提供更丰富的多模态表示。同时,将提取的图像特征融入物体引导的视觉增强模块中。该模块能够全面提取视觉特征,并增强图像对物体区域的关注度,能够更有效地将视觉信息注入多模态解码器中,提高多模态摘要的性能。
技术关键词
实体 物体 交互网络 解码器 视觉特征 摘要方法 融合特征 多模态 跨模态 交互特征 摘要生成方法 图像 注意力机制 索引 文本 网格特征 模块
系统为您推荐了相关专利信息
1
结合领域知识的新型电力系统威胁实体识别方法及系统
新型电力系统 实体识别方法 实体识别模型 实体识别系统 术语
2
一种基于潜在掩码的图像修复方法、装置、设备及介质
图像修复模型 图像修复方法 图片特征信息 解码器架构 非暂态计算机可读存储介质
3
基于六自由度信息引导的沉浸式视频质量评价方法及装置
沉浸式视频 关键帧 语言编码器 视频块 纹理
4
一种肺动脉血流动力学参数预测方法及系统
血流动力学参数 图像分割模型 交叉注意力机制 混合损失函数 分支
5
基于大模型与数据同化的作物知识图谱问答方法及系统
知识图谱问答方法 路径优化方法 生成图谱 大语言模型 门控循环单元
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号