一种基于多模态检索增强生成的新闻图片描述方法

正文

推荐专利

申请号：CN202510694613

申请日期：2025-05-28

公开号：CN120336571A

公开日期：2025-07-18

类型：发明专利

摘要

本发明涉及计算机视觉领域，公开了一种基于多模态检索增强生成的新闻图片描述方法，该方法首先构建以实体为中心的多模态知识库，设计基于思维链的跨模态对齐策略，筛选相关句子生成假设图片描述和新闻摘要；提出背景信息与实体协同检索增强机制，优化背景知识图并实现精准实体匹配；最后将假设图片描述、新闻摘要、选定句子和匹配实体输入InstructBLIP文本编码器获取文本特征，图片经视觉编码器获取视觉特征，背景知识图经GAT获取知识特征，融合到解码器得到新闻图片描述。本发明通过多模态知识库构建、思维链跨模态对齐和背景信息与实体协同检索增强，有效提高新闻图片描述的准确性和语义对齐能力。

技术关键词

视觉特征多模态文本编码器图片人脸人脸检测模型命名实体识别解码器人脸识别模型注意力对齐方法大语言模型人脸图片生成指令计算机视觉代表摘要

系统为您推荐了相关专利信息

多模态情感交互系统及方法

情感交互系统音频多模态情感交互方法控制通讯协议

自适应关键帧挖掘和时空图学习引导的多模态多目标跟踪方法

关键帧融合特征跟踪方法视频可见光图像

数字化系统问题处理方法及装置

运维知识图谱条目结构化查询语句文本命名实体识别模型

一种基于生成对抗网络和多模态数据的智能数据增强方法、装置及介质

生成对抗网络模型多模态特征融合深度卷积神经网络数据梅尔频率倒谱系数

一种营销电子邮件投递系统及方法

投递系统电子邮件投递方法前馈神经网络编码器 Sigmoid函数

一种基于多模态检索增强生成的新闻图片描述方法

站点导航

APP 下载