摘要
本发明涉及计算机视觉领域,公开了一种基于多模态检索增强生成的新闻图片描述方法,该方法首先构建以实体为中心的多模态知识库,设计基于思维链的跨模态对齐策略,筛选相关句子生成假设图片描述和新闻摘要;提出背景信息与实体协同检索增强机制,优化背景知识图并实现精准实体匹配;最后将假设图片描述、新闻摘要、选定句子和匹配实体输入InstructBLIP文本编码器获取文本特征,图片经视觉编码器获取视觉特征,背景知识图经GAT获取知识特征,融合到解码器得到新闻图片描述。本发明通过多模态知识库构建、思维链跨模态对齐和背景信息与实体协同检索增强,有效提高新闻图片描述的准确性和语义对齐能力。
技术关键词
视觉特征
多模态
文本编码器
图片人脸
人脸检测模型
命名实体识别
解码器
人脸识别模型
注意力
对齐方法
大语言模型
人脸图片
生成指令
计算机视觉
代表
摘要
系统为您推荐了相关专利信息
情感交互系统
音频
多模态
情感交互方法
控制通讯协议
运维知识图谱
条目
结构化查询语句
文本
命名实体识别模型
生成对抗网络模型
多模态特征融合
深度卷积神经网络
数据
梅尔频率倒谱系数
投递系统
电子邮件投递方法
前馈神经网络
编码器
Sigmoid函数